码迷,mamicode.com
首页 > Web开发 > 详细

PHP - curl实现采集

时间:2017-05-17 17:10:48      阅读:195      评论:0      收藏:0      [点我收藏+]

标签:冒号   title   保存   print   正则   输出   默认   结果   修改   

1、开启curl支持

由于php环境安装后默认是没有打开curl支持的,需修改php.ini文件,找到;extension=php_curl.dll,把前面的冒号去掉,重启服务即可;

2、使用curl进行数据抓取

// 初始化一个 cURL 对象 

$curl = curl_init();

// 设置你需要抓取的URL 

curl_setopt($curl, CURLOPT_URL, ‘http://www.kugou.com/yy/html/special.html‘);

 

// 设置header 

curl_setopt($curl, CURLOPT_HEADER, 1);

// 设置cURL 参数,要求结果保存到字符串中还是输出到屏幕上。 

curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);

// 运行cURL,请求网页 

$data = curl_exec($curl);

// 关闭URL请求 

curl_close($curl);
//print_r($data);

3、通过正则匹配找到关键数据

//$data是curl_exec返回的的值,即采集的目标内容 

preg_match_all("/<div class=\"top\"><em>(.*)<\/em><strong><a title=\"(.*)\" href=\"(.*)\">.*<\/a>/",$data, $arr);
print_r($arr);

最后入库等处理操作....

 

PHP - curl实现采集

标签:冒号   title   保存   print   正则   输出   默认   结果   修改   

原文地址:http://www.cnblogs.com/wt645631686/p/6868078.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!