码迷,mamicode.com
首页 > 其他好文 > 详细

搞数据抓取搞得整个人都不好了

时间:2015-08-16 16:26:29      阅读:180      评论:0      收藏:0      [点我收藏+]

标签:

背景:抓取各个医药网站关于“肝炎”的疾病的问答。

分别是两个问题:

1、用PHPEXCEL保存到excel文件出现中文乱码怎么解决,查了百度查了好久,都没有搞定。百度到的基本是因为是从数据库取数据而数据库编码不一致。可是我是从网站根据phpquery取得数据,所以没有找到有用的东西。

待解决。

2、为什么根据百度到的url 

https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&ch=1&tn=98010089_dg&wd=site%3Aclub.xywy.com%20intitle%3A%E8%82%9D%E7%82%8E&oq=site%3Aclub.xywy.com%20intitle%20%E8%82%9D%E7%82%8E&rsv_pq=f49e11880001fca6&rsv_t=d4481GSX9BMWUhT%2BZMgWOkPIksjYaNwwalBtnUzPcPm87o7bWfkH5elJrKqBQjc7ER8&rsv_enter=1&inputT=1872&gpc=stf%3D1433088000%2C1435766399%7Cstftype%3D2&tfflag=1&si=club.xywy.com&ct=2097152";

  用正则匹配url地址匹配不上呢?查了半天,原来是https和http的区别,估计是https传递数据进行了加密,所以用正则匹配不到。

搞数据抓取搞得整个人都不好了

标签:

原文地址:http://www.cnblogs.com/wangzhi/p/4734357.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!