前言美团商家页分析需要爬取的数据有(这里没有按人数爬)爬虫工具选取pysipderscrapynightmare同步任务js动态加载中断继续爬坑总结示例代码 前言 上学的时候自己写过一些爬虫代码,比较简陋,基于HttpRequest请求获取地址返回的信息,再根据正则表达式抓取想要的内容。那时候爬的网... ...
分类:
Web程序 时间:
2017-09-03 22:05:12
阅读次数:
1645
1.BeautifulSoup简介 BeautifulSoup库通过解析文档可以获取网页文档中所需的数据,方便用户从HTML或XHTML文档中提取数据,作为python的一个辅助工作,也是爬虫实践中的好帮手。 2.BeautifulSoup安装 刚开始的时下载了BeautifulSoup3.2.1, ...
分类:
编程语言 时间:
2017-08-18 17:07:44
阅读次数:
190
由于要抓取的是悦音台mv的排行榜,这个排行榜是实时更新的,如果要求不停地抓取,这将有可能导致悦音台官方采用反爬虫的技术将ip给封掉。所以这里要应用一些反爬虫相关知识。 目标网址:http://vchart.yinyuetai.com/vchart/trends?area=ML 网站结构: 上面红线圈 ...
分类:
其他好文 时间:
2017-07-27 15:55:55
阅读次数:
174
1.目标网址:http://dianying.2345.com/top/ 需要找到的信息:电影的名字,主演,简介,和标题图片 2.查看页面结构: 容易看到,需要的主题部分,都被包裹在‘<ul>“列表标签里, 那么简单的用bs4库找到 "<ul>" tag并迭代取出每一条“<li>”tag, 最后再从 ...
分类:
其他好文 时间:
2017-07-27 11:32:22
阅读次数:
203
一、目标 排行榜的地址:http://www.qu.la/paihangbang/ 找到各类排行旁的的每一部小说的名字,和在该网站的链接。 二、观察网页的结构 很容易就能发现,每一个分类都是包裹在: 之中,这种条理清晰的网站,大大方便了爬虫的编写。 在当前页面找到所有小说的连接,并保存在列表即可。 ...
分类:
其他好文 时间:
2017-07-26 21:54:11
阅读次数:
164
一、阅读 1. 读完《深入理解计算机系统》 2. 读一遍《Linux/UNIX系统编程手册》 3. 读完《程序员的自我修养》 二、开发 1. 写一个轻量级的服务器,用来实践socket编程,多线程等技术,钻研技术细节。 2. 写一个简单的爬虫,实践python。 把上述两个小项目托管到github上 ...
分类:
其他好文 时间:
2017-05-13 16:59:47
阅读次数:
122