码迷,mamicode.com
首页 > 其他好文 > 详细

完全零基础小白该如何学爬虫?大牛总结最适合零基础的爬虫教程!

时间:2018-05-19 21:31:45      阅读:251      评论:0      收藏:0      [点我收藏+]

标签:image   浏览器   alt   想去   数据   关注   用法   分享图片   xpath   

技术分享图片

技术分享图片

2. 开始直接上手

转机出现在看过一篇爬虫的技术文章后,清晰的思路和通俗易懂的语言让我觉得,这才是我想学的爬虫。于是决定先配一个环境,试试看爬虫到底是怎么玩的。(当然你可以理解为这是浮躁,但确实每个小白都想去做直观、有反馈的事情)

因为怕出错,装了比较保险的 Anaconda,用自带的 Jupyter Notebook 作为IDE来写代码。看到很多人说因为配置环境出各种BUG,简直庆幸。很多时候打败你的,并不是事情本身,说的就是爬虫配置环境这事儿。

技术分享图片

技术分享图片

用 urllib 下载和解析页面的固定句式

当然 BeautifulSoup 中的基本方法是不能忽略的,但也无非是 find、get_text() 之类,信息量很小。就这样,通过别人的思路和自己查找美丽汤的用法,完成了豆瓣电影的基本信息爬取。

技术分享图片

用 BeautifulSoup 爬取豆瓣电影详情

3. 爬虫渐入佳境

有了一些套路和形式,就会有目标,可以接着往下学了。还是豆瓣,自己去摸索爬取更多的信息,爬取多部电影,多个页面。这个时候就发现基础不足了,比如爬取多个元素、翻页、处理多种情况等涉及的语句控制,又比如提取内容时涉及到的字符串、列表、字典的处理,还远远不够。

技术分享图片

技术分享图片

requests+xpath 爬取豆瓣TOP250图书信息

通过 requests+xpath,我可以去爬取很多网站网站了,后来自己练习了小猪的租房信息和当当的图书数据。爬拉勾的时候就发现问题了,首先是自己的请求根本不会返回信息,原来要将自己的爬虫伪装成浏览器,终于知道别人代码中那一坨 headers 信息是干啥的了

欢迎大家关注我的博客:https://home.cnblogs.com/u/sm123456/

欢迎大家加入千人交流资源共享群:125240963

技术分享图片

完全零基础小白该如何学爬虫?大牛总结最适合零基础的爬虫教程!

标签:image   浏览器   alt   想去   数据   关注   用法   分享图片   xpath   

原文地址:https://www.cnblogs.com/sm123456/p/9061493.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!