码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫学习进行式

时间:2020-04-22 13:31:45      阅读:68      评论:0      收藏:0      [点我收藏+]

标签:get   family   技术支持   from   sts   img   span   总结   分享   

爬虫这一节内容说难也难,说简单也简单,这就要看每个人要求了!我写了两个爬虫程序,算是分享一下我的心路历程吧!毕竟我是要搞AI和CTF的呢!

首先是在学习爬虫几天后的粗糙产品,简单的爬取了一下QQ音乐的榜单(感觉不正规)

同样,主要技术路径是requests-bs4的方法来执行的,通过import requestsfrom bs4 import BeautfulSoup来提供技术支持

我用的URL为:url="http://www.9ku.com/music/sshot.htm 一个第三方网站榜单网站

Talk is cheap show me the code

技术图片

 

 运用MOOC里面讲到的基础框架为基础,这里我get_有一个小总结,如果想要获得一个标签下的文本内容,可以使用Tag.get_text()来获得文本内容!

当然使用正则表达式也不是不可以

关键代码如下:print(re.search(">.*<",str(song)).group()),但是这样做会出现左右两端尖括号不是很美观

最后输出结果如下(部分):

技术图片

 

虽然爬虫做出来了但是似乎不那么的好!于是有了2.0版本,只是稍稍改动了一点,原理还是一样,这次爬取的是酷狗的

代码有点长,我就放在GitHub上的,欢迎大家批评指正

https://gist.github.com/A-Huge-Cat/911a4f1d10721d33f9e0f2f0d2c8a78d(第一次用,也不知道能不能访问,不能的话请给我留言)

 

爬虫学习进行式

标签:get   family   技术支持   from   sts   img   span   总结   分享   

原文地址:https://www.cnblogs.com/AhugeCat/p/12751223.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!