学了几天python3,发现目前学到的与爬虫还是关系不大,所以现在准备爬虫和语言同步学习。 2016.8.9晚 先从最简单的开始,爬取指定url的所有内容: 编码不同,一个是utf-8,一个是gbk 另外,输出写入文件到的时候如果写入了一个html文件,打开可能会产生乱码,这个时候不要怀疑pytho ...
分类:
编程语言 时间:
2016-08-09 23:24:29
阅读次数:
274
1.打开韩寒博客列表页面 http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html 目标是获取所有文章的超级链接 2.韩寒文章列表特征 <a title target... href=....html> 3.技术要点 ·字符串函数find · ...
分类:
其他好文 时间:
2016-07-21 22:02:50
阅读次数:
143
小白编了好久才写出来,记录一下免得之后再用的时候都忘了还得重新学~
学习爬虫最开始是学习了慕课上的python课程,然后学习了慕课和网易云上的爬虫教程。这两个自己去查一下就好了~
开始还比较费劲,毕竟熟悉需要时间么,而且python也不太熟悉。
关于python版本:我一开始看很多资料说python2比较好,因为很多库还不支持3,但是使用到现在为止觉得还是pythin3比较好用,因为编码什么...
分类:
编程语言 时间:
2016-07-14 15:30:37
阅读次数:
290
做回测系统发现股票季报不能很好的表现每天的总股本。于是在新浪发现了数据源,决定用beatifulSoup爬一下。 先是读取股票code对应页面, 这里推荐用下面这种,因为用lxml会有几个code的页面解析不到,具体原因可能是页面太长。 下面直接找id的话用find(id=xxx)就行。 得到的数据 ...
分类:
编程语言 时间:
2016-07-12 01:26:11
阅读次数:
156
网络爬虫 概述 这是一个网络爬虫学习的技术分享,主要通过一些实际的案例对爬虫的原理进行分析,达到对爬虫有个基本的认识,并且能够根据自己的需要爬到想要的数据。有了数据后可以做数据分析或者通过其他方式重新结构化展示。 什么是网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称 ...
分类:
其他好文 时间:
2016-07-08 23:15:35
阅读次数:
341
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程 福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片 ...
分类:
编程语言 时间:
2016-06-28 12:32:28
阅读次数:
281
2016-6-18 --今天实现了第一个用urllib2实现的爬虫程序。 --过程中发现 总是报错: 主要原因在于 url 地址错误。 例如:http://www.neihan8.com/wenzi/index_1.html 这个网址打开的是404网页错误。 但是 http://www.neihan ...
分类:
编程语言 时间:
2016-06-18 18:27:12
阅读次数:
120