一个简单的百度贴吧爬虫程序: 代码: 学习笔记: 定义一个百度函数,这个函数可以将你所要爬虫的贴吧网页保存到本地。 函数三个参数: sName为保存到本地的文件名 string.zfill(i,5)保证文件名为6位数字 sName = string.zfill(i,5) + '.html'#自动填充 ...
分类:
编程语言 时间:
2016-08-24 17:27:01
阅读次数:
201
Python是个功能很强大,也很齐全的语言,这在我当初学的时候是不了解的。想想半年前学习python的初衷,无非是是因为ArcGIS提供了python脚本的编译环境,当我知道ArcToolbox里那些功能强大的工具,有一部分竟然就是用所谓python写出来的,自然也就想着去尝试,简化那些冗杂的工作,... ...
分类:
编程语言 时间:
2016-08-22 21:27:50
阅读次数:
170
第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一、爬虫入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使 ...
分类:
编程语言 时间:
2016-08-21 18:29:51
阅读次数:
276
1.登陆超星慕课,chrome抓包,模拟header,提取表单隐藏元素构成params。 主要是验证码图片地址,在js中发现由js->new Date().getTime()时间戳动态生成url,python对应time.time(),生成验证码图片url,图片下载在本地,手动输入。代码如下: 2. ...
分类:
编程语言 时间:
2016-08-20 21:43:01
阅读次数:
290
做回测系统发现股票季报不能很好的表现每天的总股本。于是在新浪发现了数据源,决定用beatifulSoup爬一下。 先是读取股票code对应页面, 这里推荐用下面这种,因为用lxml会有几个code的页面解析不到,具体原因可能是页面太长。 下面直接找id的话用find(id=xxx)就行。 得到的数据 ...
分类:
编程语言 时间:
2016-07-12 01:26:11
阅读次数:
156
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程 福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片 ...
分类:
编程语言 时间:
2016-06-28 12:32:28
阅读次数:
281
2016-6-18 --今天实现了第一个用urllib2实现的爬虫程序。 --过程中发现 总是报错: 主要原因在于 url 地址错误。 例如:http://www.neihan8.com/wenzi/index_1.html 这个网址打开的是404网页错误。 但是 http://www.neihan ...
分类:
编程语言 时间:
2016-06-18 18:27:12
阅读次数:
120
环境:Mac OSX 终端工具:iTerm2 1. 例 显示baidu源码 2. 有关headers #爬虫中添加headers为了模拟浏览器的工作,否则有的页面不允许直接访问# MacOS下查看headers方法: Chrome:视图-开发者-开发者工具,右侧点击Network,然后单击url(b ...
分类:
编程语言 时间:
2016-05-20 13:12:20
阅读次数:
168