#encoding:UTF-8
import?urllib
import?urllib.request
#?data是一个字典,然后通过urllib.parse.urlencode()将data转换为‘wd?=?904727147‘的字符串
#最后和url合并为full_url
#?urllib.request是一个库,隶...
分类:
编程语言 时间:
2015-07-30 21:35:50
阅读次数:
152
刚刚开始学。
目的地是两个,一个微博,一个贴吧
存入的话,暂时还没想那么多,先存到本地文件夹吧
ubuntu14.04 python 自带,
安装了一个beautifulsoup 的 解析器 ,这里我装的是新版本,不是apt-get自带的版本
#安装版本4
apt-get install python-bs4 python-bs4-doc
开始
import...
分类:
编程语言 时间:
2015-07-27 00:24:38
阅读次数:
276
想法和一些代码引用邸一幕python培训黄哥python爬虫联想词视频,但是太罗嗦。顺便整理,而到现在为止,360不傻。它已演变,用原来的方式,有些bug,这接着说。正题例如以下:语言:python2.7.6模块:urllib,urllib2,re,time目标:输入随意词,抓到其联想词版本号:w1...
分类:
编程语言 时间:
2015-07-26 08:36:02
阅读次数:
610
import urllib
response = urllib.request.urlopen('http://math.sysu.edu.cn/main/default/index.aspx')
html = response.read()
html = html.decode('utf-8')
print(html)上述代码会出现如下错误:UnicodeDecodeError: 'utf-8'...
分类:
编程语言 时间:
2015-07-23 17:56:35
阅读次数:
206
Python爬虫入门(8):Beautiful Soup的用法上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表 达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们...
分类:
编程语言 时间:
2015-07-22 01:22:47
阅读次数:
183
正则表达式在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这...
分类:
编程语言 时间:
2015-07-21 23:54:56
阅读次数:
160
Urllib库的基本使用那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS、CSS,如果把网页比作一个...
分类:
编程语言 时间:
2015-07-21 23:49:14
阅读次数:
203
URLError异常处理大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码中,我们需要用try-except语句来包围并捕获相应的异常...
分类:
编程语言 时间:
2015-07-21 23:41:06
阅读次数:
236
这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSDN某个人所有资源的资源URL、资源名称、下载次数、分数等信息;写这篇文章的原因是我想获取自己的资源所有的评论信息,但是由于评论采用JS临时加载,所以这篇文章先简单介绍如何人工分析HTML页面爬取信息。...
分类:
编程语言 时间:
2015-07-21 18:46:39
阅读次数:
117
import requestsfrom lxml import etreeurl = "http://avdb.la/actor/"headers = {"User-Agent":'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KH...
分类:
编程语言 时间:
2015-07-18 00:26:23
阅读次数:
171