搜索关键字：python、爬虫，搜索到2294个结果！码迷,mamicode.com！

Python爬虫基础(一)--简单的url请求

#encoding:UTF-8 import?urllib import?urllib.request #?data是一个字典，然后通过urllib.parse.urlencode()将data转换为‘wd?=?904727147‘的字符串 #最后和url合并为full_url #?urllib.request是一个库,隶...

分类：编程语言时间：2015-07-30 21:35:50 阅读次数：152

python 爬虫1 开始，先拿新浪微博开始

刚刚开始学。目的地是两个，一个微博，一个贴吧存入的话，暂时还没想那么多，先存到本地文件夹吧 ubuntu14.04 python 自带，安装了一个beautifulsoup 的解析器，这里我装的是新版本，不是apt-get自带的版本 #安装版本4 apt-get install python-bs4 python-bs4-doc 开始 import...

分类：编程语言时间：2015-07-27 00:24:38 阅读次数：276

python爬行动物集合360联想词搜索

想法和一些代码引用邸一幕python培训黄哥python爬虫联想词视频，但是太罗嗦。顺便整理，而到现在为止，360不傻。它已演变，用原来的方式，有些bug，这接着说。正题例如以下：语言：python2.7.6模块：urllib,urllib2,re,time目标：输入随意词，抓到其联想词版本号：w1...

分类：编程语言时间：2015-07-26 08:36:02 阅读次数：610

Python 爬虫解码问题解决

import urllib response = urllib.request.urlopen('http://math.sysu.edu.cn/main/default/index.aspx') html = response.read() html = html.decode('utf-8') print(html)上述代码会出现如下错误：UnicodeDecodeError: 'utf-8'...

分类：编程语言时间：2015-07-23 17:56:35 阅读次数：206

Python_爬虫4

Python爬虫入门（8）：Beautiful Soup的用法上一节我们介绍了正则表达式，它的内容其实还是蛮多的，如果一个正则匹配稍有差池，那可能程序就处在永久的循环之中，而且有的小伙伴们也对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫Beautiful Soup，有了它我们...

分类：编程语言时间：2015-07-22 01:22:47 阅读次数：183

Python_爬虫3

正则表达式在前面我们已经搞定了怎样获取页面的内容，不过还差一步，这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢？下面就开始介绍一个十分强大的工具，正则表达式！1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这...

分类：编程语言时间：2015-07-21 23:54:56 阅读次数：160

Python_爬虫1

Urllib库的基本使用那么接下来，小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个...

分类：编程语言时间：2015-07-21 23:49:14 阅读次数：203

Python_爬虫2

URLError异常处理大家好，本节在这里主要说的是URLError还有HTTPError，以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常...

分类：编程语言时间：2015-07-21 23:41:06 阅读次数：236

[Python学习] 简单爬取CSDN下载资源信息

这是一篇Python爬取CSDN下载资源信息的例子，主要是通过urllib2获取CSDN某个人所有资源的资源URL、资源名称、下载次数、分数等信息；写这篇文章的原因是我想获取自己的资源所有的评论信息，但是由于评论采用JS临时加载，所以这篇文章先简单介绍如何人工分析HTML页面爬取信息。...

分类：编程语言时间：2015-07-21 18:46:39 阅读次数：117

Python爬虫(使用requests)

import requestsfrom lxml import etreeurl = "http://avdb.la/actor/"headers = {"User-Agent":'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KH...

分类：编程语言时间：2015-07-18 00:26:23 阅读次数：171

共2294条上一页 1 ... 212 213 214 215 216 ... 230 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)