码迷,mamicode.com
首页 >  
搜索关键字:python、爬虫    ( 2294个结果
Python爬虫--抓取糗事百科段子
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单。程序每按一次回车输出一条段子,代码参考了http://cuiqingcai.com/990.html 但该博主的代码似乎有些问题,我自己做了修改,运行成功,下面是代码内容: 1 # -*- coding:ut...
分类:编程语言   时间:2015-10-19 17:11:01    阅读次数:291
Python-爬虫初学
#爬取网站中的图片 1 import re #正则表达式库 2 import urllib #url链接库 3 4 def getHtml(url): 5 page = urllib.urlopen(url) #打开链接 6 html = page.read() ...
分类:编程语言   时间:2015-10-16 15:10:12    阅读次数:278
Python爬虫学习笔记(一)
1.urllib2简介urllib2的是爬取URL(统一资源定位器)的Python模块。它提供了一个非常简单的接口,使用urlopen函数。它能够使用多种不同的协议来爬取URL。它还提供了一个稍微复杂的接口,用于处理常见的情况 - 如基本身份验证,cookies,代理等。2.抓取URLs使用urli...
分类:编程语言   时间:2015-10-13 22:28:04    阅读次数:527
Python爬虫简单笔记
Python2.7里内置了很多非常有用的库,它在我电脑上的位置在/usr/lib/python2.7中。写个基本的爬虫要用到的库有urllib、urllib2、cookielib、sgmllib和re,下面先分别简单介绍下一些文件的信息和相关函数——具体的真的是建议阅读源码,网上找的资料反而不及它直...
分类:编程语言   时间:2015-10-08 00:27:20    阅读次数:306
使用urllib编写python爬虫
新版python中,urllib和urllib2合并了,统一为urllib(1)简单爬取网页import urllibcontent = urllib.request.urlopen(req).read().decode("utf-8")(2)添加headerimport urllibreq = u...
分类:编程语言   时间:2015-10-03 14:20:07    阅读次数:216
Python爬虫初探
pycharm中控制台运行后出现乱码。需要文件>>设置>>编辑器>>文件编码爬取网页#-*-coding:utf-8-*- importrequests #中文编码UTF-8 importsys reload(sys) sys.setdefaultencoding(‘utf-8‘) #模拟浏览器 hea={‘User-Agent‘:‘Mozilla/5.0(WindowsNT6.2;WOW64)..
分类:编程语言   时间:2015-10-03 06:16:21    阅读次数:342
[Python爬虫] 中文编码问题:raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题
最近研究搜索引擎、知识图谱和Python爬虫比较多,中文乱码问题再次浮现于眼前。虽然市面上讲述中文编码问题的文章数不胜数,同时以前我也讲述过PHP处理数据库服务器中文乱码问题,但是此处还是准备简单做下笔记。方便以后查阅和大家学习。主要包括raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题。 纪伯伦曾说过:“你无法同时拥有青春和关于青春的知识;因为青春忙于生计,没有余暇去求知;而知识忙于寻求自我,无法享受生活。”同样现在找工作的我,无法在拥有扎实基础知识的同时又兼顾深度的项...
分类:编程语言   时间:2015-10-02 00:19:43    阅读次数:318
[转载]Python爬虫入门四之Urllib库的高级用法
转自:http://cuiqingcai.com/954.html1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。首先,打开我们的浏览器,调试浏览器F12,我用的是Chro...
分类:编程语言   时间:2015-09-29 11:18:26    阅读次数:271
[转载]Python爬虫入门七之正则表达式
转自:http://cuiqingcai.com/977.html在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特...
分类:编程语言   时间:2015-09-29 11:15:39    阅读次数:374
简单的python 网络爬虫实现
最近拉肚子三天了,晚上单位又聚餐,一不小心吃多了点,晚上跑厕所跑的频繁,索性睡不着了,参照网上资料,敲了段python 爬虫代码,第一次学习除了shell 和js 外的脚本语言,无限的坑坑,都说python 的效率是...
分类:编程语言   时间:2015-09-21 19:51:39    阅读次数:233
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!