1. [代码]用python实现的抓取腾讯视频所有电影的爬虫 # -*- coding: utf-8 -*-# by awakenjoys. my site: www.dianying.atimport reimport urllib2from bs4 import BeautifulSoupim....
分类:
编程语言 时间:
2014-09-12 17:01:43
阅读次数:
422
上周,老大压下来任务,让写一个网络爬虫,负责爬某一个行业网站的数据信息。由于本人只会shell编程语言,其它编程语言从未涉猎,因此就只能硬着头皮用shell去写了。转眼之前已经过去一周了,一切从无到有,经历的坎坷无数,这里我就不一一吐槽。这里呢,我就简单和大家分享下..
分类:
其他好文 时间:
2014-09-11 09:45:02
阅读次数:
335
首先介绍下python异步执行,python有两种方法编写异步代码:1、corutines协程(也称为greenlets)2、回调gevent是greenlets的一种实现方式,可以通过pip方便的安装gevent模块。gevent执行方式实际上是代码块的交替执行,具体的可以看下这篇blog,我就不...
分类:
移动开发 时间:
2014-09-10 17:22:50
阅读次数:
499
大家应该也知道百度搜索结果都会有一个百度快照,这是通过缓存服务器调用出来的页面信息,这样我们就可以通过百度快照快速的浏览网页信息,那么这个缓存服务器跟爬虫又有什么联系么?我们来大致了解一下爬虫的基本原理(个人理解,有错误给予纠正)。首先搜索引擎是不会产生内..
分类:
编程语言 时间:
2014-09-09 18:37:39
阅读次数:
372
这是我第三天学python了,想写一个东西纪念一下吧,于是写了一直爬虫,但是不是好的虫,只能讲网页的关键词存到本地,但是我觉得基本上算是一只小虫了文中用到了BeautifulSoup这个库,目的是处理html文档分析的,因为我只是提取了title的关键字,所以可以用正则表达式代替,还有一个库是jie...
分类:
其他好文 时间:
2014-09-09 17:55:09
阅读次数:
229
最近才开始学习Python语言,??在学习视频中发现讲述的函数知识觉得非常不错,所以就写了第一篇Python学习的文章分享给大家.主要内容:1.Python安装与基本输入输出,print()函数和raw_input()函数简单用法.2.讲解函数的基本知识:(1).系统提供内部函数(2).第三方提供函数库:讲解如何安装httplib2第三方函数库,再做了个简单的网页爬虫例子(3).用户自定义函数.希望文章对大家有所帮助,才开始学习python知识,如果文章中有错误或不足之处,还请海涵,也希望大家提出意见与君共...
分类:
编程语言 时间:
2014-09-08 05:23:46
阅读次数:
537
Scrapy是一个开源的机遇twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。安装环境:centos5.4python2.7.3安装步骤:1.下载python2.7http://www.python.org/ftp/python/2.7.3...
分类:
其他好文 时间:
2014-09-07 18:24:45
阅读次数:
317
最近手头上有一个项目,是关于新浪微博的,其中有一环要做新浪微博的爬虫。虽然之前把《Python学习手册》和《Python核心编程》都囫囵吞栆地通读完了,不过真正到做项目的时候还是什么都不会。于是在网上找了大量的资料。关于获取新浪微博的内容,大致有两种方法,一种是用纯爬..
分类:
编程语言 时间:
2014-09-07 03:22:35
阅读次数:
670
正则表达式和python的re模块
By 钟桓
9月 4 2014 更新日期:9月 4 2014
文章目录
1. 什么是正则表达式2. 元字符使用一览表:3. 字符转义4. 重复5. 字符类6. 分支条件7. 分组8. re模块
8.0.1. compile8.0.2. match和search8.0.3. split8.0.4. findall8.0.5. findite...
分类:
编程语言 时间:
2014-09-05 11:29:41
阅读次数:
309
引言记得几年前在做网页爬虫后的信息抽取时,针对网页源码中隐藏的要提取的信息,比如评论、用户信息等属性信息,直接利用HtmlParser得到。如此做倒是简单,不过利用的是网页的规范的tag标记。其实java中的正则表达式也可以用来实现这一功能。而且对于非tag的一些有规律的系列组合的字符串,正则表达式...
分类:
编程语言 时间:
2014-09-04 16:30:19
阅读次数:
186