码迷,mamicode.com
首页 >  
搜索关键字:爬虫    ( 10452个结果
用python实现的抓取腾讯视频所有电影的爬虫
1. [代码]用python实现的抓取腾讯视频所有电影的爬虫 # -*- coding: utf-8 -*-# by awakenjoys. my site: www.dianying.atimport reimport urllib2from bs4 import BeautifulSoupim....
分类:编程语言   时间:2014-09-12 17:01:43    阅读次数:422
如何用SHELL写好网络爬虫
上周,老大压下来任务,让写一个网络爬虫,负责爬某一个行业网站的数据信息。由于本人只会shell编程语言,其它编程语言从未涉猎,因此就只能硬着头皮用shell去写了。转眼之前已经过去一周了,一切从无到有,经历的坎坷无数,这里我就不一一吐槽。这里呢,我就简单和大家分享下..
分类:其他好文   时间:2014-09-11 09:45:02    阅读次数:335
基于gevent全国手机号段spider蜘蛛爬虫
首先介绍下python异步执行,python有两种方法编写异步代码:1、corutines协程(也称为greenlets)2、回调gevent是greenlets的一种实现方式,可以通过pip方便的安装gevent模块。gevent执行方式实际上是代码块的交替执行,具体的可以看下这篇blog,我就不...
分类:移动开发   时间:2014-09-10 17:22:50    阅读次数:499
尝试java开发搜索引擎爬虫
大家应该也知道百度搜索结果都会有一个百度快照,这是通过缓存服务器调用出来的页面信息,这样我们就可以通过百度快照快速的浏览网页信息,那么这个缓存服务器跟爬虫又有什么联系么?我们来大致了解一下爬虫的基本原理(个人理解,有错误给予纠正)。首先搜索引擎是不会产生内..
分类:编程语言   时间:2014-09-09 18:37:39    阅读次数:372
一只从百度开始不断搜索的小爬虫
这是我第三天学python了,想写一个东西纪念一下吧,于是写了一直爬虫,但是不是好的虫,只能讲网页的关键词存到本地,但是我觉得基本上算是一只小虫了文中用到了BeautifulSoup这个库,目的是处理html文档分析的,因为我只是提取了title的关键字,所以可以用正则表达式代替,还有一个库是jie...
分类:其他好文   时间:2014-09-09 17:55:09    阅读次数:229
[Python学习] 专题一.函数的基础知识
最近才开始学习Python语言,??在学习视频中发现讲述的函数知识觉得非常不错,所以就写了第一篇Python学习的文章分享给大家.主要内容:1.Python安装与基本输入输出,print()函数和raw_input()函数简单用法.2.讲解函数的基本知识:(1).系统提供内部函数(2).第三方提供函数库:讲解如何安装httplib2第三方函数库,再做了个简单的网页爬虫例子(3).用户自定义函数.希望文章对大家有所帮助,才开始学习python知识,如果文章中有错误或不足之处,还请海涵,也希望大家提出意见与君共...
分类:编程语言   时间:2014-09-08 05:23:46    阅读次数:537
Centos下安装Scrapy
Scrapy是一个开源的机遇twisted框架的python的单机爬虫,该爬虫实际上包含大多数网页抓取的工具包,用于爬虫下载端以及抽取端。安装环境:centos5.4python2.7.3安装步骤:1.下载python2.7http://www.python.org/ftp/python/2.7.3...
分类:其他好文   时间:2014-09-07 18:24:45    阅读次数:317
新浪微博爬虫设计(Python版)
最近手头上有一个项目,是关于新浪微博的,其中有一环要做新浪微博的爬虫。虽然之前把《Python学习手册》和《Python核心编程》都囫囵吞栆地通读完了,不过真正到做项目的时候还是什么都不会。于是在网上找了大量的资料。关于获取新浪微博的内容,大致有两种方法,一种是用纯爬..
分类:编程语言   时间:2014-09-07 03:22:35    阅读次数:670
正则表达式和python的re模块
正则表达式和python的re模块 By 钟桓  9月 4 2014 更新日期:9月 4 2014 文章目录 1. 什么是正则表达式2. 元字符使用一览表:3. 字符转义4. 重复5. 字符类6. 分支条件7. 分组8. re模块 8.0.1. compile8.0.2. match和search8.0.3. split8.0.4. findall8.0.5. findite...
分类:编程语言   时间:2014-09-05 11:29:41    阅读次数:309
Java中正则表达式、模式匹配与信息抽取
引言记得几年前在做网页爬虫后的信息抽取时,针对网页源码中隐藏的要提取的信息,比如评论、用户信息等属性信息,直接利用HtmlParser得到。如此做倒是简单,不过利用的是网页的规范的tag标记。其实java中的正则表达式也可以用来实现这一功能。而且对于非tag的一些有规律的系列组合的字符串,正则表达式...
分类:编程语言   时间:2014-09-04 16:30:19    阅读次数:186
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!