码迷,mamicode.com
首页 >  
搜索关键字:小爬虫    ( 153个结果
JAVA学习笔记(一):一个小爬虫的例子
1.import java.io.*; java.io.*不是一个文件,而是一组类。它是在java.io包里的所有类,*是通配符,比如a*.txt代表的就是以a开头的所有txt文件,“?”是单个词的通配符,比如a?.txt代表的就是以a开头而且名字只有两个字的txt文件import的作用是:在你写一
分类:编程语言   时间:2016-02-23 12:55:41    阅读次数:284
爬虫入门实战,知乎小爬虫
相比于爬虫框架,知乎小爬虫,更加适合初学者,尤其是想要了解爬虫技术细节、实现自己编写爬虫需求的初学者。 1. 谈爬虫工程师的价值 大数据时代已到,数据越来越具有价值了,没有数据寸步难行,有了数据好好利用,可以在诸多领域干很多事,比如很火的互联网金融。从互联网上爬来自己想要的数据,是数据的一个重要来源
分类:其他好文   时间:2016-02-17 09:28:44    阅读次数:242
NodeJs编写小爬虫
一,爬虫及Robots协议 爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。robots.txt是一个文本文件,robots是一个协议,而不是一个命令。robots.txt是爬虫要查看的第一个文件。robots.txt文件告诉爬虫在服
分类:Web程序   时间:2016-02-09 01:21:26    阅读次数:238
NodeJs编写小爬虫
一,爬虫及Robots协议          爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。               robots.txt是一个文本文件,robots是一个协议,而不是一个命令。robots.txt是爬虫要查看的第一个文件。robots.txt文件告诉爬虫在服务器上什么文件是可以被查看的,搜索机器人就会按照该文...
分类:Web程序   时间:2016-02-08 21:26:23    阅读次数:410
Nodejs爬虫进阶=>异步并发控制
之前写了个现在看来很不完美的小爬虫,很多地方没有处理好,比如说在知乎点开一个问题的时候,它的所有回答并不是全部加载好了的,当你拉到回答的尾部时,点击加载更多,回答才会再加载一部分,所以说如果直接发送一个问题的请求链接,取得的页面是不完整的。还有就是我们通过发送链接下载图片的时候,是一张一张来下的,如
分类:Web程序   时间:2016-02-06 14:23:50    阅读次数:227
python的小爬虫的基本写法
1.最基本的抓站import urllib2content = urllib2.urlopen('http://XXXX').read()2.使用代理服务器这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。import urllib2proxy_support = urll...
分类:编程语言   时间:2016-01-08 09:21:12    阅读次数:201
c#抓取动态页面WebBrowser
在ajax横行的年代,很多网页的内容都是动态加载的,而我们的小爬虫抓取的仅仅是web服务器返回给我们的html,这其中就跳过了js加载的部分,也就是说爬虫抓取的网页是残缺的,不完整的,下面可以看下博客园首页从首页加载中我们看到,在页面呈现后,还会有5个ajax异步请求,在默认的情况下,爬虫是抓...
分类:Windows程序   时间:2016-01-04 19:39:30    阅读次数:2787
利用python爬下段子网站的搞笑段子
众所周知,python是写爬虫的利器,今天作者用python写一个小爬虫爬下一个段子网站的众多段子。目标段子网站为“http://ishuo.cn/”,我们先分析其下段子的所在子页的url特点,可以轻易发现发现为“http://ishuo.cn/subject/”+数字,经过测试发现,该网站的反扒机...
分类:编程语言   时间:2016-01-02 14:23:49    阅读次数:305
Python小爬虫练习
# coding: utf-8__author__ = 'zhangcx'from urllib3 import PoolManagerimport codecsimport jsonclass myjob(object): def __init__(self): self._p...
分类:编程语言   时间:2015-12-06 22:27:09    阅读次数:242
HTTP小爬虫 ,nodejs学习(二)
使用nodejs抓取网页数据,这里用到cheerio,解析html十分好用,和jquery用法完全一致。首先安装cheerio,在命令行中输入 npm install cheerio;(在nodejs根目录下输入该命令)安装完成以后,我们来解析慕课网上http://www.imooc.com/lea...
分类:Web程序   时间:2015-10-18 15:16:46    阅读次数:162
153条   上一页 1 ... 10 11 12 13 14 ... 16 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!