搜索关键字：小爬虫，搜索到153个结果！码迷,mamicode.com！

JAVA学习笔记（一）：一个小爬虫的例子

1.import java.io.*; java.io.*不是一个文件，而是一组类。它是在java.io包里的所有类，*是通配符，比如a*.txt代表的就是以a开头的所有txt文件，“？”是单个词的通配符，比如a?.txt代表的就是以a开头而且名字只有两个字的txt文件import的作用是：在你写一

分类：编程语言时间：2016-02-23 12:55:41 阅读次数：284

爬虫入门实战，知乎小爬虫

相比于爬虫框架，知乎小爬虫，更加适合初学者，尤其是想要了解爬虫技术细节、实现自己编写爬虫需求的初学者。 1. 谈爬虫工程师的价值大数据时代已到，数据越来越具有价值了，没有数据寸步难行，有了数据好好利用，可以在诸多领域干很多事，比如很火的互联网金融。从互联网上爬来自己想要的数据，是数据的一个重要来源

分类：其他好文时间：2016-02-17 09:28:44 阅读次数：242

NodeJs编写小爬虫

一，爬虫及Robots协议爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。robots.txt是一个文本文件，robots是一个协议，而不是一个命令。robots.txt是爬虫要查看的第一个文件。robots.txt文件告诉爬虫在服

分类：Web程序时间：2016-02-09 01:21:26 阅读次数：238

NodeJs编写小爬虫

一，爬虫及Robots协议爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 robots.txt是一个文本文件，robots是一个协议，而不是一个命令。robots.txt是爬虫要查看的第一个文件。robots.txt文件告诉爬虫在服务器上什么文件是可以被查看的，搜索机器人就会按照该文...

分类：Web程序时间：2016-02-08 21:26:23 阅读次数：410

Nodejs爬虫进阶=>异步并发控制

之前写了个现在看来很不完美的小爬虫，很多地方没有处理好，比如说在知乎点开一个问题的时候，它的所有回答并不是全部加载好了的，当你拉到回答的尾部时，点击加载更多，回答才会再加载一部分，所以说如果直接发送一个问题的请求链接，取得的页面是不完整的。还有就是我们通过发送链接下载图片的时候，是一张一张来下的，如

分类：Web程序时间：2016-02-06 14:23:50 阅读次数：227

python的小爬虫的基本写法

1.最基本的抓站import urllib2content = urllib2.urlopen('http://XXXX').read()2.使用代理服务器这在某些情况下比较有用，比如IP被封了，或者比如IP访问的次数受到限制等等。import urllib2proxy_support = urll...

分类：编程语言时间：2016-01-08 09:21:12 阅读次数：201

c#抓取动态页面WebBrowser

在ajax横行的年代，很多网页的内容都是动态加载的，而我们的小爬虫抓取的仅仅是web服务器返回给我们的html，这其中就跳过了js加载的部分，也就是说爬虫抓取的网页是残缺的，不完整的，下面可以看下博客园首页从首页加载中我们看到，在页面呈现后，还会有5个ajax异步请求，在默认的情况下，爬虫是抓...

分类：Windows程序时间：2016-01-04 19:39:30 阅读次数：2787

利用python爬下段子网站的搞笑段子

众所周知，python是写爬虫的利器，今天作者用python写一个小爬虫爬下一个段子网站的众多段子。目标段子网站为“http://ishuo.cn/”，我们先分析其下段子的所在子页的url特点，可以轻易发现发现为“http://ishuo.cn/subject/”+数字，经过测试发现，该网站的反扒机...

分类：编程语言时间：2016-01-02 14:23:49 阅读次数：305

Python小爬虫练习

# coding: utf-8__author__ = 'zhangcx'from urllib3 import PoolManagerimport codecsimport jsonclass myjob(object): def __init__(self): self._p...

分类：编程语言时间：2015-12-06 22:27:09 阅读次数：242

HTTP小爬虫，nodejs学习(二)

使用nodejs抓取网页数据，这里用到cheerio，解析html十分好用，和jquery用法完全一致。首先安装cheerio，在命令行中输入 npm install cheerio;(在nodejs根目录下输入该命令)安装完成以后，我们来解析慕课网上http://www.imooc.com/lea...

分类：Web程序时间：2015-10-18 15:16:46 阅读次数：162

共153条上一页 1 ... 10 11 12 13 14 ... 16 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)