第二轮迭代的第二周开始了,上一周我们进行了对代码优化的探索与自我审查。本周,我们有以下两点目标要实现:1.对客户端进行优化。2.网络爬虫爬取美团外卖。客户端优化主要开发人员:高雅智、牛强、彭林江、张明培育。网络爬虫功能主要开发人员:王卓、郝倩。具体分配如下表成员新任务高雅智注册登录收藏功能图片控件优...
分类:
其他好文 时间:
2014-12-10 00:26:51
阅读次数:
278
??
一:
1
搜索引擎的历史
萌芽:Archie、Gopher
Archie:搜索FTP服务器上的文件
Gopher:索引网页
2
起步:Robot(网络机器人)的出现与spider(网络爬虫)
Robot基于网络的,可以执行特定任务的程序
Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自...
分类:
Web程序 时间:
2014-12-08 00:56:28
阅读次数:
301
周末没事自己写了个网络爬虫,先介绍一下它的功能,这是个小程序,主要用来抓取网页上的文章,博客等,首先找到你要抓取的文章,比如韩寒的新浪博客,进入他的文章目录,记下目录的连接比如http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html,里面每篇文章都有个连接..
分类:
编程语言 时间:
2014-12-07 06:55:19
阅读次数:
233
【网络爬虫】 预备知识一. 正则表达式之常用表达式正则表达式里有很多东西,学精不易,但做爬虫不需要学精,只要会其中部分就行,下面将介绍本人常用的表达式,基本够用了。1. 去头去尾 --- (?...)...该表达式主要用在用一个正则匹配多条数据时使用会了上面2个基本就没问题了二. 抓包工具,做爬虫这...
分类:
其他好文 时间:
2014-12-03 18:50:29
阅读次数:
213
Scrapy 是一个python下的网络爬虫工具,目前只有python2.x的版本。安装 Scrapy需要的支持库比较多,安装时挺繁琐的,测试直接用easy_install 或者 pip安装会自动下载安装需要的支持库,但是因为网络或其他种种原因总是安装失败,最好还是各个安装包分开安装。下载安装Mi....
分类:
编程语言 时间:
2014-12-02 20:30:18
阅读次数:
204
java 网络爬虫框架:
apache Nutch ,Heritrix 等,主要参照开源社区提供的40个开源项目...
分类:
编程语言 时间:
2014-12-02 16:41:33
阅读次数:
190
转自:http://blog.csdn.net/huangxy10/article/details/8120106 备注:把项目属性中的字符集改成多字节集合? 1 // 网络爬虫.cpp : 定义控制台应用程序的入口点。 2 // 3 4 #include "stdafx.h" ...
分类:
Web程序 时间:
2014-12-01 23:49:02
阅读次数:
340
这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下。不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现。...
分类:
编程语言 时间:
2014-11-27 22:09:33
阅读次数:
273
package 案例;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import ...
分类:
其他好文 时间:
2014-11-19 21:59:30
阅读次数:
258
代码如下package Game;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStrea...
分类:
编程语言 时间:
2014-11-19 12:17:39
阅读次数:
229