目标:以特定语言技术为关键字,爬取八戒网中网站设计开发栏目下发布的任务相关信息需求:用户通过设置自己感兴趣的关键字或正则表达式,来过滤信息。我自己选择的是通过特定语言技术作为关键字,php、java和python。注意:如果不选用正则表达式,就会把javascript也爬进来,那前端的信息就比较多了...
分类:
编程语言 时间:
2014-12-17 22:12:52
阅读次数:
304
用到三个依赖包:express,superagent,cheerio superagent(http://visionmedia.github.io/superagent/?) 是个 http 方面的库,可以发起 get 或 post 请求。 cheerio(https://github.com/cheeriojs/cheerio?) 大家...
分类:
其他好文 时间:
2014-12-17 14:48:57
阅读次数:
185
cURL:即使用URL语法传输数据的命令工具,是客户端向服务器请求资源工具。
作用:
1、网页资源(编写网页爬虫)
2、webservice(动态获取接口数据天气,号码归属地)
3、FTP资源上传和下载
必须先配置服务器支持curl,配置过程不再说。
简单网络爬虫,下载百度页面并替换
<?php
/**
* 实例描述:在网络上下载一个网页并把内容中的“百度”替换为“屌丝”之...
分类:
Web程序 时间:
2014-12-17 09:47:53
阅读次数:
193
今天大家又聚在一起开了个小会。我们的爬虫出现了一些问题。某些美团的网页无法爬取,现在正在努力工作中。关于用户统计的功能我们的以部分成员依然在完善中,17、18号应该基本能够推出。成员任务彭林江落实API,实现活跃用户统计郝倩研究遍历美团数据方法高雅智测试以完成组件牛强落实意见反馈功能测试王卓研究遍历...
分类:
其他好文 时间:
2014-12-17 01:31:04
阅读次数:
176
今天我们所有的团队成员都加速的进行着开发。虽然最近3门大作业压着,我们还是抽出了足够多的时间对项目的M2阶段进行完善。今天我们完成了清除缓存的功能,另外我们的单页爬虫也已经设计完成,我们的进度在我们的掌握之内,希望组员继续努力。不过我们中间出现了一点小插曲,android代码在有些开发人员的电脑上出...
分类:
其他好文 时间:
2014-12-16 06:26:29
阅读次数:
211
这个程序其实就是模仿用户的网页访问操作。 先从主页上获取大的商品分类,再一级一级地遍历所有的小分类。在最后得到商品列表,再遍历每个商品页,从商品页是抓取有效的信息。 这里,我对一些关键点做个总结,以便...
分类:
编程语言 时间:
2014-12-15 22:13:17
阅读次数:
291
因为平时爱好摄影,所以喜欢看看色影无忌论坛的获奖摄影作品,所以写了个小script用来抓取上面的获奖图片,亲自测试可以使用。# -*- coding: UTF-8 -*-#作者Rocky Chen
import re, urllib, sys, os, time, urllib2, cookielib, string
class Download:
def __init__(self...
分类:
编程语言 时间:
2014-12-15 15:33:32
阅读次数:
207
由于最近的课业较多,大家平时有些力不从心,对于工作完成得有限。最近课业压力小了一些,我们决定从今天起,投入精力。以下为我们的任务分配情况:人员任务高雅智清除缓存彭林江意见反馈功能牛强统计活跃用户数量张明研究UI的改进王卓郝倩研究数据标签、编写单页数据的爬虫由于TFS出了一些问题,无法生成燃尽图。等到...
分类:
其他好文 时间:
2014-12-15 00:00:21
阅读次数:
330
开发高性能并发应用不是一件容易的事情。这类应用的例子包括高性能Web服务器、游戏服务器和搜索引擎爬虫等。这样的应用可能需要同时处理成千上万个请求。对于这样的应用,一般采用多线程或事件驱动的架构。对于Java来说,在语言内部提供了线程的支持。但是Java的多线程应用开发会遇到很多问题。首先是很难编写正...
分类:
编程语言 时间:
2014-12-14 22:32:03
阅读次数:
286