1、产品概述本产品是学霸软件系统的爬虫部分,由NEWBE团队负责。主要任务是从网上爬取出相关数据后提供给C705组使用。2、产品的发展经历2.1 产品的发展经历描述产品的生命周期 \产品的更新换代策略以及产品的中长期发展规划,制定产品的发展蓝图。描述产品的一些突出优点,这些描述可成为产品将来的卖点,...
分类:
其他好文 时间:
2015-01-15 07:01:55
阅读次数:
189
拔取网页 是http://mm.10086.cn/android/info/300008730468.html?from=www&fw=227062网页
打开网页 网页的bug模式(F12)
找出你想要爬取的数据
代码
package com.baidu;
import org.htmlparser.Node;
import or...
分类:
Web程序 时间:
2015-01-14 11:08:13
阅读次数:
213
PHP微信墙制作 微信墙 PHP 注意:由于微信官网不定时会更新,其中模拟登陆以及爬取数据的方...
分类:
微信 时间:
2015-01-14 00:37:38
阅读次数:
402
小说网站用的程序都是千篇一律的,jieqi + guanguang,无聊时间学习python+django,也做了一个小说网站,下面说一说做这个网站一些过程,制作这种采集站,最要紧的是要有一个好的采集器,在python的世界里面,爬取网页真是小菜一碟,urllib urllib2 requests ...
分类:
数据库 时间:
2015-01-12 14:16:15
阅读次数:
462
昨天写了个Python的脚本,功能就是爬取一个网页上的Google ip地址再写入到本机的hosts里面去。 但是写完并且运行完成之后发现上不了Google。于是想到了是不是要清空一下DNS的缓存。不过我只知道win下面清空缓存,在CMD里面打ipconfig /flushdns就行了,Mac用了....
分类:
其他好文 时间:
2015-01-09 17:02:05
阅读次数:
127
最近无节操爬虫越来越多,越来越流氓,主要体现在完全不控制速率的用一整段的 IP 地址来爬取你的网页,而且有些根本就是伪装成普通浏览器访问。尽管 OSC 对单 IP 做了并发的限制,但架不住大量的 IP 进行爬取。 ...
分类:
其他好文 时间:
2015-01-09 12:50:36
阅读次数:
132
1.爬虫的介绍 图1-1? 爬虫(spider) ? ? ?? ? ? ? 网络爬虫(web spider)是一个自动的通过网络抓取互联网上的网页的程序,在当今互联网中得到越来越广泛的使用。这种技术一般用来爬取网页中链接,资源等,...
分类:
其他好文 时间:
2015-01-08 13:32:56
阅读次数:
247
比较喜欢凤凰新闻客户端的FUN系列文章,所以就写了Python程序来下载所有这么段子的地址。下面程序只是下载第一页的所有文章的url,程序修改一下,就可以爬取所有的文章。#!/usr/bin/python#-*-coding:utf-8 -*-import requestsimport jsonim...
分类:
其他好文 时间:
2015-01-03 23:50:01
阅读次数:
189
看知乎的时候发现了一个 “如何正确地吐槽” 收藏夹,里面的一些神回复实在很搞笑,但是一页一页地看又有点麻烦,而且每次都要打开网页,于是想如果全部爬下来到一个文件里面,是不是看起来很爽,并且随时可以看到全部的,于是就开始动手了。工具1.Python 2.72.BeautifulSoup分析网页我...
分类:
编程语言 时间:
2015-01-03 19:49:03
阅读次数:
187
用WebCollector 2.x 配合另一个项目WeiboHelper,就可以直接爬取新浪微博的数据(无需手动获取cookie)...
分类:
Web程序 时间:
2015-01-02 23:44:58
阅读次数:
390