这篇博客根据中文自然语言预处理的步骤分成几个板块。以做LDA实验为例,在处理数据之前,会写一个类似于实验报告的东西,用来指导做实验,OK,举例:一,实验数据预处理(python,结巴分词)1.对于爬取的评论做分词和词性标注处理(mac-result.txt)2.对于结果只用公版的停用词表去停用词,不...
分类:
编程语言 时间:
2014-06-03 06:45:21
阅读次数:
385
1.昨天复习了Java基础(I/O流)和正则表达式 今天不讲Java中的
I/O 主要用一个实例来爬取网站中的邮箱代码如下: 1 package com.miao.baba.pacong; 2 3 import
java.io.BufferedReader; 4 import java.io.IO....
分类:
编程语言 时间:
2014-05-29 05:11:03
阅读次数:
404
php模拟多线程用到curl库,这个库很强大,可以做好多事,比如模拟登陆,文件上传/下载,数据采集等。
下面是我的代码,很简单,有些还功能还不会用。 0);$res=array();for($j=0;$j 这段代码就是并行爬取百度和谷歌的代码,以后再慢慢完善。
...
分类:
Web程序 时间:
2014-05-27 02:50:52
阅读次数:
282
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。
分类:
编程语言 时间:
2014-05-26 15:41:47
阅读次数:
394
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。
爬虫实现的步骤基本如下:分析网页结构,选取自己感兴趣的部分;建立两个Buffer,一个用于保存已经访问.....
分类:
编程语言 时间:
2014-05-26 13:13:56
阅读次数:
318
前段时间开始学习Python,一直想不到有什么好的小项目可以做,憋得慌,这不,
绞尽脑汁想出了一个爬取新浪微博,并对爬取数据做简单统计的项目。一开始我自以为学习了点Python正则就可以搞定了,熟料在机器登陆上栽了跟头,从完全一头雾水到现在初步登陆获取到数据,整整历经了四五天。因为之前没搞过机器.....
分类:
编程语言 时间:
2014-05-26 01:34:32
阅读次数:
358
爬取了豆瓣上评分大于9分的影片(种子为豆瓣电影TOP250),结果如下(包括电影、纪录片、连续剧等,排名不分先后,当然该列表不可能是完整的,大家凑合着看):1.
肖申克的救赎 The Shawshank Redemption(1994) 9.62. 这个杀手不太冷 Léon(1994) 9.43. ...
分类:
其他好文 时间:
2014-05-25 19:16:21
阅读次数:
462
很多SEOer都把蜘蛛比作一个人,有它自己的喜好,有它自己的原则,你配合它的工作,它会给你收录足够多的东西,来网站也勤快,你不配合它,那就等着被降权吧。下面我就说说蜘蛛的一些喜好和原则。
1、蜘蛛来爬取网站的时间一般都差不多,一般每天2次,当然一些大型网站都不一样,我说的都是中小型网站,如果来了2次以上,说明你网站让蜘蛛喜欢,如果没有2次,抱歉,你该检讨下自己做站的方法了。根据蜘蛛来的时间,...
分类:
Web程序 时间:
2014-05-15 13:24:25
阅读次数:
329
学校的服务器可以上外网了,所以打算写一个自动爬取笑话并发到bbs的东西,从网上搜了一个笑话网站,感觉大部分还不太冷,html结构如下:
可以看到,笑话的链接列表都在里面,用正则表达式可以把最近的几个笑话地址找出来,再进到一个笑话页面看下:
每一个笑话页面里面是有多个小笑话组成的,全部在标签下,每个小笑话又单独一个包裹,这样非常容易...
分类:
编程语言 时间:
2014-05-15 11:18:58
阅读次数:
362
OJ升级,代码可能会丢失. 所以要事先备份. 一开始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启发和聪神的原始代码, 网页爬虫走起!
已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本, 试了一下修改到3.0版本, 要做很多包的更替,感觉比较烦,所以索性就在这个2.7版本上完善了.
首先观赏一下原始代码,我给加了一些注释:
# -*-...
分类:
编程语言 时间:
2014-05-15 02:39:45
阅读次数:
439