码迷,mamicode.com
首页 >  
搜索关键字:爬取    ( 4795个结果
用python做中文自然语言预处理
这篇博客根据中文自然语言预处理的步骤分成几个板块。以做LDA实验为例,在处理数据之前,会写一个类似于实验报告的东西,用来指导做实验,OK,举例:一,实验数据预处理(python,结巴分词)1.对于爬取的评论做分词和词性标注处理(mac-result.txt)2.对于结果只用公版的停用词表去停用词,不...
分类:编程语言   时间:2014-06-03 06:45:21    阅读次数:385
Java爬虫
1.昨天复习了Java基础(I/O流)和正则表达式 今天不讲Java中的 I/O 主要用一个实例来爬取网站中的邮箱代码如下: 1 package com.miao.baba.pacong; 2 3 import java.io.BufferedReader; 4 import java.io.IO....
分类:编程语言   时间:2014-05-29 05:11:03    阅读次数:404
php curl批处理
php模拟多线程用到curl库,这个库很强大,可以做好多事,比如模拟登陆,文件上传/下载,数据采集等。 下面是我的代码,很简单,有些还功能还不会用。 0);$res=array();for($j=0;$j 这段代码就是并行爬取百度和谷歌的代码,以后再慢慢完善。 ...
分类:Web程序   时间:2014-05-27 02:50:52    阅读次数:282
一个简单的多线程爬虫
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。
分类:编程语言   时间:2014-05-26 15:41:47    阅读次数:394
大数据之网络爬虫-一个简单的多线程爬虫
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。 爬虫实现的步骤基本如下:分析网页结构,选取自己感兴趣的部分;建立两个Buffer,一个用于保存已经访问.....
分类:编程语言   时间:2014-05-26 13:13:56    阅读次数:318
python机器登陆新浪微博代码示例
前段时间开始学习Python,一直想不到有什么好的小项目可以做,憋得慌,这不, 绞尽脑汁想出了一个爬取新浪微博,并对爬取数据做简单统计的项目。一开始我自以为学习了点Python正则就可以搞定了,熟料在机器登陆上栽了跟头,从完全一头雾水到现在初步登陆获取到数据,整整历经了四五天。因为之前没搞过机器.....
分类:编程语言   时间:2014-05-26 01:34:32    阅读次数:358
豆瓣上评分大于9分的影片
爬取了豆瓣上评分大于9分的影片(种子为豆瓣电影TOP250),结果如下(包括电影、纪录片、连续剧等,排名不分先后,当然该列表不可能是完整的,大家凑合着看):1. 肖申克的救赎 The Shawshank Redemption(1994) 9.62. 这个杀手不太冷 Léon(1994) 9.43. ...
分类:其他好文   时间:2014-05-25 19:16:21    阅读次数:462
让蜘蛛爱上你的的网站
很多SEOer都把蜘蛛比作一个人,有它自己的喜好,有它自己的原则,你配合它的工作,它会给你收录足够多的东西,来网站也勤快,你不配合它,那就等着被降权吧。下面我就说说蜘蛛的一些喜好和原则。   1、蜘蛛来爬取网站的时间一般都差不多,一般每天2次,当然一些大型网站都不一样,我说的都是中小型网站,如果来了2次以上,说明你网站让蜘蛛喜欢,如果没有2次,抱歉,你该检讨下自己做站的方法了。根据蜘蛛来的时间,...
分类:Web程序   时间:2014-05-15 13:24:25    阅读次数:329
python3自动爬笑话
学校的服务器可以上外网了,所以打算写一个自动爬取笑话并发到bbs的东西,从网上搜了一个笑话网站,感觉大部分还不太冷,html结构如下:         可以看到,笑话的链接列表都在里面,用正则表达式可以把最近的几个笑话地址找出来,再进到一个笑话页面看下:         每一个笑话页面里面是有多个小笑话组成的,全部在标签下,每个小笑话又单独一个包裹,这样非常容易...
分类:编程语言   时间:2014-05-15 11:18:58    阅读次数:362
Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一开始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启发和聪神的原始代码, 网页爬虫走起!  已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本, 试了一下修改到3.0版本, 要做很多包的更替,感觉比较烦,所以索性就在这个2.7版本上完善了.  首先观赏一下原始代码,我给加了一些注释:  # -*-...
分类:编程语言   时间:2014-05-15 02:39:45    阅读次数:439
4795条   上一页 1 ... 477 478 479 480 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!