搜索关键字：爬取，搜索到4795个结果！码迷,mamicode.com！

用python做中文自然语言预处理

这篇博客根据中文自然语言预处理的步骤分成几个板块。以做LDA实验为例，在处理数据之前，会写一个类似于实验报告的东西，用来指导做实验，OK，举例：一，实验数据预处理（python,结巴分词）1.对于爬取的评论做分词和词性标注处理(mac-result.txt)2.对于结果只用公版的停用词表去停用词，不...

分类：编程语言时间：2014-06-03 06:45:21 阅读次数：385

Java爬虫

1.昨天复习了Java基础(I/O流)和正则表达式今天不讲Java中的 I/O　主要用一个实例来爬取网站中的邮箱代码如下: 1 package com.miao.baba.pacong; 2 3 import java.io.BufferedReader; 4 import java.io.IO....

分类：编程语言时间：2014-05-29 05:11:03 阅读次数：404

php curl批处理

php模拟多线程用到curl库，这个库很强大，可以做好多事，比如模拟登陆，文件上传/下载,数据采集等。下面是我的代码，很简单，有些还功能还不会用。 0);$res=array();for($j=0;$j 这段代码就是并行爬取百度和谷歌的代码，以后再慢慢完善。 ...

分类：Web程序时间：2014-05-27 02:50:52 阅读次数：282

一个简单的多线程爬虫

本文介绍一个简单的多线程并发爬虫，这里说的简单是指爬取的数据规模不大，单机运行，并且不使用数据库，但保证多线程下的数据的一致性，并且能让爬得正起劲的爬虫停下来，而且能保存爬取状态以备下次继续。

分类：编程语言时间：2014-05-26 15:41:47 阅读次数：394

大数据之网络爬虫-一个简单的多线程爬虫

本文介绍一个简单的多线程并发爬虫，这里说的简单是指爬取的数据规模不大，单机运行，并且不使用数据库，但保证多线程下的数据的一致性，并且能让爬得正起劲的爬虫停下来，而且能保存爬取状态以备下次继续。爬虫实现的步骤基本如下：分析网页结构，选取自己感兴趣的部分;建立两个Buffer，一个用于保存已经访问.....

分类：编程语言时间：2014-05-26 13:13:56 阅读次数：318

python机器登陆新浪微博代码示例

前段时间开始学习Python，一直想不到有什么好的小项目可以做，憋得慌，这不，绞尽脑汁想出了一个爬取新浪微博，并对爬取数据做简单统计的项目。一开始我自以为学习了点Python正则就可以搞定了，熟料在机器登陆上栽了跟头，从完全一头雾水到现在初步登陆获取到数据，整整历经了四五天。因为之前没搞过机器.....

分类：编程语言时间：2014-05-26 01:34:32 阅读次数：358

豆瓣上评分大于9分的影片

爬取了豆瓣上评分大于9分的影片（种子为豆瓣电影TOP250），结果如下（包括电影、纪录片、连续剧等，排名不分先后，当然该列表不可能是完整的，大家凑合着看）：1. 肖申克的救赎 The Shawshank Redemption(1994) 9.62. 这个杀手不太冷 Léon(1994) 9.43. ...

分类：其他好文时间：2014-05-25 19:16:21 阅读次数：462

让蜘蛛爱上你的的网站

很多SEOer都把蜘蛛比作一个人，有它自己的喜好，有它自己的原则，你配合它的工作，它会给你收录足够多的东西，来网站也勤快，你不配合它，那就等着被降权吧。下面我就说说蜘蛛的一些喜好和原则。　　1、蜘蛛来爬取网站的时间一般都差不多，一般每天2次，当然一些大型网站都不一样，我说的都是中小型网站，如果来了2次以上，说明你网站让蜘蛛喜欢，如果没有2次，抱歉，你该检讨下自己做站的方法了。根据蜘蛛来的时间，...

分类：Web程序时间：2014-05-15 13:24:25 阅读次数：329

python3自动爬笑话

学校的服务器可以上外网了，所以打算写一个自动爬取笑话并发到bbs的东西，从网上搜了一个笑话网站，感觉大部分还不太冷，html结构如下：可以看到，笑话的链接列表都在里面，用正则表达式可以把最近的几个笑话地址找出来，再进到一个笑话页面看下：每一个笑话页面里面是有多个小笑话组成的，全部在标签下，每个小笑话又单独一个包裹，这样非常容易...

分类：编程语言时间：2014-05-15 11:18:58 阅读次数：362

Python编写网页爬虫爬取oj上的代码信息

OJ升级,代码可能会丢失. 所以要事先备份. 一开始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启发和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本, 试了一下修改到3.0版本, 要做很多包的更替,感觉比较烦,所以索性就在这个2.7版本上完善了. 首先观赏一下原始代码,我给加了一些注释: # -*-...

分类：编程语言时间：2014-05-15 02:39:45 阅读次数：439

共4795条上一页 1 ... 477 478 479 480 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)