搜索关键字：网络爬虫，搜索到1546个结果！码迷,mamicode.com！

Python、Redis实现分布式网络爬虫

写爬虫关键是思路，思路明确代码实现起来不是问题。关于用Python实现一个分布式爬虫，我曾折腾了很长一段时间，翻遍了Google十几页，和 Python 分布式爬虫等关键字相关的博客也就那么几篇，后来在学习Redis的时候，终于找到了实现分布式的方法。看来当现有的技术解决不了实际问题的时候，是...

分类：编程语言时间：2015-05-21 22:30:39 阅读次数：952

Java-如何挖取某个网站中的ajax请求信息

通常情况，通过网络爬虫挖取到的基本为网页静态内容，而动态ajax取数的内容是我个人暂时不知如何一次性把网站中的ajax获取这里介绍的是某个网站中的某一个ajax多某个table刷新，期数据，并提供其他操作，如下载：假设我们需挖取某一个网站：例：某个网站中的那些pdf文件，并下载下来首先：需要分析期网...

分类：编程语言时间：2015-05-21 17:11:03 阅读次数：136

《自己动手写网络爬虫》读书笔记——队列与集合

队列：在爬虫程序中, 用到了广度优先搜索(BFS)算法. 这个算法用到的数据结构就是队列。在python中提供了collection.deque用来实现了queue的相关操作，其官方实力如下：集合：在爬虫程序中, 为了不重复爬那些已经爬过的网站, 我们需要把爬过的页面的url放进...

分类：其他好文时间：2015-05-20 23:48:02 阅读次数：119

Python2.7.9 编码问题

最近学一学网络爬虫,遇到第一件头疼的事情就是编码问题, 看了很多教程讲得不清楚, 现在整理一下,希望以后查看方便一些使用 sys.getdefaultencoding() 查看Python的默认系统编码,输出是 ascii , 这个编码应该是指的源文件的编码格式, 可以另存为的方式改成utf...

分类：编程语言时间：2015-05-19 01:54:30 阅读次数：152

《自己动手写网络爬虫》读书笔记——宽度优先爬虫和带偏好的爬虫

前面只是获取了单个网页内容，在实际中，则使用爬虫程序遍历互联网，把网络中相关的网页全部抓取过来，这也体现了爬虫程序“爬”的概念。互联网可以看成一个超级大的“图'，而每个网页则可以看作是一个”节点“。页面中的链接可以看成是图的”有向边“。因此，可以通过图的遍历的方式对互联网这个”图“进行访问。...

分类：其他好文时间：2015-05-17 00:47:40 阅读次数：140

JAVA网络爬虫批量下载豌豆夹中的应用

今天终于把脚本弄好了，虽然是东拼西凑的，总算有点成就感啦，下面把代码帖这～package studyjava;import java.io.BufferedReader;import java.io.File;import java.io.FileOutputStream;import java.i...

分类：编程语言时间：2015-05-12 12:57:28 阅读次数：113

python网络爬虫新浪博客篇

上次写了一个爬世纪佳缘的爬虫之后，今天再接再厉又写了一个新浪博客的爬虫。写完之后，我想了一会儿，要不要在博客园里面写个帖子记录一下，因为我觉得这份代码的含金量确实太低，有点炒冷饭的嫌疑，就是把上次的代码精简了一下，用在另外一个网站而已，而且爬别人的博客总有一种做贼心虚的感觉，怕被各位园友认为是偷窥狂...

分类：编程语言时间：2015-05-10 20:24:04 阅读次数：327

网络爬虫-原理篇（一）

转自：http://www.cnblogs.com/wawlian/archive/2012/06/18/2553061.html 有改动！引入：我们在百度首页输入关键字，百度一下，相关的内容就会立马呈现出来，这个动作的背后到底隐藏着哪些操作？其实百度的核心搜索引擎就是一个大型的分布式网络爬.....

分类：其他好文时间：2015-05-10 20:18:12 阅读次数：140

网络爬虫-原理篇（二）

转自：http://www.cnblogs.com/wawlian/archive/2012/06/18/2554072.html 有改动！四、更新策略　史链更新是网络爬虫中很重要的一个环节，对于时效性比较高的数据来说，更新策略愈发重要。互联网是实时变化的，具有很强的动态性。网页更新策略主要是决....

分类：其他好文时间：2015-05-10 20:09:57 阅读次数：158

R网络爬虫

网上关于R的网络爬虫少之又少，即使找到代码，由于各方面原因总是不能成功运行。对于搞数据分析的筒子们来说，从互联网上获取数据是非常重要的，于是决定自己写一个简单的基于R的网络爬虫，然后共享出来供大家参考。所扒的数据为新浪财经—股票---中国银行---历史信息中的第一页表格数据，连接：中国银行。 library(RCurl) temp=getURL ("http://vip...

分类：其他好文时间：2015-05-05 14:35:27 阅读次数：188

共1546条上一页 1 ... 135 136 137 138 139 ... 155 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)