搜索关键字：爬虫，搜索到10452个结果！码迷,mamicode.com！

Scrapy 爬虫实例抓取豆瓣小组信息并保存到mongodb中

这个框架关注了很久，但是直到最近空了才仔细的看了下这里我用的是scrapy0.24版本先来个成品好感受这个框架带来的便捷性，等这段时间慢慢整理下思绪再把最近学到的关于此框架的知识一一更新到博客来。先说明下这个玩具爬虫的目的能够将种子URL页面当中的小组进行爬取并分析出有..

分类：数据库时间：2014-11-28 06:28:08 阅读次数：491

Python写的网络爬虫程序（很简单）

这是我的一位同学传给我的一个小的网页爬虫程序，觉得挺有意思的，和大家分享一下。不过有一点需要注意，要用python2.3，如果用python3.4会有些问题出现。...

分类：编程语言时间：2014-11-27 22:09:33 阅读次数：273

python爬取商品信息

老严要爬某网购网站的商品信息，正好我最近在学python，就一起写了一个简单的爬虫程序。需求：某网的商品信息，包括商品名，市场价和售价工具：python2.7.8，urllib2，re#coding = utf-8import urllib2import repath = "aaa.txt"f = ...

分类：编程语言时间：2014-11-27 06:46:13 阅读次数：124

Python爬虫之路——简单网页抓图升级版（增加多线程支持）

转载自我的博客:http://www.mylonly.com/archives/1418.html#!/usr/bin/env python #coding: utf-8 ############################################################## F...

分类：编程语言时间：2014-11-24 19:02:35 阅读次数：261

python写的批量图片水印工具

前段时间想给seo那边做个某工具站的爬虫,用到了图像识别(对方防守可谓严密啊,异步返回非标准json结构+referer+加密+图像四道防线.嘿嘿,代码就不放了.)正好公司要给全站图片加水印,刚研究的图像识别又有用武之地了.万事先谷歌,找到个加水印的代码,修改了一番就用上了.^ ^ 1 impor....

分类：编程语言时间：2014-11-24 13:32:22 阅读次数：336

Selenium FF WebDriver 遍历所有链接（另类爬虫）

爬虫另类遍历页面内容

分类：Web程序时间：2014-11-23 23:01:23 阅读次数：351

C#中使用正则表达式提取超链接地址的集中方法(转)

一般在做爬虫或者CMS的时候经常需要提取 href链接或者是src地址。此时可以使用正则表达式轻松完成。Regex reg = new Regex(@"(?is)]*?href=(['""]?)(?[^'""\s>]+)\1[^>]*>(?(?:(?!"); MatchCollection mc =...

分类：Windows程序时间：2014-11-23 00:30:13 阅读次数：372

Scrapy系列教程（3）------Spider（爬虫核心，定义链接关系和网页信息抽取）

Spiders Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说，爬取的循环类似下文: 以初始的URL初始化Request，并设置回调函数。当该request下载完毕并返回时，将生...

分类：Web程序时间：2014-11-20 12:04:07 阅读次数：329

Scrapy系列教程（6）------如何避免被禁

避免被禁止(ban) 有些网站实现了特定的机制，以一定规则来避免被爬虫爬取。与这些规则打交道并不容易，需要技巧，有时候也需要些特别的基础。如果有疑问请考虑联系商业支持。下面是些处理这些站点的建议(tips): 使用user agent池，轮流选择之一来作为user agent。池中包含常见的浏览器的user agent(google一下一大堆)禁止cookies(参考 ...

分类：其他好文时间：2014-11-20 12:02:41 阅读次数：239

一个采集邮箱的网络爬虫（听毕老师讲的）

package 案例;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import ...

分类：其他好文时间：2014-11-19 21:59:30 阅读次数：258

共10452条上一页 1 ... 1004 1005 1006 1007 1008 ... 1046 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)