为Spring MVC开启异步任务配置自定义AsyncTaskExecutorpackage com.spider.config;import org.springframework.context.annotation.Configuration;
import org.springframework.scheduling.concurrent.ThreadPoolTaskExecutor;
im...
分类:
编程语言 时间:
2016-05-07 07:35:14
阅读次数:
513
1. spider_main 2. url_manager 3. html_downloader 4. html_parser 5. html_outputer 最终获取的html,有些字符不能显示,查资料,说是用命令cmd /K chcp 65001 但是用控制台查询codepage编码依然是,改 ...
分类:
编程语言 时间:
2016-04-28 00:18:49
阅读次数:
296
1.spider_main 2.url_manager 3.html_downloader 4.html_parser 5.html_outputer ...
分类:
编程语言 时间:
2016-04-23 01:28:07
阅读次数:
422
一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指 ...
分类:
其他好文 时间:
2016-04-19 11:34:47
阅读次数:
134
摘要:根据Excel文件配置运行多个爬虫 很多时候,我们都需要为每一个单独的网站编写一个爬虫,但有一些情况是你要爬取的几个网站的唯一不同之处在于Xpath表达式不同,此时要分别为每一个网站编写一个爬虫就显得徒劳了,其实可以只使用一个spider就爬取这些相似的网站。 首先创建一个名为generic的... ...
分类:
其他好文 时间:
2016-04-18 15:17:16
阅读次数:
288
想学习一下网络爬虫,涉及到模拟登录,查阅了一番资料以后发现大部分都有点过时了,就使用前辈们给的经验,Firefox抓包调试,采用httpclient模拟了一下新浪登录。不对之处多多包含。需要的可以用浏览器调试看看还有哪些需要修改的,改改就可以了。
下面附上源码:(登录一次后,再次运行可能读到的页面是新浪通信证登录)
package com.spider.httpclient;
import ...
分类:
编程语言 时间:
2016-04-07 10:54:07
阅读次数:
266
安装scrapy conda install scrapy 创建scrapy项目 scrapy startproject qiubai 启动pycharm,发现新增加了qiubai这个目录 在spider目录下创建indexpage.py文件 编写糗百爬虫,获取首页的所有作者信息 #导入scrapy... ...
分类:
其他好文 时间:
2016-04-06 23:19:50
阅读次数:
449
背景:我们在做数据迁移或者拆分的时候,使用Tablespace transcation 这种解决方案时,很有可能就会遇到 从库复制出错,报: Last_SQL_Errno: 1146 那么具体错误内容可能会有如下: Last_SQL_Error: Error 'Table 'spider.tb_ci ...
分类:
数据库 时间:
2016-04-02 18:42:38
阅读次数:
1218
sphider 丁廷臣简体中文完美汉化版带蜘蛛搜索引擎程序 v1.3.4是最官方的新版,免费开源,用官方最新发布原版汉化。未更改任何内核文件。 Sphider 是一个完美的带有蜘蛛的搜索引擎程序。 Sphider是一个轻量级,采用PHP开发的web spider和搜索引擎,使用mysql来存储数据。 ...
分类:
其他好文 时间:
2016-03-24 14:51:16
阅读次数:
154
此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧。代码地址:https://github.com/LiuRoy/zhihu_spider,欢迎各位大神指出问题,另外知乎也欢迎大家关注
分类:
其他好文 时间:
2016-03-20 12:59:59
阅读次数:
184