新建一个hSpider的工程,引入前面已经建立的lib 并为其建立一个hibernate.cfg.xml的映射文件 1 <?xml version='1.0' encoding='utf-8'?> 2 <!DOCTYPE hibernate-configuration PUBLIC 3 "-//Hi
分类:
Web程序 时间:
2016-03-02 19:45:05
阅读次数:
267
Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web 文档集合的程序。它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。WebCrawler的主要功
分类:
其他好文 时间:
2016-03-02 12:56:34
阅读次数:
132
1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是
分类:
其他好文 时间:
2016-03-01 14:21:37
阅读次数:
307
序 最近在学习Scrapy的时候发现一个很有意思的网站,可以托管Spider,也可以设置定时抓取的任务,相当方便。于是研究了一下,把其中比较有意思的功能分享一下: 抓取图片并显示在item里: 下面来正式进入本文的主题,抓取链家成交房产的信息并显示房子图片: 1. 创建一个scrapy projec
分类:
Windows程序 时间:
2016-02-25 00:21:46
阅读次数:
1520
import scrapy from myproject.items import MyItem class MySpider(scrapy.Spider): name = 'example.com' allowed_domains = ['example.com'] start_urls = [
分类:
其他好文 时间:
2016-02-02 14:45:20
阅读次数:
121
官网:http://dbg-spider.net/源码:https://github.com/yavfast/dbg-spiderRealtimeprofilerforDelphiapplications:?Detaileddebuginformation(internal,TDS,MAP)?Dis...
禁止搜索引擎收录的方法 一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容...
分类:
其他好文 时间:
2016-01-22 02:53:32
阅读次数:
182
Regular Expression,即正则表达式:用来查找符合某些负责规则的字符串的需要。它真是用于描述这些规则的工具。1. \b 是一个元字符,用来匹配一个位置,代表着单词的开头或结尾,也就是单词的分界处。如 \bhi\b就会找到文章中所有的'hi'的单词;2. 你要找的是hi后面不远处跟着一个...
分类:
其他好文 时间:
2016-01-13 17:45:20
阅读次数:
102
一。安装软件(用eclispe 搭建好环境好,没有取省自动补全编写代码会很卡,最后选用sumblie)eclispe 用的windows 32 4.31 python 用的 4.3.3 下载地址pydev 用的2.4`二。目录结构三.各模块代码 ,调度器 spider_main.py, url管理器...
分类:
其他好文 时间:
2016-01-06 17:56:45
阅读次数:
864
sitemap是网站上各网页的列表。创建并提交sitemap有助于百度(Google)发现并了解您网站上的所有网页,包括百度通过传统抓取方式可能找不到的网页。还可以使用sitemap提供有关你网站的其他信息,如上次更新日期、sitemap文件的更新频率等,供百度(Google)spider参考。 ....
分类:
Web程序 时间:
2015-12-26 18:37:43
阅读次数:
162