2013年的10月份左右,还在玩摄影的我建立了一个摄影自学论坛,那会儿什么也不懂就瞎折腾,结果用discuz做了一个像模像样的论坛出来了。每天苦逼的下载各种摄影PDF然后一篇篇地发着帖子。后来听说有一种叫做采集的功能,去discuz的应用中心下载了采集插件,结果不是要钱就是要钱了也不会使。又听说了一种叫做火车头采集器的东西,于是,还是不会写采集规则。或者说那会儿根本就不知道火车头是需要根据采集规则...
分类:
编程语言 时间:
2016-04-26 20:34:08
阅读次数:
183
正则表达式是PHP中一个非常重要的知识点,通常用来查找和替换字符串,验证用户输入的信息格式是否符合规范,如邮件格式、电话格式等等。还有采集器之类的软件中,正则也是必用不可!主要介绍PHP中几个常见的正则函数:preg_match()、preg_match_all()、preg_grep()、preg_split..
分类:
Web程序 时间:
2016-04-08 20:13:53
阅读次数:
259
在做采集器的过程中,经常会遇到IP限制的情况,这时候可以通过切换IP能继续访问。如果是多IP的服务器,那么可以通过切换出口Ip来实现。1.首先是如何获取服务器绑定的IP 需要引入netifaces模块,安装方法easy_install netifaces2.为socket绑定出口IP 后面这个是通过 ...
分类:
编程语言 时间:
2016-04-08 00:43:55
阅读次数:
226
帝国cms7.2增加了金刚模式,登录发布有难度。免登录发布模块配合火车采集器,完美解决你遇到的问题。 免登录直接获取栏目列表 通过文件内设置密码免登录发布数据 帝国cms7.2免登陆文章发布接口使用说明 一、功能特性1、免登陆,用户可以设置验证密码来防止未授权的访问.3、可以达到和手工发布文章完全一 ...
分类:
其他好文 时间:
2016-04-03 06:59:18
阅读次数:
4178
<?php /** * 可以灵活配置使用的采集器 * 作者:Rain * 创建时间:2015-02-03 15:17:30 * 版本信息:V1.0 */ /////////////////////////////////////////////////////////////////////////
分类:
Web程序 时间:
2016-03-03 19:31:13
阅读次数:
256
火车头是比较火的采集器,弄懂采集器的运行原理比较重要,那么火车头的采集器基本的采集方法是什么呢,我给讲讲免费版的基本采集方法。 1 下载安装火车头采集器,有付费与免费版,百度查找下载地址。(这里不细说) 2 下载好后,双击火车头图标打开采集器。 3 进入火车头主程序页面。 4 单击新建的黑小三角,新
分类:
其他好文 时间:
2016-02-01 02:05:09
阅读次数:
170
严格意义来说,采集器和爬虫不是一回事:采集器是对特定结构的数据来源进行解析、结构化,将所需的数据从中提取出来;而爬虫的主要目标更多的是页面里的链接和页面的TITLE。 采集器也写过不少了,随便写一点经验吧,算是给自己的一个备忘。 首先是最简单的:静态页面采集器。即所采集的数据来源页面是静态的,至少采
分类:
Web程序 时间:
2016-01-28 10:52:32
阅读次数:
183
package com.forex.collect;import java.io.IOException;import java.util.HashMap;import java.util.Iterator;import java.util.Map;import java.util.Random;i...
分类:
Web程序 时间:
2016-01-22 10:35:26
阅读次数:
182
php正则表达式以及正则函数详解发布时间: 2012-03-21浏览次数:21493 分类:PHP教程正则表达式是php中一个非常重要的知识点,通常用来查找和替换字符串,最常用的就是验证用户输入的信息格式是否正确,如邮件格式、电话格式等等。还有比如采集器之类的软件中,正则也是必用不可!现在开始来学习...
分类:
Web程序 时间:
2015-11-20 07:00:56
阅读次数:
165
日志分析软件secilog1.16发布,增加了集群,离线日志导入,日志过滤和归并,日志管理,配置管理等。上篇文章1.15,有兴趣可以了解一下。本次升级主要增加以下功能:集群主要是采集器可以分布式集群部署,支持横向扩展,理论上支持海量数据。配置文件中增加了两项:secilog.mast..
分类:
其他好文 时间:
2015-10-22 15:47:59
阅读次数:
208