码迷,mamicode.com
首页 >  
搜索关键字:采集    ( 4930个结果
php.curl详解
目前为目最全的CURL中文说明了,学PHP的要好好掌握.有很多的参数.大部份都很有用.真正掌握了它和正则,一定就是个采集高手了.PHP中的CURL函数库(Client URL Library Function)curl_close - 关闭一个curl会话curl_copy_handle - 拷贝一...
分类:Web程序   时间:2014-05-26 21:52:15    阅读次数:364
网络爬虫(网络蜘蛛)之网页抓取
现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:Web程序   时间:2014-05-26 05:54:50    阅读次数:393
JAVA读、写EXCEL文件
采集jxl.jar包,网上下载,百度一下导出都是。 接下来直接贴代码:public List getValue(String fileName){ String str=ExcelOparations.readExcel(fileName).trim(); String[] str4n= str.split("\n"); List list1 =...
分类:编程语言   时间:2014-05-25 00:28:26    阅读次数:432
【搜索引擎基础知识1】搜索引擎基本架构
(一)搜索引擎的开发一般可分为以下三大部分 1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi 2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene 3、视图层:也用户的交互界面,如一个网站的首页 其基本架构可参考下图:...
分类:其他好文   时间:2014-05-24 22:20:16    阅读次数:349
DEDECMS采集规则,过滤,替换文章内的部分内容
1.采集去除链接[Copy to clipboard]CODE:{dede:trim}]*)>([^]*)>([^{/dede:trim}这样做会去掉与之间的字符!这样整个文章就少了部分字符,不完整了!后来我多次测试,总算找到了正确的使用方法!如下:{dede:trim}]*)>{/dede:tri...
分类:其他好文   时间:2014-05-23 07:07:02    阅读次数:231
报告自动生成
对于诸多行业客户,在平时工作实践中,会产生大量的财务数据、交易数据,以及基于这些数据的计算过程和结果。如何将此类数据的采集、编辑、加工、汇总、整理、存储、产生分析报告,得到有效信息,工作量极大,人工成本昂贵,并且繁琐,存在风险。如果客户的工作报告生成系统为人工制作,操作风险会比较高,数据需人工采集编辑,未来产品数量和数据爆发式增长,现有制作报告人力会面临制作时效较长、缺失系统管理、无法有效完成报告查询定位等风险,间接影响客户服务体验。基于此,构建一个行业客户工作报告生成配套管理系统,从报告的出生到接触到最终...
分类:其他好文   时间:2014-05-22 23:58:50    阅读次数:1658
Centos6.3下Ganglia3.6.0安装配置
mkdir /var/lib/ganglia/rrds 最近安装Ganglia,由于之前Linux基础基本为0,因此费了很大的周折。最后在失败了好多次之后终于看到了梦寐以求的web界面。下面总结下这几天来的工作。 ganglia是一个监控软件,他包含三部分:Gmond,Gmetad和Gweb。在需要监控的主机上安装Gmond,他会采集当前主机上的一些信息;Gmetad部署在服务器端,它轮训...
分类:其他好文   时间:2014-05-22 18:41:32    阅读次数:463
博客园博主们的反击
相信不少博主都习惯了各种爬虫,各种采集了吧。前些时间好像有个朋友在抱怨博客园怎么没有对我们知识结晶进行保护。其实采集就采集吧,不加作者信息也就算了,最可恶的是不保留作者信息。好吧,不扯蛋了,我们进入正题。我测试过多种方法,比如在开头加上隐藏的作者信息,或者原文链接等等方法。可是机器人也不是吃素的,现...
分类:其他好文   时间:2014-05-21 18:51:17    阅读次数:267
基于低压电量采集平台DW710C的基础开发
实验课题 (1)自定义通信规约,采用java或C++编写简单的PC端上位机软件,实现采集器与PC机的通信。实验可在DW710C-PC工程下进行。 (2)实现LCD显示字符、数字、汉字和简单的图像,并能根据上位机发送的命令做相应的显示。此实验需要掌握LCD屏幕的显示原理(可参考LCD屏幕指导手册),并编写程序控制LCD显示(可参考工程DW710C-LCD);知道如何用字模提取软件提取字模;另外还...
分类:其他好文   时间:2014-05-21 14:42:46    阅读次数:316
日均百万PV架构第四弹(分布式监控)
应该能更早出的第四弹,被虚拟机错误搅乱,迟迟没有上线,不得已将所有节点用puppet完成上线,稍后整理第五弹(非你不可自动化)也即将上线:)zabbix简介zabbix是基于Php的开源监控软件基于多重数据采集SNMP,Agent,Ping,Port多重告警通知Mail,Jabber,SMS可以完成多种操作平台甚至于设..
分类:其他好文   时间:2014-05-20 21:21:38    阅读次数:607
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!