随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢?1、打开浏...
分类:
其他好文 时间:
2014-07-10 12:32:08
阅读次数:
237
原文:C# winform调用WebBrowser经典怪问题总结最近一直研究网页数据采集,单单采集数据,其实HtmlAgilityPack就足够了。对HtmlAgilityPack感兴趣的可以到这里看看:C#采集代理服务器ip并设置IE代理--HtmlAgilityPack实战代码 但是有个问题:要...
OpenTSDB-2.0.0安装布署2014-02-27 11:07:49|分类:大数据|标签:hadoop|举报|字号订阅1、介绍OpenTSDB是一个架构在Hbase系统之上的实时监控信息收集和展示平台。它支持秒级数据采集所有metrics,支持永久存储,可以做容量规划,并很容易的接入到现有的报...
分类:
数据库 时间:
2014-07-07 08:00:49
阅读次数:
780
垂直搜索引擎大体上需要以下技术
1.Spider
2.网页结构化信息抽取技术或元数据采集技术
3.分词、索引
4.其他信息处理技术
垂直搜索引擎的技术评估应从以下几点来判断
1.全面性
2.更新性
3.准确性
4.功能性
垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有...
分类:
其他好文 时间:
2014-07-04 08:45:56
阅读次数:
295
基于MOXA平台管理机开发,使用DA660采集工业设备实时数据,并发送上位机。...
分类:
数据库 时间:
2014-06-25 07:30:28
阅读次数:
334
这里实现一个简单的多媒体数据流的处理库,它是以Filter的思想来实现的,通过Filter可以实现多路数据采集,处理和输出;一. 如何实现一个filter1.定义一个Filter descripter 结构,它包含了Filter的主要属性和行为;typedef struct McFilterDesc...
分类:
其他好文 时间:
2014-06-18 17:14:32
阅读次数:
202
要在一个Flume Agent中定义数据流,你需要通过一个Channel将Source和Sink连接起来。你需要列出给定Agent的Source、Sink和Channel。一个Source可以指定多个Channel,但是一个Sink只能指定一个Channel。...
分类:
其他好文 时间:
2014-06-18 06:30:34
阅读次数:
306
在前几篇文章中([搜房网房产数据采集程序demo--GeckoWebBrowser实例])都有提到一个解析html的C#类库HtmlAgilityPack,今天终于有时间整理一下,并把Demo分享一下。HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库,主要用于在服务器端解...
分类:
Web程序 时间:
2014-06-16 00:03:53
阅读次数:
452
显示层UI:
作用:向用户展现特定业务数据
采集用户的输入信息和操作
设计原则:用户至上,兼顾简洁
业务逻辑层BLL(Business Logic Layer):
作用:从DAL中获取数据,以供UI显示用
从UI中获取用户指令和数据,执行业务逻辑
从UI中获取用户指令和数据,通过DAL写入数据源
...
分类:
其他好文 时间:
2014-06-10 06:39:02
阅读次数:
270
在Web数据采集中为了避免被服务器封锁而通过代理下载的情况很常见。但是,并非所有的代理都适合于Web数据采集。下面是鲲鹏数据的技术人员给出的说明。根据HTTP代理的匿名性可以将其分为以下几种:1.
透明代理(Transparent Proxies)目标服务器能够检测到真实的源IP。目标服务器根据HT...
分类:
Web程序 时间:
2014-06-08 19:40:06
阅读次数:
247