码迷,mamicode.com
首页 >  
搜索关键字:数据抽取    ( 211个结果
条件拆分控件使用
在进行ETL数据抽取的时候,往往会对数据进行条件拆分,比如当[工资]》5000时,才进入数据仓库,否则输出到Excel。类似这种需求。今天就来讲解一下条件拆分控件的使用。达到的目的就是把[OrderStatusCode]等于99的输出到数据仓库,不等于99的输出到Excel中。第一步:准备原始数据,...
分类:其他好文   时间:2014-07-16 00:40:19    阅读次数:360
ETL技术入门之ETL初认识
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求...
分类:其他好文   时间:2014-07-12 21:46:17    阅读次数:221
ETL数据抽取
1.ETL:数据抽取2.抽取数据在不同的数据源之间,把数据进行转化,加载,清洗操作,保证抽取的数据合法。3.开源实现:Kettle 工具====================================================================学习:大家可以学学这个Ket...
分类:其他好文   时间:2014-06-26 13:05:42    阅读次数:210
垂直搜索引擎研发经验总结
垂直搜索引擎研发经验总结 什么是垂直搜索引擎?        垂直搜索引擎是针对某一行业的搜索引擎,是搜索引擎的细化和延伸,是对网页库中的某类信息进行一次整合,定向分字段抽取出所需要的数据,再进行二次处理和索引,最后根据用户提交的请求,返回搜索结果。         与普通的网页搜索引擎相比,它们最大的区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结...
分类:其他好文   时间:2014-06-26 07:38:14    阅读次数:294
详细图解 快速入门kettle
写在前面一: 数据仓库ETL工具有很多,基于大数据环境下的分析,Hive用的多些。本文介绍国外的 一款开源ETL工具——Kettle。 写在前面二: 所用软件说明: 一、什么是Kettle Kettle是一款国外开源的ETL工具,纯java编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)。Kettle中有两种脚本文件,transformation和job,transf...
分类:其他好文   时间:2014-06-22 12:01:20    阅读次数:619
数据抽取——纯文本抽出程序库DMCTextFilter
数据抽取工具纯文本抽出程序库DMCTextFilterDMCTextFilterV4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源..
分类:其他好文   时间:2014-06-10 20:36:52    阅读次数:315
数据抽取工具——DMCTextFilter(纯文本抽出通用程序库)
DMCTextFilter 是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。本产品采用了先进的多语言、多平台、多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种文字集合代码(GBK...
分类:其他好文   时间:2014-06-10 19:13:51    阅读次数:282
网络爬虫(网络蜘蛛)之网页抓取
现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:Web程序   时间:2014-05-26 05:54:50    阅读次数:393
数据抽取——纯文本抽出程序库DMCTextFilter
数据抽取工具纯文本抽出程序库DMCTextFilterDMCTextFilterV4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源..
分类:其他好文   时间:2014-05-13 04:27:33    阅读次数:273
前三章
1、商业智能 商业智能的实现有三个层次:数据报表、多维数据分析和数据挖掘。 商业智能项目的实施步骤: 需求分析 数据仓库建模 数据抽取 建立商业智能分析报表 用户培训和数据模拟测试 系统改进和完善商业智能系统应具有的主要功能 数据仓库 数据ETL 数据统计输出(报表) 分析功能 商业智能的软件工具集...
分类:其他好文   时间:2014-05-03 22:16:23    阅读次数:284
211条   上一页 1 ... 19 20 21 22 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!