文本分类现已比较成熟,各类开源工具不少,现推荐几个比较常用简单的工具:1、scikit-learn:http://scikit-learn.org/stable/index.html python编写调用,里面有各种分类算法svm、随机森林、贝叶斯等,和特征提取,如字、ngram等,几行代码便可以构...
分类:
其他好文 时间:
2014-08-18 17:52:42
阅读次数:
193
一、总体概述ETL包括Extract、Transform、Cleaning和Load,它是用于从生产库中提取数据到数据仓库中,再由具体的报表、统计、分析工具对数据仓库的内容进行分析,分析出自己所需要的数据。其中ETL培训的内容是如何利用Informatic PowerCenter把源数据库的内容提取...
分类:
其他好文 时间:
2014-08-15 15:55:59
阅读次数:
337
ETL工具中最基础的功能是加载远程服务器的文件,如下小程序以二进制方式获取远程服务器上的文件:
#!/usr/bin/bash
#created by lubinsu
#2014
source ~/.bash_profile
filename=$6
srcdir=$4
descdir=$5
ftpip=$1
ftpusr=$2
ftppwd=$3
#get files
ftp -i -in <<...
分类:
其他好文 时间:
2014-08-14 23:55:16
阅读次数:
198
ETL调度中读写数据信息,都需要连接数据库,下面的子程序通过传入的数据库连接字符串和数据库命令(或SQL)执行所需要的操作:
#!/usr/bin/bash
#created by lubinsu
#2014
source ~/.bash_profile
values=`sqlplus -S $1 << EOF
set heading off feedback off pagesize 0...
分类:
数据库 时间:
2014-08-14 23:54:46
阅读次数:
242
biapps是基于obiee的
BIAPPS开发概要
1. 搭建数据仓库
2. 数据抽取(ETL)
3. 搭建数据模型
4. 搭建报表系统
1、数据仓库
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate...
分类:
移动开发 时间:
2014-08-13 19:05:07
阅读次数:
346
前言:
在数据库运行维护过程中经常会需要在系统之间进行文件传输,对数据进行抽取、转换、整合等操作。并且在数据整合之后进行统计调度,这里将会对本人开发的一个ETL调度进行详细的说明。
需求概述:
调度分为如下方式:
ü 一个是SHELL编写的ETL调度,支持小时、日、周、月文件的调度。
ü 一个是流程调度,主要是根据配置表调用指定过程,并发执行。
进程描述:
文...
分类:
其他好文 时间:
2014-08-13 01:21:55
阅读次数:
315
根据需求我们需要创建部分所需的配置表,各表说明如下:
1、文件FTP主机配置表:SHELL_HOST_CFG
COLUMN_NAME
DATA_TYPE
COMMENTS
LATN_ID
NUMBER
HOST_ID
NUMBER
主机ID
HOST_NAM...
分类:
其他好文 时间:
2014-08-13 01:20:15
阅读次数:
284
Hive 运行架构
由Facebook开源,最初用于解决海量结构化的日志数据统计问题:ETL工具;
构建于Hadoop的HDFS和MapReduce智商,用于管理和查询结构化/非结构化数据的数据仓库;
设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据:
使用HQL作为查询接口;
使用HDFS作为存储底层;...
分类:
其他好文 时间:
2014-08-12 19:05:44
阅读次数:
314
Vertica与传统数据库系统和其他列式数据仓库系统相比的话,在性能上有比较明显的优势,在设计上有一些异同,比较适合ad-hoc查询,OLAP类型的作业。总的来说,Vertica通过列存储减少了io开销,再加上高效的压缩手段,极大节省了磁盘空间,基于此Vertica采用多备份来保证高可用性,并且多备份又能够增强查询性能。在使用和运维角度了,Vertica自带工具帮助用户做物理表的存储,能提供标准SQL接口,也兼容现有的BI、ETL工具方便作业往Vertica上迁移,而且Vertica部署对硬件没有特殊要求,...
分类:
数据库 时间:
2014-08-11 02:58:21
阅读次数:
483