1.DWI DWI:数据湖、数据砥柱,一般存放在HDFS 数据仓库的基础数据来源,各种杂七杂八的数据 关键点:数据清洗、数据整合、异常处理、增量获取 ETL:E-数据抽取、数据清洁、格式转换,T-生成代理键ID、遵循三范式,L-数据加载 2.DWR DWR:数据仓库的中间层,星型结构 根据业务划分: ...
分类:
其他好文 时间:
2019-07-03 00:28:13
阅读次数:
481
重点分享了宜信敏捷数据中台的设计、架构以及应用场景,提出一种敏捷数据中台的建设思路,以供参考和探讨。
分类:
其他好文 时间:
2019-05-28 12:59:32
阅读次数:
113
Kettle版本4.1.0 打开Spoon软件,windows下面双击Spoon.bat即可。 创建一个转换。 创建两个数据源,一个是oracle的一个是mysql的。 再分享一下我老师大神的人工智能教程吧。零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到我们人工智能的队伍中来!https:/ ...
分类:
数据库 时间:
2019-02-04 18:19:59
阅读次数:
192
最近在跑一些网络时发现,训练完的网络在测试集上的效果总是会受Batch_Size 大小的影响。这种现象跟以往自己所想象的有些出入,于是出于好奇,各种搜博客,大致得出了自己想要的答案,现写一篇博客记录一下。 在训练过程中,一般有三种方式来从数据集中抽取数据,更新参数。一种是取所有的样本算出梯度(Ful ...
分类:
其他好文 时间:
2019-02-01 21:52:32
阅读次数:
257
一 、建立cdc记录表用于每次增量的时间节点 create table dbo.cdc_capture_log ( cdc_capture_log_id int identity not null , capture_instance nvarchar(50) not null , start_ti ...
分类:
其他好文 时间:
2019-01-29 20:39:45
阅读次数:
275
数据的特征抽取 数据的特征抽取 现实世界中多数特征都不是连续变量,比如分类、文字、图像等,为了对非连续变量做特征表述,需要对这些特征做数学化表述,因此就用到了特征提取. sklearn.feature_extraction提供了特征提取的很多方法 分类特征变量提取 我们将城市和环境作为字典数据,来进 ...
分类:
其他好文 时间:
2019-01-17 22:39:22
阅读次数:
153
第一步:新建任务①击左上角“加号”新建任务,如图1:【图1】②在弹窗里填写采集地址,任务名称如图2:【图2】③点击下一步,选择进行数据抽取还是链接抽取,本次采集需要采集当前页面列表中的所有内容,所以只需抽取列表数据即可,点击“抽取数据”,如图3:【图3】第二步:创建/选择表单在ForeSpider爬虫中,表单是可以复用的,所以可以在数据表单出直接选择之前建过的表单,也可以通过表单ID来进行查找并关
分类:
其他好文 时间:
2019-01-09 11:44:47
阅读次数:
251
环境: hadoop-2.7.5 sqoop-1.4.7 zookeeper-3.4.10 hive-2.3.3 (使用mysql配置元数据库) jdk1.8.0_151 oracle 11.2.0.3.0 经过一番baidu,总算初步成功,现在记录一下中间过程. 1.拷贝hive/conf/hiv ...
分类:
数据库 时间:
2018-12-24 03:01:23
阅读次数:
232
环境: OEL 5.7 + Oracle 10.2.0.5 RAC 需求: 实验在Oracle 10g环境使用amdu抽取数据库文件 本文主要目的是介绍3个知识点: "1.使amdu可以在oracle 10g环境中使用" "2.使kfed可以在oracle 10g环境中使用" "3.amdu如何抽取 ...
分类:
数据库 时间:
2018-12-11 01:39:38
阅读次数:
164
时间戳方式抽取数据 介绍:它是一种基于快照比较的变化数据捕获方式,在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较上次 抽取时间与时间戳字段的值来决定抽取那些数据。有的数据库的时间戳支持自动更新,即表的其他字段的数据发生变化时,自动更新时间戳 ...
分类:
其他好文 时间:
2018-12-10 14:04:10
阅读次数:
215