1. 问题分析 1.1 问题场景 在生产环境下,从电子渠道的多个交易系统通过SSIS(SQL Server Integration Services)进行数据服务平台的ETL数据抽取时出现性能问题。在初期使用过程中出现了数据抽取速度过慢和系统资源占用过高的问题,除数据库基础架构建设存在优化可能外,S ...
分类:
其他好文 时间:
2017-07-12 10:13:17
阅读次数:
296
遇到一个客户,有个需求,想将mssql中的数据抽取到oracle中。经过上网查找,感觉gateway这个工具可以实现,因此就搭建实验环境进行测试。首先在oracle delivery上面下载对应的安装包。 实验环境如下: oracle数据库: ip地址:192.168.56.100 数据库名称:or ...
分类:
数据库 时间:
2017-07-05 11:35:24
阅读次数:
245
ETL分别是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写也就是“抽取”、“转换”、“装载”,但我们日常往往简称其为数据抽取。 ETL是BI/DW(商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程, ...
分类:
数据库 时间:
2017-06-29 00:57:59
阅读次数:
320
什么是爬虫 我们先看看维基百科的定义 网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。 通俗的说爬虫就是通过一定的规则策略,自动抓取、下载互联网上网页,在按照某些规则算法对这些网页进行数据抽取、 索引。 像百度、谷歌、今日头条、包括各类新 ...
分类:
其他好文 时间:
2017-06-19 11:04:05
阅读次数:
295
很早之前,OGG只支持部署在数据库主机上,这叫本地化部署。而现在OGG支持远端部署,即OGG软件不安装在数据库主机上,而是安装在单独的机器上,负责数据抽取和投递。 这样做的好处: l 易于管理 - 在单独的服务器上运行Oracle GoldenGate时,您可以更好的管理OGG,降低对生产数据库的影 ...
分类:
数据库 时间:
2017-06-08 18:50:27
阅读次数:
442
直接干货 model 考虑给用户展示什么。关注支撑业务的信息构成。构建成模型。 control 调用业务逻辑产生合适的数据以及传递数据给视图用于呈献; view怎样对数据进行布局,以一种优美的方式展示给用户; MVC核心思想:业务数据抽取和业务数据呈献相分离。 看看Spring MVC官网给的图:h ...
分类:
编程语言 时间:
2017-05-16 10:52:53
阅读次数:
206
今天公司抽取了4千万的表大概十几G 用sqoop抽取是30--40分钟 开了两个map。模型是oracle hdfs(hive)。以前只抽过几十万级别,所以千万级别感觉还是spilt做好切分和定好切分字段。尽量避免木桶效应。才能把sqoop时间缩到最短。另外。hdfs load到hive 加了ove ...
分类:
其他好文 时间:
2017-05-10 01:09:54
阅读次数:
283
kettle是一款E(Extract)T(Transform)L(Load)工具.(即数据抽取,转换,装载的过程)。kettle有两种方式来整合工作:xml文件形式和资源库(资源库移植性不好,数据表的可读性比xml好)kettle有两种脚本文件:transformation和jobkettle有三大组件:SpoonKitchenPanSpoon:..
分类:
其他好文 时间:
2017-05-08 18:49:43
阅读次数:
246
1. MVC概念 1.1 前端控制器 1.2 MVC概念 MVC的核心思想 业务数据抽取 与 业务数据呈现 相分离 2. Spring MVC概念 2.3 架构流程 3. 应用maven工具,管理springMVC 3.1 maven的三个重要概念:配置pom.xml,依赖dependency, 坐 ...
分类:
编程语言 时间:
2017-04-22 09:45:53
阅读次数:
145
Kettle是一款国外开源的ETL工具,纯Java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 业务模型: 在关系型数据库中有张很大的数据存储表,被设计成奇偶库存储,每个库100张一模一样的表,每张表存储1000W,自动切换到下一个表。现需要同步这个数据到H ...
分类:
其他好文 时间:
2017-04-20 18:36:59
阅读次数:
224