码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
服务器租用托管 睿讯网络您的最佳选择
广东锐讯网络技术有限公司,是全方位整合网络资源的专业IDC基础服务提供商,是拥有ISP资质的电信运行商!自主运营4星级机房,省电信骨干网络,出口带宽450,180G金盾防火墙、240G自动流量清洗,最高防御达300G!!专职工程师7*24小时维护,带宽资源丰富适合游戏,音乐,流媒体..
分类:其他好文   时间:2015-04-23 00:15:27    阅读次数:284
将Hive统计分析结果导入到MySQL数据库表中(一)——Sqoop导入方式
最近在做一个交通流的数据分析,需求是对于海量的城市交通数据,需要使用MapReduce清洗后导入到HBase中存储,然后使用Hive外部表关联HBase,对HBase中数据进行查询、统计分析,将分析结果保存在一张Hive表中,最后使用Sqoop将该表中数据导入到MySQL中。整个流程大概如下:         下面我主要介绍Hive关联HBase表——Sqoop导出Hive表到MySQL这...
分类:数据库   时间:2015-04-22 11:47:45    阅读次数:287
使用ETL控件还是存储过程
在实际的项目过程中,我们会碰见许多需要在几个解决方案中作出权衡的情况,其中的一个权衡就是:对于数据的清洗、加载,我们是应该主要使用ETL控件还是主要使用存储过程而ETL只是作为调用存储过程的工具。使用ETL控件的好处是:数据处理过程可视化,比较容易理解减少数据库的压力,把数据处理的压力转移到ETL服...
分类:其他好文   时间:2015-04-21 20:12:15    阅读次数:151
java工程积累——项目管理:破窗理论
年后这段时间,我一直带着项目,在项目中,最后总会遇到这样那样的问题,搞得自己有些狼狈!在向我的恩师求助后,我翻阅了一些资料和书籍,最后找到了一个特别有意思的问题!就是咱们的题目,破窗理论,咱们一起来探讨探讨。 百科-破窗理论:         一个房子如果窗户破了,没有人去修补,隔不久,其它的窗户也会莫名其妙地被人打破;一面墙,如果出现一些涂鸦没有被清洗掉,很快的,墙上就布满了乱七八糟、不堪入...
分类:编程语言   时间:2015-04-21 00:24:17    阅读次数:165
分页查询的那些坑和各种技巧
背景从上周开始我就一直在做数据清洗的工作,这次算是体会到了什么叫做“抛开数据量谈实现就是耍流氓”。我设计方案和调试代码连接的都是日常环境的数据库,里面的单表数据量在百级,无论我怎么实现都是瞬间洗完。到了性能测试的时候用的就是性能库,双 11 之前@W君做性能测试的时候,往里面写入了 2000W 的数...
分类:其他好文   时间:2015-04-18 19:11:53    阅读次数:259
单词清洗与查找
总的介绍 必需的文件组成 a)可执行文件:extract.exe(用来萃取单词表里面的英语单词)和find.exe(用来查找单词的)。b)配置文件(不要以为是什么高大上的东西,其实就是用来告诉程序哪些文件需要被处理的一个txt文本而已)。 总的有两个配置文件,一个是告诉程序要去哪些单词表里面查询,另一个是告诉程序要查找哪些题目。如图1,这个是告诉程序要去哪些单词表里面查询的配置文件,每个文本对应一...
分类:其他好文   时间:2015-04-17 22:20:57    阅读次数:171
欢迎来到SQL学院
给学习SQL的同学的福利@ http://sqlschool.modeanalytics.com/ 第一部分 学习SQL 本教程是专为那些想用数据回答问题的人们而设计的。从很大程度上讲,SQL是数据分析的基础,它可以用来访问、清洗和分析存储在数据库中的数据。SQL是很容易学习的,而且有世界上最大的公...
分类:数据库   时间:2015-04-17 17:21:07    阅读次数:172
关于科研管理信息化问题的断想
管理信息化必须是规范化管理,而非个性化管理,例如:同一类别的科研项目的名称不能总是变来变去。如果名称改变,旧名称就不应作为数据分析的依据。所以,一旦要建设数据库,首要的工作就是对数据进行彻底的、不留死角的清洗。
分类:其他好文   时间:2015-04-14 09:54:24    阅读次数:110
降维PCA技术
降维技术使得数据变得更易使用,并且它们往往能够去除数据中的噪声,使得机器学习任务往往更加精确。降维往往作为预处理步骤,在数据应用到其它算法之前清洗数据。有很多技术可以用于数据降维,在这些技术中,独立成分分析(Independent Component Analysis, ICA)、因子分析(Fact...
分类:其他好文   时间:2015-03-31 19:52:57    阅读次数:444
【机器学习实验】用Python进行机器学习实验
概要本文是用Python编程语言来进行机器学习小实验的第一篇。主要内容如下: 读入数据并清洗数据 探索理解输入数据的特点 分析如何为学习算法呈现数据 选择正确的模型和学习算法 评估程序表现的准确性 读入数据 Reading the data当读入数据时,你将面临处理无效或丢失数据的问题,好的处理方式相比于精确的科学来说,更像是一种艺术。因为这部分处理适当可以适用于更多...
分类:编程语言   时间:2015-03-12 17:08:02    阅读次数:247
781条   上一页 1 ... 69 70 71 72 73 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!