目录1.数据集选取2.数据预处理(1)数据清理(2)数据集成(3)数据归约(4)数据变换和数据离散化3.数据分析算法4.分析总结改进 这学期提前选课学习了DataMining,最近提交了论文已经彻底结了。想来想去还是写点东西记一下,假如以后能用上呢?仅供参考哈参考书:《数据挖掘概念与技术》Jiaw....
分类:
其他好文 时间:
2015-06-29 16:12:22
阅读次数:
188
【引言】这篇文章原载于内刊,现发布于此。内容有所删减。基于大数据分析的安全管理平台技术研究及应用Research and Application of Big Data Analysis Based Security Management PlatformLast Modified By yepen...
分类:
其他好文 时间:
2015-06-29 00:23:49
阅读次数:
182
淘宝大数据的游戏,我重新提高自己的思维方式,插件和代码前前后后写在六个版本,但最好的结果其实是我的第一次2第二码。这让我很惊讶,但它也说明了一个问题。当你更熟悉的语言,当一方,你缺少的是其他的知识,首先是我的数学知识,在分析用户行为时,我们知道浏览次数和购买次数是由一定规律的,这个方面找了数学系的同...
分类:
编程语言 时间:
2015-06-28 14:03:13
阅读次数:
113
Hadoop的两大功能:海量数据存储和海量数据分析
Hadoop2的三大核心组件是:HDFS、MapperReducer和yarn
1、HDFS:分布式文件系统海量数据存储
2、MapperReducer:运算框架,海量数据分析
3、yarn:资源调度管理集群
HDFS工作机制:基于namenode和datanode
1、namenode:响应客户端的请求;负责维护整个...
分类:
其他好文 时间:
2015-06-27 16:40:29
阅读次数:
203
之前用C写链表的时候,结点使用结构体封装的,操作起来总是感觉很麻烦。C++中使用类来封装结点,感觉操作起来方便多了,内存回收也感觉很清楚。 最近,做Gps数据分析时,别人要求加一个树形控件。 Gps数据是存储在Excel中的,不知道什么原因,采用OLE方式操作数据较多的Excel时,数据读取变得很....
分类:
编程语言 时间:
2015-06-27 09:45:07
阅读次数:
128
基于社交网络的情绪化分析IIBy 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。上一篇进行了微博数据的抓取,这一篇进行数据的处理介绍。无意义微博的定义观察发现微博中有很多的微博是用户参与某些活动而转发的微博,比如:“SmashHit,作者:MediocreAB。推荐!“http://t.cn/8Fkgg9k”;“刚刚下载了豆丁文档:项目公司运营简报...
分类:
其他好文 时间:
2015-06-26 23:50:28
阅读次数:
140
IDC评述网(idcps.com)06月26日报道:根据DailyChanges公布的实时数据显示,截至2015年6月23日,在全球域名解析量二十强排行榜上,中国依旧占据4个席位,分别是中国万网、DNSPod、新网、51DNS。另外,与上期相比,排名发生变化。下面,请看IDC评述网整理的数据分析。(图1)全..
分类:
其他好文 时间:
2015-06-26 13:11:30
阅读次数:
101
Hadoop在处理海量数据分析方面具有独天优势。今天花时间在自己的Linux上搭建了伪分布模式,期间经历很多曲折,现在将经验总结如下。 首先,了解Hadoop的三种安装模式: 1. 单机模式. 单机模式是Hadoop的默认模。当...
分类:
系统相关 时间:
2015-06-24 19:27:47
阅读次数:
231
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,g...
分类:
系统相关 时间:
2015-06-24 14:16:45
阅读次数:
203
今天在做数据分析报表的时候遇到一个这样的问题。表结构如下。 部门编码、部门名称、部门人员ID(中间用逗号分割)我想通过和人员表链接,查询出一个新的数据集,查询出的结果集格式如下: 人员信息(ID或者姓名)、部门编码、部门名称以前都是通过程序遍历拆分表字段组成新的集合字段,然后在结合SQL语句查询出结...
分类:
数据库 时间:
2015-06-24 12:34:21
阅读次数:
153