1、大数据 (海量数据的存取,会设计到数据库技术) 大数据就是许多数据的聚合; 大数据的特征: 1、数据量大 2、结构复杂 3、数据更新速度快 2、机器学习 (理论和工具) 机器学习是人工智能的核心,要对大数据进行发掘,靠人工肯定是做不到的,要通过一个模型让计算机按照模型去执行,就是机器学习。 3、 ...
分类:
其他好文 时间:
2018-12-13 16:22:00
阅读次数:
199
一背景Spark是2010年由UCBerkeleyAMPLab开源的一款基于内存的分布式计算框架,2013年被Apache基金会接管,是当前大数据领域最为活跃的开源项目之一Spark在MapReduce计算框架的基础上,支持计算对象数据可以直接缓存到内存中,大大提高了整体计算效率。特别适合于数据挖掘与机器学习等需要反复迭代计算的场景。二特性高效:Spark提供Cache机制,支持需要反复迭代的计算
分类:
其他好文 时间:
2018-11-15 12:03:46
阅读次数:
205
1. 数据挖掘与机器学习开源框架 1.1 框架概述 1.1.1 AForge.NET AForge.NET是一个专门为开发者和研究者基于C#框架设计的,他包括计算机视觉与人工智能,图像处理,神经网络,遗传算法,机器学习,模糊系统,机器人控制等领域。这个框架由一系列的类库组成。主要包括有: AForg ...
分类:
Web程序 时间:
2018-08-14 16:19:06
阅读次数:
812
谈到对数据进行分析利用,很多人会想到“数据挖掘”(data mining),这里简单探讨一下数据挖掘和机器学习的联系。 数据挖掘领域是在二十世纪九十年代左右形成,他收到很多学科的影响,其中数据库、机器学习、统计学无疑是影响最大的。数据挖掘是从海量数据中发掘知识,这就必然涉及到对“海量数据”的管理和分 ...
分类:
其他好文 时间:
2017-09-24 14:29:28
阅读次数:
116
数据挖掘 1、定义: 数据挖掘(Data Mining)是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。 2、数据挖掘与机器学习的关系: 机器学习可以用来作为数据挖掘的一种工具或手段; 数据挖掘的手段不限于机器学习,譬如还有诸如统计学等众多方法 ...
分类:
其他好文 时间:
2017-07-10 22:26:02
阅读次数:
269
第一章 weka介绍 1.1 weka简介 weka是怀卡托智分析环境(Waikato Environment for Knowledge Analysis)的英文缩写,官方网址为:<http://www.cs.waikato.ac.nz/ml/weka/>,在该网站可以免费下载可运行软件和代码,还 ...
分类:
其他好文 时间:
2017-06-19 20:52:35
阅读次数:
158
数据预处理和特征选择是数据挖掘与机器学习中关注的重要问题,坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程就是将原始数据转化为有用的特征,更好的表示预测模型处理的实...
分类:
其他好文 时间:
2017-04-17 21:16:16
阅读次数:
358
加州理工学院公开课:机器学习与数据挖掘:http://open.163.com/special/opencourse/learningfromdata.html 机器学习:那些具体的算法,得到精确模型,统行学家又称为统计学习 数据挖掘:数据库,数据清洗,数据可视化 深度学习:在图像,语音,富媒体取得 ...
分类:
其他好文 时间:
2016-09-06 01:04:00
阅读次数:
233
一. 什么是Spark?
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需...
分类:
其他好文 时间:
2016-03-18 14:46:44
阅读次数:
318
Spark是UC Berkeley AMP 实验室基于map reduce算法实现的分布式计算框架,输出和结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高Spark适用于近线或准实时、数据挖掘与机器学习应用场景Spark和HadoopSpark是一个针对超大数据集合的低延迟的集群分布式计算...
分类:
其他好文 时间:
2015-11-09 20:43:20
阅读次数:
520