R语言是一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。这里的统计计算可以是数据分析、建模或是数据挖掘等,通过无数大牛提供的软件包,可以帮我们轻松实现算法的实施。 一些读者觉得R语言零碎的东西太多了,无法记住那么多函数和功能,于是就问R语言有没有一种类似于SAS之EM或S ...
分类:
其他好文 时间:
2017-03-06 13:29:30
阅读次数:
185
1.knn是分类算法 2.监督学习 3.给它的数据是有label的,是已经事先分类好了的, 类别数不变。 1.kmeans是聚类算法 2.非监督学习 3.给它的数据是没有label,是没有事先分类好的, 以“物以类聚”原理进行聚集成簇。 K的含义:来了一个样本x,要给它分类,即求出它的类别,就从数据 ...
分类:
编程语言 时间:
2017-03-04 13:09:54
阅读次数:
467
聚类算法是机器学习中的一大重要算法,也是我们掌握机器学习的必须算法,下面对聚类算法中的K-means算法做一个简单的描述: 一、概述 K-means算法属于聚类算法中的直接聚类算法。给定一个对象(或记录)的集合,将这些对象划分为多个组或者“聚簇”,从而使同组内的对象间比较相似而不同组对象间差异比较大 ...
分类:
编程语言 时间:
2017-03-04 00:09:43
阅读次数:
254
scikit-learn库实现了一系列的数据挖掘,提供通用的编程接口、标准化的测试和调参工具主要包含:估计器:用于聚类、回归、分类分析转化器:用于数据的预处理和数据抓换流水线:组合数据挖掘的流程,便于再次使用估计器:为了实现大量的分类算法,该库把相关功能封装成所谓的估计器,主要包括两个函数: fit... ...
分类:
其他好文 时间:
2017-03-03 22:44:26
阅读次数:
418
数据挖掘一般跟知识发现紧密相连,学习过程中主要关注数据挖掘技术。 1、数据挖掘就是从数据中采用各种算法提取数据模式的过程。 2、数据挖掘功能:特征化和区分,频繁模式、关联和相关性挖掘,分类与回归,聚类分析以及离群点分析。 一般可用于两种任务:描述性descriptive和预测性predictive。 ...
分类:
其他好文 时间:
2017-02-25 20:11:38
阅读次数:
269
本文将介绍关于机器学习的理论与工具方面的各种王牌资料。既有教你如何利用工具(R, Python, Matlab, WEKA)进行机器学习实践的资料,也有教你如何攻关克难,打通理论脉络的经典图书,同时还...
分类:
其他好文 时间:
2017-02-23 12:23:46
阅读次数:
317
摘自:http://www.36dsj.com/archives/75208 最近参与了了一个日志和告警的数据挖掘项目,里面用到的一些思路在这里和大家做一个分享。 项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理,主要是归类(Grouping)和关联(Correlation) ...
分类:
其他好文 时间:
2017-01-26 17:27:12
阅读次数:
343
1. 聚类分析 聚类分析(cluster analysis):以相似性为基础把相似的对象通过静态分类的方法分成不同的组别或更多的子集。特性:基于相似性,有多个聚类中心。 K-Means:「K-均值」算法表示以空间中K个点为中心进行聚类,对最靠近他们的对象归类。 In [47]: from numpy ...
分类:
编程语言 时间:
2017-01-23 19:02:18
阅读次数:
277
基本流程: 数据收集、数据建模、构建数据画像、风险定价。 数据收集:网络行为数据、企业服务范围内行为数据、用户内容偏好数据、用户交易数据、授权数据源、第三方数据源、合作方数据源、公开数据源。 数据建模:文本挖掘、自然语言处理、机器学习、预测算法、聚类算法。 数据画像:基本属性、购买能力、行为特征、兴 ...
分类:
其他好文 时间:
2017-01-22 22:40:47
阅读次数:
235
项目中有时候需要用到对数据进行关联分析,比如分析一个小商店中顾客购买习惯. 1 package com.data.algorithm; 2 3 import com.google.common.base.Splitter; 4 import com.google.common.collect.Lis ...
分类:
编程语言 时间:
2017-01-20 21:59:21
阅读次数:
547