NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。 ...
分类:
其他好文 时间:
2018-04-03 17:17:07
阅读次数:
164
【Python数据挖掘课程】一.安装Python及爬虫入门介绍【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍【Python数据挖掘课程】三.Kmeans聚类代码实现、作业及优化【Python数据挖掘课程】四.决策树DTC数据分析及鸢尾数据集分析【Python数据挖掘课 ...
分类:
编程语言 时间:
2018-04-01 23:05:10
阅读次数:
264
数据挖掘150道笔试题单选题 1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多 ...
分类:
其他好文 时间:
2018-03-29 22:35:49
阅读次数:
205
概要 把常用的机器学习算法:$k$ 近邻算法、决策树、朴素贝叶斯、$K$ 均值聚类其思想有及 python 代码实现总结一下。做到既要知其然又要知其所以然。参考《机器学习实战》。 $k$ 近邻算法 基本原理 $k$ 近邻算法是分类数据最简单有效 ...
分类:
编程语言 时间:
2018-03-26 19:07:02
阅读次数:
215
机器学习中的算法主要分为两类,一类是监督学习,监督学习顾名思义就是在学习的过程中有人监督,即对于每一个训练样本,有对应的标记指明它的类型。如识别算法的训练集中猫的图片,在训练之前会人工打上标签,告诉电脑这些像素组合在一起,里面包含了一只猫。而自然界中更多的数据样本,事实上是没有这些标记的,而我们针对 ...
分类:
其他好文 时间:
2018-03-24 20:45:05
阅读次数:
214
一、无监督学习 1、聚类:是一个将数据集中在某些方面相似的数据成员进行分类组织的过程。因此,一个聚类就是一些数据实例的集合。聚类技术经常被称为无监督学习。 二、K-均值聚类 1、k—均值算算法:是发现给定数据集k个簇的算法 2、步骤: 1)、随机选取k个数据点作为初始的聚类中心(要求发现k个簇)。 ...
分类:
编程语言 时间:
2018-03-21 21:07:42
阅读次数:
252
0. 背景 评估(或者说验证)聚类结果就如同聚类本身一样困难。通常的方法有 内部评估 和 外部评估 这两种: 内部评估的方法:通过一个单一的量化得分来评估算法好坏;该类型的方法 外部评估的方法:通过将聚类结果与已经有“ground truth”分类进行对比。要么通过人类进行手动评估,要么通过一些指标 ...
分类:
其他好文 时间:
2018-03-16 18:39:41
阅读次数:
191
第一章 准备工作 1.3 重要的python数据库 Numpy:是python科学计算的基础包,本书大部分内容都基于numpy以及构建于其上的库功能如下: 快速高效的多维数组对象ndarray。 用于对数组执行元素级计算以及直接对数组执行数学运算的函数 用于读写硬盘上基于数组的数据集的工具 线性代数 ...
分类:
编程语言 时间:
2018-03-13 21:06:04
阅读次数:
278
NIPT聚类项目说明 目的:使用聚类分析将NIPT分为可信的几类,然后根据该类的特征去预测以后数据的分类 聚类分析的一般步骤: 1.选择合适的变量 2.缩放数据 3.寻找异常点 4.计算距离 5.选择聚类算法 6.获得一种或多种聚类方法 7.确定聚类数目 8.获得最终的聚类解决方案 9.结果可视化 ...
分类:
其他好文 时间:
2018-03-13 15:36:26
阅读次数:
249
util里提供了create_voc_step0用于批量生成features并保存,create_voc_step1读入features再生成聚类中心,比较适合大量语料库聚类中心的生成。 提取一张图的特征如下: 第一行是文件头,分别用32bit表示特征来自几张图(1)、特征描述子长度(128bit, ...
分类:
数据库 时间:
2018-03-13 14:03:58
阅读次数:
2014