1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。 2 什么是自然语言处理? 自然语言处理是计算机科学领域与人工智能领域中的一个重要方 ...
分类:
编程语言 时间:
2018-08-30 16:51:47
阅读次数:
276
LDA模型算法简介: 算法 的输入是一个文档的集合D={d1, d2, d3, ... , dn},同时还需要聚类的类别数量m;然后会算法会将每一篇文档 di 在 所有Topic上的一个概率值p;这样每篇文档都会得到一个概率的集合di=(dp1,dp2,..., dpm);同样的文档中的所有词也会求 ...
分类:
编程语言 时间:
2018-08-30 02:07:57
阅读次数:
298
如今领占主导地位的19种AI技术! http://blog.itpub.net/31542119/viewspace-2212797/ 深度学习的突破将人工智能带进全新阶段。 2006 年-2015 年是人工智能崛起的黄金十年。 2006 年 Hinton 提出“深度学习” 神经网络,使得人工智能的 ...
分类:
其他好文 时间:
2018-08-27 14:03:18
阅读次数:
174
6个顶级Python NLP库的比较! http://blog.itpub.net/31509949/viewspace-2212320/ 自然语言处理(NLP)如今越来越流行,在深度学习开发的背景下变得尤为引人注目。在人工智能领域中,自然语言处理(NLP)从文本中理解和提取重要信息,并基于文本数据 ...
分类:
编程语言 时间:
2018-08-27 14:02:23
阅读次数:
331
为什么有今天这篇?首先,标题不要太相信,哈哈哈。本公众号之前已经就人工智能学习的路径、学习方法、经典学习视频等做过完整说明。但是鉴于每个人的基础不同,可能需要额外的学习资料进行辅助。特此,向大家免费发送近300G的人工智能从基础到实战的全系列视频,有需要的可以领取。注意:视频很多,按需观看。教程说明:本套教程属于人工智能、机器学习、深度学习、自然语言处理方向的教程,涵盖python基础、pytho
分类:
其他好文 时间:
2018-08-17 17:14:14
阅读次数:
174
目前, 机器学习主要由以下三条主线进行发展: DeepLearning 算法 (DL, 深度学习: 2010 年前后由多伦多大学的 Geoffrey Hinton 提出) 与衍生的 卷积神经网络 (CNN, 有监督) 和深度置信网络 (DNN, 无监督) 在计算机视觉、语言识别和部分自然语言处理领域 ...
分类:
其他好文 时间:
2018-08-16 23:00:48
阅读次数:
251
DKhadoop大数据处理平台架构的安装相关文章已经分享过,详细的内容可以找一下看看。在上一篇中已经就集群平均负载、集群磁盘使用情况、HDFS监控界面、Hbase监控界面等监控参数进行说明。今天就把剩下的一些监控参数一起介绍完,关于大快大数据处理平台监控参数的介绍就完整了。
分类:
其他好文 时间:
2018-08-15 14:58:49
阅读次数:
180
主题模型理论(LDA):一篇文章的每个词都是以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语而组成的。P(单词|文档)=P(单词|主题)*P(主题|文档)对于语料库中的每篇文档,LDA定义了如下生成过程(generativeprocess):1.对每篇文档,从主题分布中抽取一个主题;2.从上述被抽到的主题所对应的单词分布中抽取一个单词;3.重复上述过程直至文档中的每一个单词。w代表单
分类:
编程语言 时间:
2018-08-14 11:25:42
阅读次数:
276
概率软逻辑(PSL,Probabilistic soft logic)是用于开发概率模型的机器学习框架。它可以使用简单的逻辑语法去定义模型,通过快速凸优化进行运算。PSL在自然语言处理,社交网络分析,知识图,推荐系统和计算生物学等许多领域产生了最不错的结果。PSL框架在GitHub上作为Apache ...
分类:
其他好文 时间:
2018-08-12 17:29:35
阅读次数:
247
一、概述 在上一篇中,我们介绍了Word2Vec即词向量,对于Word Embeddings即词嵌入有了些基础,同时也阐述了Word2Vec算法的两个常见模型 :Skip-Gram模型和CBOW模型,本篇会对两种算法做出比较分析并给出其扩展模型-GloVe模型。 首先,我们将比较下原Skip-gra ...
分类:
编程语言 时间:
2018-08-11 21:54:04
阅读次数:
302