NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。 ...
分类:
编程语言 时间:
2018-06-22 13:29:29
阅读次数:
215
欢迎大家前往 "腾讯云+社区" ,获取更多腾讯海量技术实践干货哦~ 本文来自 "云+社区翻译社" ,作者 "HesionBlack" 最近我从 "马克·里德尔 " 那拿到了很棒的 "自然语言方面的数据集 " :从WIKI下载了112000个故事作品的情节。其中包括了书籍、电影、电视剧集、视频游戏等有 ...
分类:
其他好文 时间:
2018-06-22 10:17:24
阅读次数:
242
来自:https://blog.csdn.net/u014595019/article/details/52218249 gensim是一个Python的自然语言处理库,能够将文档根据TF-IDF,LDA,LSI等模型转换成向量模式,此外,gensim还实现了word2vec,能够将单词转换为词向量 ...
分类:
其他好文 时间:
2018-06-16 13:21:00
阅读次数:
437
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结,并讨论在在PCA降维算法中是如何运用运用SV ...
分类:
其他好文 时间:
2018-06-15 21:47:58
阅读次数:
191
记录一下 PostHtml 中的一些比较有用的插件 参考自 "PostHtml文档" posthtml pug 将pug转化成html posthtml md 将md语法转化为html语法 posthtml retext 根据规则转化自然语言(例如特定字符串转成emoji表情) posthtml h ...
分类:
Web程序 时间:
2018-06-10 15:08:19
阅读次数:
354
朴素贝叶斯 1. 引言 贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。 2. 贝叶斯公式 贝叶斯公式就一行: P(Y|X)=P(X|Y)P(Y)P(X) ...
分类:
其他好文 时间:
2018-06-02 11:28:49
阅读次数:
140
jieba中文处理 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 ji ...
分类:
其他好文 时间:
2018-06-01 13:39:53
阅读次数:
227
参考资料:https://radimrehurek.com/gensim/models/word2vec.html接上篇:importjiebaall_list=jieba.cut(xl[‘工作内容‘][0:6],cut_all=True)print(all_list)every_one=xl[‘工作内容‘].apply(lambdax:jieba.cut(x))importtracebackde
分类:
其他好文 时间:
2018-05-29 17:47:33
阅读次数:
266
参考资料:https://radimrehurek.com/gensim/models/word2vec.html接上篇:importjiebaall_list=jieba.cut(xl[‘工作内容‘][0:6],cut_all=True)print(all_list)every_one=xl[‘工作内容‘].apply(lambdax:jieba.cut(x))importtracebackde
分类:
其他好文 时间:
2018-05-29 17:44:58
阅读次数:
404
定义:从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。 机器学习所牵扯的一些相关范围的学科与研究领域:模式识别,数据挖掘,统计学习,计算机视觉,语音识别, 自然语言处 ...
分类:
其他好文 时间:
2018-05-29 17:43:03
阅读次数:
153