环境 Python3, gensim,jieba,numpy ,pandas 原理:文章转成向量,然后在计算两个向量的余弦值。 Gensim gensim是一个python的自然语言处理库,能够将文档根据TF IDF, LDA, LSI 等模型转化成向量模式,gensim还实现了word2vec功能 ...
分类:
其他好文 时间:
2018-05-15 20:59:30
阅读次数:
6067
在自然语言处理过程中,全角、半角的的不一致会导致信息抽取不一致,因此需要统一。 转换说明 全角半角转换说明 有规律(不含空格): 全角字符unicode编码从65281~65374 (十六进制 0xFF01 ~ 0xFF5E)半角字符unicode编码从33~126 (十六进制 0x21~ 0x7E ...
分类:
编程语言 时间:
2018-05-15 00:21:32
阅读次数:
198
代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-cookbook 数据:http://www.cs.cornell.edu/people/pabo/mov ...
分类:
其他好文 时间:
2018-05-14 17:33:36
阅读次数:
543
代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-cookbook 数据:http://www.cs.cornell.edu/people/pabo/mov ...
分类:
其他好文 时间:
2018-05-14 14:09:38
阅读次数:
698
ps:笔者会持续更新~ 领域分支概括 俗话说得好: 做research或者学习某个技能最重要的是要对自己的research要非常熟悉(3mins让别人听懂你做的这玩意儿是个啥,contribution在哪里,让别人觉得你做的东西有意义) 那么我就整理一下自然语言处理相关领域分支~ 自然语言包括许多分 ...
分类:
编程语言 时间:
2018-05-13 19:09:13
阅读次数:
324
代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-cookbook 数据来源:http://www.cs.cornell.edu/people/pabo/m ...
分类:
其他好文 时间:
2018-05-13 13:54:18
阅读次数:
1713
代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-cookbook 解决问题:使用“词袋”嵌入来进行垃圾短信的预测(使用逻辑回归算法) 步骤如下: step ...
分类:
其他好文 时间:
2018-05-07 17:43:53
阅读次数:
782
随着数据量以及计算机性能的不断提升,机器学习技术正逐渐渗透于各行各业中。计算机视觉、自然语言处理、机器人等领域基本上已经被机器学习算法垄断,正逐步向教育、银行、医疗等传统行业扩张。关于机器学习如何改变传统教育模式,可以参见博主的这篇文章《使用AR、AI以及大数据改革教育体系——为每位学生打造自己的私 ...
分类:
其他好文 时间:
2018-05-07 16:44:27
阅读次数:
255
---java实现---自然语言处理---用隐马尔科夫模型(HMM)实现词性标注---1998年1月份人民日报语料---learn---test---evaluation---Demo--- ...
分类:
编程语言 时间:
2018-05-03 20:47:09
阅读次数:
711