朴素贝叶斯 1. 引言 贝叶斯方法是一个历史悠久,有着坚实的理论基础的方法,同时处理很多问题时直接而又高效,很多高级自然语言处理模型也可以从它演化而来。因此,学习贝叶斯方法,是研究自然语言处理问题的一个非常好的切入口。 2. 贝叶斯公式 贝叶斯公式就一行: P(Y|X)=P(X|Y)P(Y)P(X) ...
分类:
其他好文 时间:
2018-06-02 11:28:49
阅读次数:
140
jieba中文处理 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 ji ...
分类:
其他好文 时间:
2018-06-01 13:39:53
阅读次数:
227
参考资料:https://radimrehurek.com/gensim/models/word2vec.html接上篇:importjiebaall_list=jieba.cut(xl[‘工作内容‘][0:6],cut_all=True)print(all_list)every_one=xl[‘工作内容‘].apply(lambdax:jieba.cut(x))importtracebackde
分类:
其他好文 时间:
2018-05-29 17:47:33
阅读次数:
266
参考资料:https://radimrehurek.com/gensim/models/word2vec.html接上篇:importjiebaall_list=jieba.cut(xl[‘工作内容‘][0:6],cut_all=True)print(all_list)every_one=xl[‘工作内容‘].apply(lambdax:jieba.cut(x))importtracebackde
分类:
其他好文 时间:
2018-05-29 17:44:58
阅读次数:
404
去除标点符号,下一步开始文本相似度计算:参考文章:http://www.jb51.net/article/139690.htmfromgensim.modelsimportWord2Vecmodel=Word2Vec(sentences,sg=1,size=100,window=5,min_count=5,negative=3,sample=0.001,hs=1,workers=4)参数解释:1.
分类:
其他好文 时间:
2018-05-28 18:28:54
阅读次数:
332
最大熵源码解读 先简要介绍一下最大熵,主要的参考资料是: 《自然语言处理的最大熵模型》常宝宝 《统计自然语言处理》第二章 《条件随机场综述》韩雪东 《Classical Probabilistic Models and Conditional Random Fields》 Roman Klinger ...
分类:
其他好文 时间:
2018-05-26 17:55:23
阅读次数:
226
讲师:庞雨秾 讲师简介: 庞雨秾,法狗狗法律人工智能技术总监,伦敦大学玛丽女皇学院认知科学硕士。专注于自然语言处理方面的研究与应用,负责研发了包括处理垂直于法律领域的智能咨询系统、分布式非结构化文本挖掘系统等一系列基于自然语言分析的商业应用。 FMI线上直播 分享主题:NLP的未来—语义落地 (Se ...
分类:
其他好文 时间:
2018-05-25 14:50:04
阅读次数:
246
一、单层网络 单层网络就是输入一个x,经过神经元的变换,输出一个y 二、RNN 有很多种序列输入的数据,如: 自然语言处理问题。x1可以看做是第一个单词,x2可以看做是第二个单词,依次类推。 语音处理。此时,x1、x2、x3……是每帧的声音信号。 时间序列问题。例如每天的股票价格等 序列形的数据就不 ...
分类:
其他好文 时间:
2018-05-21 14:30:55
阅读次数:
178
代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-cookbook 数据:http://www.cs.cornell.edu/people/pabo/mov ...
分类:
其他好文 时间:
2018-05-20 20:13:25
阅读次数:
820
一:自然语言处理 二:图像识别 三:文字识别 四:语音文字识别 ...
分类:
Windows程序 时间:
2018-05-18 15:44:05
阅读次数:
1300