码迷,mamicode.com
首页 >  
搜索关键字:语料库    ( 191个结果
机器学习入门-贝叶斯统计语料库的词频.groupby() collections
1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词, 对Dataframe统计单词词频,同时增加一列数据count,这里我们使用reset_index,sort_values(by = ['counts], ...
分类:其他好文   时间:2019-01-19 00:54:53    阅读次数:313
机器学习入门-贝叶斯中文新闻分类任务
对于需要构成语料库的数据,我们需要去停用词 停用词包括 1. 语料中大量出现的 如 1.!, 2.", 3.#, 4.$, 5.% 2. 没啥大用 1.一下 2.一些 3.一项 4.一则 关键词提取 TF-IDF 比如有3个词:中国,蜜蜂,养殖 TF(词频):表示的是蜜蜂在这个文章里出现的次数,即词 ...
分类:其他好文   时间:2019-01-19 00:46:51    阅读次数:265
机器学习入门-提取文章的主题词 1.jieba.analyse.extract_tags(提取主题词)
1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以 第一步:进行语料库的读取 第二步:进行分词操作 第三步:载入停用词,同时对分词后的语料库进行停用词的去除 第四步:选取一段文本分词列表,串接成字符串,使用jieba.analyse.extrac ...
分类:其他好文   时间:2019-01-19 00:45:32    阅读次数:3414
机器学习入门-贝叶斯拼写纠错实例
问题 如果我们看到用户输入一个不在字典中的词,我们需要推测他实际想要输入的词 使用贝叶斯公式表示: p(实际想要输入词|用户输入) = p(实际想要输入词) * p(用户输入|实际想要输入词) / p(用户输入) p(实际输入词) 表示的是这个词在语料库中出现的词频 p(用户输入|实际想要输入) 实 ...
分类:其他好文   时间:2019-01-18 19:56:35    阅读次数:424
是时候给你的产品配一个AI问答助手了!
本文由云+社区发表 | 导语 问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎,问答系统能更好地理解用户提问的真实意图, 进一步能更有效地满足用户的信息需求。问答系统是目前人工智能和自然语言处 ...
分类:其他好文   时间:2019-01-07 21:20:02    阅读次数:154
机器学习-贝叶斯拼写纠正器实战
#python版本3.7 import re, collections #将语料库里的单词全部转换为小写def words(text): return re.findall('[a-z]+', text.lower()) #词频统计def train(features): model = colle ...
分类:其他好文   时间:2018-12-20 22:14:53    阅读次数:227
TF-IDF介绍
TF IDF是什么 TF IDF是一种统计方法,用以评估一个词对于一篇文章或语料库中一篇文章的重要性。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF IDF的使用场景 TF IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度 ...
分类:其他好文   时间:2018-12-10 20:51:26    阅读次数:200
实训项目:基于TextCNN汽车行业评论文本的情感分析
基于TextCNN汽车行业评论文本的情感分析 使用卷积神经网络对汽车行业评论文本进行情感分析。 数据集 爬取汽车之家车主口碑评论文本,抽取口碑中最满意以及最不满意评论文本,分别作为正向情感语料库和负向情感语料库。 语料库基本信息如下: 预处理 utils.py为数据的预处理代码。 经过数据预处理,数 ...
分类:其他好文   时间:2018-11-24 14:11:55    阅读次数:726
基于隐马尔科夫模型的中文分词方法
本文讲述隐马尔科夫模及其在中文分词中的应用。 基于中文分词语料库,建立中文分词的隐马尔科夫模型,最后用维特比方法进行求解。 ...
分类:其他好文   时间:2018-11-06 19:26:33    阅读次数:130
NLP入门(二)探究TF-IDF的原理
TF IDF介绍   TF IDF是NLP中一种常用的统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,通常用于提取文本的特征,即关键词。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。  &e ...
分类:其他好文   时间:2018-11-02 12:56:40    阅读次数:275
191条   上一页 1 ... 3 4 5 6 7 ... 20 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!