博客搬家: "用户评论情感极性判别" 本文章介绍百度点石平台上的一个训练赛的赛题代码,赛题是包括用户评论文字的情感判别的分类问题, "赛题链接戳此处" 数据预处理 使用测试数据和训练数据生成语料库 利用语料库,使用word2vec工具,生成可备用的模型,用于将句子转化为向量 数据训练与测试 感觉训练 ...
分类:
其他好文 时间:
2019-12-24 12:03:06
阅读次数:
123
[toc] 1.简介 word2vec是Google于2013年推出的开源的获取词向量word2vec的工具包。它包括了一组用于word embedding的模型,这些模型通常都是用浅层(两层)神经网络训练词向量。 Word2vec的模型以大规模语料库作为输入,通过神经网络训练到一个向量空间(通常为 ...
分类:
其他好文 时间:
2019-12-22 20:19:52
阅读次数:
136
本文是用机器学习打造聊天机器人系列的最后一篇啦,请耐心看完吧。 本系列文章展示了一个聊天机器人的打造过程,现阶段更高级的聊天机器人会加入更多语料,更多意图模式,用更好的算法,以及其他更多的小技巧,比如: 我们可以结合上一个系列《手把手教你做命名实体识别》中介绍的bert模型,来代替这里的词向量模型, ...
分类:
其他好文 时间:
2019-12-20 18:17:51
阅读次数:
94
使用朴素贝叶斯解决一些现实生活中 的问题时,需要先从文本内容得到字符串列表,然后生成词向量。 准备数据:切分文本 测试算法:使用朴素贝叶斯进行交叉验证 文件解析及完整的垃圾邮件测试函数 ...
分类:
编程语言 时间:
2019-12-15 10:56:42
阅读次数:
112
课程介绍:以人工智能为方向,从自然语言理解、计算机视觉、数据分析等角度,介绍大量有趣的Python案例和应用,探索实现原理、完整动手实践,极大提升人工智能相关的理论基础和技术能力。内容包括图片分类、人脸识别、物体检测等计算机视觉应用,中文分词、词向量、古诗生成等自然语言处理项目,DCGAN、CGAN ...
分类:
其他好文 时间:
2019-12-14 23:11:15
阅读次数:
271
使用小批量数据时,模型容易过拟合,所以需要对全量数据进行处理,我是用的是word2vec训练的词向量. 那么训练好对词向量如何加载呢? ...
分类:
其他好文 时间:
2019-12-05 13:37:43
阅读次数:
171
word2vec作为神经概率语言模型的输入,其本身其实是神经概率模型的副产品,是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说,“某个语言模型”指的是“CBOW”和“Skip-gram”。具体学习过程会用到两个降低复杂度的近似方法——Hierarchical Softmax或Negati ...
分类:
其他好文 时间:
2019-11-17 12:53:08
阅读次数:
117
一、BERT-wwm wwm是Whole Word Masking(对全词进行Mask),它相比于Bert的改进是用Mask标签替换一个完整的词而不是子词,中文和英文不同,英文中最小的Token就是一个单词,而中文中最小的Token却是字,词是由一个或多个字组成,且每个词之间没有明显的分隔,包含更多 ...
分类:
其他好文 时间:
2019-11-13 20:35:40
阅读次数:
268
本文主要阐述了我学习CharCNN过程中的心得体会以及遇到问题的处理和理解。此文基于rasa框架,查阅时需注意。 目录: 一、运用CharCNN的文本意图识别过程 二、参数的调整与对比 三、loss函数的学习 四、bug的处理和学习 一、运用CharCNN的文本意图识别过程 (1)字向量和词向量的差 ...
分类:
其他好文 时间:
2019-11-01 11:16:22
阅读次数:
145
item2vec将用户的行为序列转化成item组成的句子,模仿word2vec训练word embedding将item embedding。基本思想是把原来高维稀疏的表示方式(one_hot)映射到低维稠密的向量空间中,这样我们就可以用这个低维向量来表示该项目(电影),进而通过计算两个低维向量之间 ...
分类:
编程语言 时间:
2019-10-30 18:49:05
阅读次数:
205