码迷,mamicode.com
首页 > 其他好文 > 详细

ansj_seg+word2vec的使用

时间:2018-04-18 21:54:38      阅读:385      评论:0      收藏:0      [点我收藏+]

标签:ansj_seg word2vec

word2vec是谷歌开源的一个语义预测框架。主要是将词映射到一个维度空间上,每个词都有n个不同维度的信息,用vector表示,词与词之间的关系,就用vec之间的cosine值来表示,consine值越大,说明这两个词之间的关系越近。

传统的计算词与词之间相似的算法有: tf-idf,相似余弦等,而word2vec是通过语义分析来计算相似度,跟前两个差别较大,比如: 贸易站 与 特朗普,如果用前两种算法相似度肯定很差,或者完全不同。而用word2vec,他们两者是有很大关系的,非常接近的。

ansj_seg 是java版本的分词工具,效果还行,之所以介绍它是因为,使用word2vec的前提是需要一个分词工具,下面我们来手动操作一下:

从网上找了一个小的java工程,https://github.com/YuyuZha0/word2vec

技术分享图片

再从网上下载一个中文语料库:https://pan.baidu.com/s/1gdJJ1FP#list/path=%2FML%2F%E4%B8%AD%E6%96%87%E8%AF%AD%E6%96%99%E5%BA%93&parentPath=%2FML

再建立这么一个文件夹,把语料库拷进该文件夹
技术分享图片

先执行FitExample 来进行训练
再执行RestoreExample 来做实验,你将得到如下结果
技术分享图片

感觉很神奇,其实它还有其他的API,欢迎去探索。

ansj_seg+word2vec的使用

标签:ansj_seg word2vec

原文地址:http://blog.51cto.com/12597095/2105085

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!