码迷,mamicode.com
首页 > 编程语言 > 详细

[自然语言处理] 文本向量化技术

时间:2017-08-15 11:28:27      阅读:184      评论:0      收藏:0      [点我收藏+]

标签:引入   文档   自然语言处理   权重   制度   处理   维护   自然语言   并且   

前期准备

使用文本向量化的前提是要对文章进行分词,分词可以参考前一篇文章。然后将分好的词进行向量化处理,以便计算机能够识别文本。常见的文本向量化技术有词频统计技术、TF-IDF技术等。

词频统计技术

词频统计技术是很直观的,文本被分词之后。 用每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同。然后给每个维度使用词频当作权值。词频统计技术默认出现频率越高的词权重越大。

举例说明:

原文:

      句子A:我喜欢看电视,不喜欢看电影。

      句子B:我不喜欢看电视,也不喜欢看电影。

分词结果:

      句子A:我/喜欢//电视,不/喜欢//电影。

      句子B:我//喜欢//电视,也//喜欢//电影。

列出维度:我,喜欢,看,电视,电影,不,也.

统计词频:

      句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0

      句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1

转换为向量:

      句子A[1, 2, 2, 1, 1, 1, 0]

      句子B[1, 2, 2, 1, 1, 2, 1]

可以看出:词频统计技术直观、简单。但是有明显的缺陷:中文中有的词汇,如:“我”,“的”出现频率很高,因此会赋予较高的权值,但是这些词汇本身无意义。因此若要使用词频统计技术,必须要引入停用词将这些无意义的词汇进行过滤。

TF-IDF技术

TF-IDF技术就是为了克服词频统计技术的缺陷而产生的,它引入了“逆文档频率”概念,它衡量了一个词的常见程度,TF-IDF的假设是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出,那么它很可能就反映了这篇文章的特性,因此要提高它的权值。
TF-IDF技术的需要维护一个语料库或文件集用于计算每个词的出现频率,频率越高的逆文档频率越小。语料库可以是整个铁路规章制度的集合,也可以是某个规章制度的全文。实践证明,TF-IDF在分词的时候,也需要剔除掉明显的停用词,这样效果会比较好。

例如对于铁路规章制度而言,文本中“列车”一次的词频必然会非常高,但是在其语料库中出现的频率会非常高,因此其权重反而会降低。

[自然语言处理] 文本向量化技术

标签:引入   文档   自然语言处理   权重   制度   处理   维护   自然语言   并且   

原文地址:http://www.cnblogs.com/chengyuanqi/p/7363909.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!