标签:一个 tf-idf 标记 保留 矩阵 特征选择 学习 bsp 简单的
定义:
通过实例理解,以文本分类为例:
假设语料库里有若干文章,现在要对其中一篇文章做分词处理,把每篇文章都看作是一个词语的集合。然后将每篇文章作为数据来训练分类模型,由于原始数据都是单词并且每篇文章的词语个数不同,所以不能直接被机器学习算法所利用。因为机器学习需要的是定长的数值化特征,所以我们的目的就是要将所有的原始数据变成数值化来表示,这就是所谓的特征提取。具体步骤如下:
现在每一篇文章已经特征全部提取完毕,但是一定是会有许多无用的特征,这时候就得开始特征选择。
注:
1. 词袋模型:不考虑词语出现的顺序,将每个出现过的词语单独作为一列特征,这些不重复的特征词汇集合成词表。每一个文本都可以在很长的词表上统计出一个很多列的特征向量,如果每个文本都出现的词汇,一般被标记为停用词,不计入特征向量。
标签:一个 tf-idf 标记 保留 矩阵 特征选择 学习 bsp 简单的
原文地址:https://www.cnblogs.com/wang615/p/11374379.html