标签:计算 style 长度 阈值 之间 特征 xid idt 语义
1.新闻的特征向量
TF-IDF(词频的权重度量):TF1xIDF1 TF2xIDF2 TF3xIDF3.。。。。其中TF是词在文章中出现的频率,IDF是权重。给虚词赋予比较低的权重。
针对一篇文章,然后对词汇表的每个词给予一个TF-IDF值,这样就得到文章的特征向量,文章中没有出现 的词就是0。
2.度量文章的相似性。
向量距离的衡量是看向量 的夹角
由于文章长度不同,其特征向量的维度也不同。比较向量的长度没有意义。用余弦定理来计算夹角的余弦,取值范围在【0,1】。
文章是同一类文章的时候, 就会在某几维有都较大的值,在某几个维度都有较小的值,就是说,两者在较大值的维度上有交集。
当夹角很小的时候,说明两个文章在用词比例上一致。(余弦值为1的,相似性最高。)
文章的分类:
自底而上的聚类:
(1 ) 对要分类的所有的文章两两求夹角的余弦值,大于阈值的聚为一类----->(2) 将小类看成整体,计算小类的特征向量,再两两比较,聚出一些稍大的类----> (3)迭代下去
优化方案:删除虚词,只算非零值。
奇异值分解:
文章分类的实质是对文本的分类和对词汇表中字词的分类。A=XBY,其中X是词与语义类之间的相关性矩阵,Y是文章和主题的相关。B则是语义类和文章的相关性矩阵。
其中X的行是词,列是语义类,xij接近于1,说明词i和j语义类有关(属于j).
Y 行是主题,列是文章(Yij 接近于1, 文章j,和主题i有关)
B行是语义类,列是主题。其中X,Y分别表示了词的分类结果和文本分类结果
标签:计算 style 长度 阈值 之间 特征 xid idt 语义
原文地址:https://www.cnblogs.com/yttas/p/10015558.html