码迷,mamicode.com
首页 > 编程语言 > 详细

学习TextRank算法

时间:2020-07-14 15:00:13      阅读:75      评论:0      收藏:0      [点我收藏+]

标签:计算   范围   ref   loading   排序   重要   com   一个   tran   

TextRank是啥:

一种用于文本的基于图的排序算法。

优点:

不需要学习训练。

模型原理:

TextRank可以表示为一个有向有权图G=(V,E),图中任何两点V和Vj之间的边的权重为wji,对于一个给定的点Vi ,In(V)为指向该点的点集合。out(V)为点Vi指向的点集合。

点Vi的得分定义为:

技术图片

d为阻尼系数,取值范围为[0,1],代表从图中的一点指向其他任意点的概率。

计算开始时,需要给图中的点赋初始得分。然后不断迭代计算直到收敛。

利用TextRank实现关键词的提取原理。

1.将给定的文本进行分割

2.将句子进行分词,然后作词性标注,过滤停用词,保留指定词性的的词。

3.利用候选关键词,建立候选关键词图,构造两点之间的边。

4.迭代传播各节点权重,最终收敛。

5.对节点权重进行倒序排序,得到最重要的T个单词。

6.回到原始文本进行标记,如果某些单词构成相邻词组,则组成多词关键词。

参考资料

1.https://www.cnblogs.com/chenbjin/p/4600538.html

学习TextRank算法

标签:计算   范围   ref   loading   排序   重要   com   一个   tran   

原文地址:https://www.cnblogs.com/liuguangshou123/p/13299048.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!