tf–idf算法解释及其python代码实现(下)

时间：2015-12-23 22:58:21 阅读：220 评论：0 收藏：0 [点我收藏+]

标签：

tf–idf算法python代码实现

这是我写的一个tf-idf的核心部分的代码，没有完整实现，当然剩下的事情就非常简单了，我们知道tfidf=tf*idf，所以可以分别计算tf和idf值在相乘，首先我们创建一个简单的语料库，作为例子，只有四句话，每句表示一个文档

copus=[‘我正在学习计算机‘,‘它正在吃饭‘,‘我的书还在你那儿‘,‘今天不上班‘]

由于中文需要分词，jieba分词是python里面比较好用的分词工具，所以选用jieba分词，文末是jieba的链接。首先对文档进行分词：

import jieba
copus=[‘我正在学习计算机‘,‘它正在吃饭‘,‘我的书还在你那儿‘,‘今天不上班‘]
copus= [[word for word in jieba.cut(doc)] for doc in copus]
print(copus)

输出结果：

[[‘我‘, ‘正在‘, ‘学习‘, ‘计算机‘], [‘它‘, ‘正在‘, ‘吃饭‘], [‘我‘, ‘的‘, ‘书‘, ‘还‘, ‘在‘, ‘你‘, ‘那儿‘], [‘今天‘, ‘不‘, ‘上班‘]]

文档变成我们想要的格式了，然后开始词频统计，计算tf值，这里用Counter类来把每篇文档都转换成词和词频的字典，其实就已经得到tf值了

tf = []
for doc in copus:
tf.append(Counter(doc))
print(tf)

输出结果：

[Counter({‘我‘: 1, ‘正在‘: 1, ‘学习‘: 1, ‘计算机‘: 1}), Counter({‘它‘: 1, ‘正在‘: 1, ‘吃饭‘: 1}), Counter({‘的‘: 1, ‘书‘: 1, ‘你‘: 1, ‘在‘: 1, ‘那儿‘: 1, ‘我‘: 1, ‘还‘: 1}), Counter({‘今天‘: 1, ‘不‘: 1, ‘上班‘: 1})]

计算idf值

import math
from collections import defaultdict
idf = defaultdict(int)
for doc in tf:
    for word in doc:
        idf[word] += 1
for word in idf:
    idf[word] = math.log(len(idf)/(idf[word]+1))
print(idf)

输出结果：

defaultdict(<class ‘int‘>, {‘的‘: 2.0149030205422647, ‘正在‘: 1.6094379124341003, ‘学习‘: 2.0149030205422647, ‘计算机‘: 2.0149030205422647, ‘今天‘: 2.0149030205422647, ‘书‘: 2.0149030205422647, ‘那儿‘: 2.0149030205422647, ‘它‘: 2.0149030205422647, ‘不‘: 2.0149030205422647, ‘在‘: 2.0149030205422647, ‘吃饭‘: 2.0149030205422647, ‘我‘: 1.6094379124341003, ‘你‘: 2.0149030205422647, ‘还‘: 2.0149030205422647, ‘上班‘: 2.0149030205422647})

剩下的事情就很简单了，只需要把tf和idf相乘就可以了。

tf–idf算法解释及其python代码实现(下)

标签：

原文地址：http://www.cnblogs.com/duyang/p/5071474.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行