标签:blank art 特征 词语 https 主题模型 转化 表示法 对应关系
TfidfVectorizer可以把原始文本转化为tf-idf的特征矩阵,从而为后续的文本相似度计算,主题模型,文本搜索排序等一系列应用奠定基础。基本应用如:
#coding=utf-8 from sklearn.feature_extraction.text import TfidfVectorizer document = ["I have a pen.", "I have an apple."] tfidf_model = TfidfVectorizer().fit(document) sparse_result = tfidf_model.transform(document) # 得到tf-idf矩阵,稀疏矩阵表示法 print(sparse_result) # (0, 3) 0.814802474667 # (0, 2) 0.579738671538 # (1, 2) 0.449436416524 # (1, 1) 0.631667201738 # (1, 0) 0.631667201738 print(sparse_result.todense()) # 转化为更直观的一般矩阵 # [[ 0. 0. 0.57973867 0.81480247] # [ 0.6316672 0.6316672 0.44943642 0. ]] print(tfidf_model.vocabulary_) # 词语与列的对应关系 # {‘have‘: 2, ‘pen‘: 3, ‘an‘: 0, ‘apple‘: 1}
https://blog.csdn.net/blmoistawinde/article/details/80816179
sklearn: TfidfVectorizer 中文处理及一些使用参数
标签:blank art 特征 词语 https 主题模型 转化 表示法 对应关系
原文地址:https://www.cnblogs.com/caiyishuai/p/9351825.html