python机器学习——分词

时间：2017-06-02 18:57:59 阅读：256 评论：0 收藏：0 [点我收藏+]

标签：code 安装 join 分割语言 summary for rdp res

使用jieba库进行分词

安装jieba就不说了，自行百度！

import jieba

将标题分词，并转为list

seg_list = list(jieba.cut(result.get("title"), cut_all=False))

所有标题使用空格连接，方便后面做自然语言处理

para = para + " ".join(seg_list)

将分词后的标题（使用空格分割的标题）放到一个list里面

summaryList.insert(0," ".join(seg_list))

统计词频

from nltk.tokenize import WordPunctTokenizer
import nltk

tokenizer = WordPunctTokenizer()
#统计词频
sentences = tokenizer.tokenize(para)#此处将para转为list（16进制字符）
wordFreq=nltk.FreqDist(sentences)
for i in wordFreq:print i,wordFreq[i]

python机器学习——分词

标签：code 安装 join 分割语言 summary for rdp res

原文地址：http://www.cnblogs.com/tengpan-cn/p/6934275.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行