码迷,mamicode.com
首页 > 编程语言 > 详细

python机器学习——分词

时间:2017-06-02 18:57:59      阅读:256      评论:0      收藏:0      [点我收藏+]

标签:code   安装   join   分割   语言   summary   for   rdp   res   

使用jieba库进行分词

安装jieba就不说了,自行百度!

import jieba

将标题分词,并转为list

seg_list = list(jieba.cut(result.get("title"), cut_all=False))

所有标题使用空格连接,方便后面做自然语言处理

para = para + " ".join(seg_list)

将分词后的标题(使用空格分割的标题)放到一个list里面

summaryList.insert(0," ".join(seg_list))

 

统计词频

from nltk.tokenize import WordPunctTokenizer
import nltk

tokenizer = WordPunctTokenizer()
#统计词频
sentences = tokenizer.tokenize(para)#此处将para转为list(16进制字符)
wordFreq=nltk.FreqDist(sentences)
for i in wordFreq:print i,wordFreq[i]

 

python机器学习——分词

标签:code   安装   join   分割   语言   summary   for   rdp   res   

原文地址:http://www.cnblogs.com/tengpan-cn/p/6934275.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!