码迷,mamicode.com
首页 > 其他好文 > 详细

NLTK与NLP原理及基础

时间:2018-07-26 01:10:30      阅读:246      评论:0      收藏:0      [点我收藏+]

标签:science   图片   机器学习   特征   views   editor   区别   from   mys   

参考https://blog.csdn.net/zxm1306192988/article/details/78896319

以NLTK为基础配合讲解自然语言处理的原理  http://www.nltk.org/ 

Python上著名的自然语?处理库 

自带语料库,词性分类库 
自带分类,分词,等功能 
强?的社区?持 
还有N多的简单版wrapper,如 TextBlob

NLTK安装(可能需要预先安装numpy)

pip install nltk

 安装语料库

import nltk
nltk.download()

  技术分享图片

NLTK自带语料库

>>> from nltk.corpus import brown
>>> brown.categories()  # 分类
[‘adventure‘, ‘belles_lettres‘, ‘editorial‘,
‘fiction‘, ‘government‘, ‘hobbies‘, ‘humor‘,
‘learned‘, ‘lore‘, ‘mystery‘, ‘news‘, ‘religion‘,
‘reviews‘, ‘romance‘, ‘science_fiction‘]
>>> len(brown.sents()) # 一共句子数
57340
>>> len(brown.words()) # 一共单词数
1161192

  文本处理流程:

文本 -> 预处理(分词、去停用词) -> 特征工程 -> 机器学习算法 -> 标签

分词(Tokenize)

把长句?拆成有“意义”的?部件

>>> import nltk
>>> sentence = “hello, world"
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
[‘hello‘, ‘,‘, ‘world‘]

  中英文NLP区别: 
英文直接使用空格分词,中文需要专门的方法进行分词

技术分享图片

 

NLTK与NLP原理及基础

标签:science   图片   机器学习   特征   views   editor   区别   from   mys   

原文地址:https://www.cnblogs.com/elpsycongroo/p/9369171.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!