标签:rds 表达式 自然语言处理 输出 set sso 正则表达式 图片 nts
自然语言:指一种随着社会发展而自然演化的语言,即人们日常交流所使用的语言;
NLP研究的内容
NLP处理
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2018-9-28 22:21
# @Author : Manu
# @Site :
# @File : python_base.py
# @Software: PyCharm
import urllib
from nltk import word_tokenize
from bs4 import BeautifulSoup
# 在线文档下载
url = ‘http://www.gutenberg.org/files/2554/2554-0.txt‘
res = urllib.request.urlopen(url)
raw = res.read().decode(‘utf8‘)
print(‘length‘, len(raw))
print(‘type‘, type(raw))
print(raw[:100])
# 分词
tokens = word_tokenize(raw)
print(tokens[:50])
print(‘length:‘ + str(len(tokens)))
print(‘type:‘, type(tokens))
# 创建文本
text = nltk.Text(tokens)
print(‘type‘, type(text))
print(‘length‘, len(text))
print(text)
中文分词及相应算法
分词方法比较
结巴分词
pip install jieba
即可安装;jieba.cut
、jieba.cut_for_search
;jieba.load_userdict(file_name)
、add_word(word, freq=None, tag=None)
、jieba.del_word(word)
、jieba.suggest_freq(segmen, tune=True)
;jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
;jieba.analyse.set_idf_path(file_name)
;jieba.analuse.set_stop_words(file_name)
;jieba.tokenize()
;jieba.posseg.cut()
;标签:rds 表达式 自然语言处理 输出 set sso 正则表达式 图片 nts
原文地址:http://blog.51cto.com/13473568/2289534