码迷,mamicode.com
首页 > 其他好文 > 详细

NLP杂点

时间:2019-07-09 22:34:17      阅读:160      评论:0      收藏:0      [点我收藏+]

标签:jieba   最好   基本   提高   article   href   搜索   htm   分词   

1.停用词 stop words: 在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。

停用词都是人工输入、或者由一个停用词表导入。

2.jieba是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:

支持 3 种分词模式:

  • 精确模式,试图将句子最精确地切开,适合文本分析;
  • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
  • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

3.正则化表达式

https://www.runoob.com/regexp/regexp-tutorial.html

4.分词的基本概念与生成词向量矩阵

https://blog.csdn.net/chen_yiwei/article/details/88139054#_36

5.NLP系列学习:文本分词

https://www.jianshu.com/p/7377f6d24e87

 

NLP杂点

标签:jieba   最好   基本   提高   article   href   搜索   htm   分词   

原文地址:https://www.cnblogs.com/yuehouse/p/11160675.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!