码迷,mamicode.com
首页 > 其他好文 > 详细

词法分析:分词;词性标注;实体识别

时间:2020-06-25 19:24:50      阅读:59      评论:0      收藏:0      [点我收藏+]

标签:targe   词性标注   target   com   识别   话题   lov   有趣   应该   

词法分析(lexical analysis):将字符序列转换为单词(Token)序列的过程

分词;词性标注;实体识别


这一部分是NLP的基础,应该是入门就要了解的内容。

所谓分词,就是断句,把一条句子断开;要求断的比较碎,每个词都断开;要断的正确,也就是每个词都是有意义的,符合逻辑。

有个著名分词工具jieba(结巴),感觉名字起的挺贴切的,句子断开成一个个词来读,有点结巴的感觉。

这个工作对人来说不复杂,小学高年级应该就没多大问题了。

对机器来说,不容易。虽然现在中文分词已经做得很好了,仍存在部分棘手的问题。


 大多数的自然语言语句,对于现在的中文分词工具来说,没有难度。

微博 #自然语言理解太难了# 有很多让人觉得有趣的内容,可以让分词工具测一测。

结合这个话题,展开中文分词的学习,进一步运行程序“考考”几个注明的分词工具。


 校长说衣服上除了校徽别别别的

南京市长江大桥

来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”


 《季姬击鸡记》、《施氏食狮史》

作者:赵元任(1892年11月3日—1982年2月24日):

季姬寂,集鸡,鸡即棘鸡。棘鸡饥叽,季姬及箕稷济鸡。鸡既济,跻姬笈,季姬忌,急咭鸡,鸡急,继圾几,季姬急,即籍箕击鸡,箕疾击几伎,伎即齑,鸡叽集几基,季姬急极屐击鸡,鸡既殛,季姬激,即记《季姬击鸡记》。

石室诗士施氏,嗜狮,誓食十狮。施氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。施氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,施氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。


 

Ref:

https://github.com/fighting41love/hardNLU

https://www.sohu.com/a/306158933_284433

 

词法分析:分词;词性标注;实体识别

标签:targe   词性标注   target   com   识别   话题   lov   有趣   应该   

原文地址:https://www.cnblogs.com/hbuwyg/p/13192589.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!