标签:targe 词性标注 target com 识别 话题 lov 有趣 应该
这一部分是NLP的基础,应该是入门就要了解的内容。
所谓分词,就是断句,把一条句子断开;要求断的比较碎,每个词都断开;要断的正确,也就是每个词都是有意义的,符合逻辑。
有个著名分词工具jieba(结巴),感觉名字起的挺贴切的,句子断开成一个个词来读,有点结巴的感觉。
这个工作对人来说不复杂,小学高年级应该就没多大问题了。
对机器来说,不容易。虽然现在中文分词已经做得很好了,仍存在部分棘手的问题。
大多数的自然语言语句,对于现在的中文分词工具来说,没有难度。
微博 #自然语言理解太难了# 有很多让人觉得有趣的内容,可以让分词工具测一测。
结合这个话题,展开中文分词的学习,进一步运行程序“考考”几个注明的分词工具。
校长说衣服上除了校徽别别别的
南京市长江大桥
来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过儿过过的生活。”
《季姬击鸡记》、《施氏食狮史》
作者:赵元任(1892年11月3日—1982年2月24日):
季姬寂,集鸡,鸡即棘鸡。棘鸡饥叽,季姬及箕稷济鸡。鸡既济,跻姬笈,季姬忌,急咭鸡,鸡急,继圾几,季姬急,即籍箕击鸡,箕疾击几伎,伎即齑,鸡叽集几基,季姬急极屐击鸡,鸡既殛,季姬激,即记《季姬击鸡记》。
石室诗士施氏,嗜狮,誓食十狮。施氏时时适市视狮。十时,适十狮适市。是时,适施氏适市。施氏视是十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。石室湿,氏使侍拭石室。石室拭,施氏始试食是十狮尸。食时,始识是十狮尸,实十石狮尸。试释是事。
Ref:
https://github.com/fighting41love/hardNLU
https://www.sohu.com/a/306158933_284433
标签:targe 词性标注 target com 识别 话题 lov 有趣 应该
原文地址:https://www.cnblogs.com/hbuwyg/p/13192589.html