在自然语言处理中有一个常见的任务,即标注。常见的有:1)词性标注(Part-Of-Speech Tagging),将句子中的每个词标注词性,例如名词、动词等;2)实体标注(Name Entity Tagging),将句子中的特殊词标注,例如地址、日期、人物姓名等。粗略看来,这并不是一个简单问题。首先每个词都可能有多个含义,不同情况表达不同含义;其次,一个词的含义或者词性也受到前后多个词的影响。
然后隐马尔科夫模型却从数学上给出了一个近乎完美的解决方案。...
分类:
其他好文 时间:
2014-07-02 10:45:21
阅读次数:
283
《Python自然语言处理》基本信息作者: (美)Steven Bird Ewan Klein Edward Loper出版社:人民邮电出版社ISBN:9787115333681上架时间:2014-6-13出版日期:2014 年6月开本:16开页码:508版次:1-1所属分类:计算机 > 软件与程序...
分类:
编程语言 时间:
2014-06-27 17:01:08
阅读次数:
196
任何语言,都可以被认为是一种编码方式,而语言的语法规则是编码解码的算法。我们把我们要表达的意思,通过一句话(一种编码)传送出去,听到这句话的人(接到编码信息),理解这句话(解码),从而理解对方要表达的意思。这是一个比较有趣又生动的过程。自然语言处理可以说是从1950年开始的,至今有60多年的历史。但...
分类:
其他好文 时间:
2014-06-27 11:46:43
阅读次数:
437
统计自然语言处理统计自然语言处理基础自然语言处理综论
分类:
其他好文 时间:
2014-06-25 18:13:00
阅读次数:
156
代码下载:基于隐马尔可夫模型的有监督词性标注
词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。
词性标注本质上是...
分类:
其他好文 时间:
2014-06-24 20:05:51
阅读次数:
233
花了点时间,把外交部网站上的发言人表态一栏中的数据全部抓取下来,按照一定的格式保存于文件中,时间范围是2010-09-14~2014-06-18,如果跑在服务器上的话,可以做增量更新,即若有更新每天下载一篇新的文章。我国的外交部发言人制度是在1983年3月1日开始设立的,但是外交部网站上公布的数据好像只有我拿到的这些。
文件格式如图:
(声明:本人只是想把这些答记者问的对话当作自然语言...
分类:
其他好文 时间:
2014-06-21 20:46:30
阅读次数:
208
中国的这些年喜欢搞概念,什么云计算大数据啊,国家支持,专家鼓吹,各大会议论坛精彩纷呈,热闹过后发现还是默默地在用国外的技术和平台,就如同PC操作系统没有我们的份,手机操作系统也没有我们的份,虽然我们是世界上电脑和手机拥有量最多并且人们最喜欢玩手机的国家,感觉我们的学术专家和行业大佬们就只会扯蛋,扯多了会痛,痛定思痛,痛何如哉!吃饱喝足后还是继续扯蛋。相当可悲,若大个中国,真正心平静气地去做研究和开...
分类:
移动开发 时间:
2014-06-20 11:37:26
阅读次数:
322
“小冰”倒了之后,一款基于自然语言处理技术的人工智能聊天机器人“小灵”诞生了。小灵目前只在qq群上线,以个人账号发布,登录qq添加qq群后,即可以与小灵进行交流。比如你问它“你是男的女的”,它会回答“小灵是腐女啦,你说小灵是男的还是女的!”,让你笑到爆!
小灵集合了中国网民近10年来积累的公开聊天记录,依靠图灵机器人平台在大数据、自然语义分析、机器学习和深度神经网络方面的技术积累,集合了近1...
分类:
其他好文 时间:
2014-06-07 15:19:51
阅读次数:
307
最近一段时间做了不少文本挖掘的项目和研究,正好总结一下文本挖掘预处理的流程,希望是干货。...
分类:
其他好文 时间:
2014-06-07 12:11:52
阅读次数:
238
博主是自然语言处理方向的,不是推荐系统领域的,这个程序完全是为了应付大数据分析与计算的课程作业所写的一个小程序,先上程序,一共55行。不在意细节的话,55行的程序已经表现出了协同过滤的特性了。就是对每一个用户找4个最接近的用户,然后进行推荐,在选择推荐的时候是直接做的在4个用户中选择该用户item没...
分类:
编程语言 时间:
2014-06-07 07:19:12
阅读次数:
473