在自然语言处理(NLP)技术上处于领先地位的公司Teragram 被商业智能和分析软件供应商SAS收购(08年3月17日),宣称使用自然语言处理搜索技术的Powerset被微软收购(08年7月1日),在文本分析方面领先的Inxight被...
分类:
编程语言 时间:
2015-05-25 16:54:11
阅读次数:
5722
概念主题模型(PTM, probabilitytopical model)在自然语言处理(NLP,natural language processing)中有着重要的应用。主要包括以下几个模型:LSA(latentsemantic
analysis)、 PLSA(probability latent semantic analysis)、LDA(latentdirichlet allocati...
分类:
其他好文 时间:
2015-05-23 14:16:13
阅读次数:
242
活动安排
主办方:
时间:2015年05月31日(周日) 14:00-16:30
地点:北京航空航天大学主楼
活动嘉宾
翟周伟
就职于百度,资深Hadoop技术专家,专注于Hadoop&大数据、数据挖掘、自然语言处理等领域。2009年便开始利用Hadoop构建商业级大数据系统,是国内该领域最早的一批人之一,负责设计过多...
分类:
其他好文 时间:
2015-05-20 18:26:19
阅读次数:
212
语料库(Corpus)[2]是指通过科学的方法进行取样和加工的,据有一定格式和标记的大规模电子文本库。语料库是语言学中的一个概念,是语言学研究的资源之一,同时也是自然语言处理的重要基础。 语料库有多种类型,主要依据他的目的或者是内部包含成分进行划分。例如中英文双语语料库,它可能用于中文英文的互译,不...
分类:
其他好文 时间:
2015-05-19 20:43:31
阅读次数:
139
最近两天简单看了下最大熵模型,特此做简单笔记,后续继续补充。最大熵模型是自然语言处理(NLP, nature language processing)被广泛运用,比如文本分类等。主要从分为三个方面,一:熵的数学定义;二:熵数学形式化定义的来源;三:最大熵模型。
注意:这里的熵都是指信息熵。
一:熵的数学定义:
下面分别给出熵、联合熵、条件熵、相对熵、互信息的定义。
熵:如果一个随机...
分类:
其他好文 时间:
2015-05-12 00:09:14
阅读次数:
270
最近因为工作的原因,好久没有写博客了。(看到有很多评论和留言,都不能一一回复啦~)
过年之前Oracle组织过一次内部的编程马拉松,当时选择的题目是OCR相关的,但是但是做出来的效果不是很好,就一直想着把代码重新整理一下,优化一下效果。
目前随着国内互联网火的一塌糊涂,似乎也带动了图像处理的发展与引用,以前一直觉得图像处理很难找到合适的工作,所以找工作的时候就换了自然语言处理...
分类:
移动开发 时间:
2015-05-06 23:00:39
阅读次数:
273
转自:http://www.52nlp.cn/resources这里提供一些52nlp博客的一些系列文章以及收集的自然语言处理相关书籍及其他资源的下载,陆续整理中!如有不妥,我会做删除处理!特别推荐系列:1、HMM学习最佳范例全文文档,百度网盘链接: http://pan.baidu.com/s/1...
分类:
编程语言 时间:
2015-05-01 11:51:31
阅读次数:
230
在研究中发现,哈工大的LTP在分词、实体识别等方面的效果甚至要优于中科院ICTCLAS,而且LTP还具备了目前在中文信息处理领域较为罕见的语义角色标注(SRL)功能。以前我都是直接以get方式通过LTP-Cloud去使用的,但是由于受限于网速,当语料较大时 执行速度较慢。于是近期考虑在自己的机子上安装,由于个人比较喜欢用ython编程,所以就安装了官方发布的pyltp。在安装过程中遇到了不少问题,...
分类:
编程语言 时间:
2015-04-27 20:12:51
阅读次数:
303
NLP, NER, POS, CHUNK, 分词, tool,...
分类:
编程语言 时间:
2015-04-23 13:29:58
阅读次数:
251
近年来很多机器学习研究者开始尝试从图片中挖掘信息,自动生成该图片的描述:Google Research 在2011年发布正在开发的新技术,声称能侦察图片,再为图片作出文字描述:该新技术结合了计算机视觉技术(computer vision)和自然语言处理(natural language proces...
分类:
其他好文 时间:
2015-04-18 06:24:49
阅读次数:
154