特征抽取算是自然语言处理领域一个比较重要的概念了,近期由于需要又要重新回顾下这方面的知识,顺便也总结下所有的方法。特征抽取就是找出一些词来代表文本,表述上既能表达文本所要传递的内容,形式上又要精炼精简。那什么样的词才能代表这篇文本呢?很自然的我们就会想到经常出现的词即词频很高的词。这样又带来一个问题...
分类:
其他好文 时间:
2014-09-01 17:37:53
阅读次数:
216
一年前一个偶然的机会我遇到了一本书 ——《影响力》,看完这本书之后对我们如何思维产生了极大的兴趣,于是在一年的时间里面密集地阅读了以下一些方面的经典著作:社会心理学、认知科学、神经科学、进化心理学、行为经济学、机器学习、人工智能、自然语言处理、问题求解、辩论法(Argumentation Theor...
分类:
其他好文 时间:
2014-08-29 08:20:37
阅读次数:
409
最近开始啃PyQt。
邮件列表的文档,会有多种自然语言的编码,有时会出现解码错误:UnicodeEncodeError。
解码问题,是Python的老大难。我现在用的3.4.1,也没真正解决它。
折腾半天,自造一个办法。...
分类:
编程语言 时间:
2014-08-28 11:27:59
阅读次数:
190
自然语言处理(2)之文本资料库1.获取文本资料库本章首先给出了一个文本资料库的实例:nltk.corpus.gutenberg,通过gutenberg实例来学习文本资料库。我们用help来查看它的类型 1 >>> import nltk 2 >>> help(nltk.corpus.gutenb.....
分类:
其他好文 时间:
2014-08-28 00:41:48
阅读次数:
464
经过这几天我才发现原来我最弱的是数据库,好了现在就来补补吧SQL(Struct Query Language) 结构化查询语言,属于第四代语言(接近于自然语言)符合主谓宾定状补DDL (Data Define L)数据定义语言,创建一个数据库,创建一个表DML(Data Manage L)数据管理语...
分类:
数据库 时间:
2014-08-27 20:09:48
阅读次数:
240
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意...
分类:
编程语言 时间:
2014-08-27 16:14:27
阅读次数:
1561
Javascript语言的设计不够严谨,很多地方一不小心就会出错。举例来说,请考虑以下情况。现在,我们要判断一个全局对象myObj是否存在,如果不存在,就对它进行声明。用自然语言描述的算法如下: if (myObj不存在){ 声明myObj; }你可能会觉得,写出这段代码很容易。但是实际上...
分类:
Web程序 时间:
2014-08-25 01:04:43
阅读次数:
331
自然语言处理(1)之NLTK与PYTHON题记: 由于现在的项目是搜索引擎,所以不由的对自然语言处理产生了好奇,再加上一直以来都想学Python,只是没有机会与时间。碰巧这几天在亚马逊上找书时发现了这本《Python自然语言处理》,瞬间觉得这对我同时入门自然语言处理与Python有很大的帮助。所以最...
分类:
编程语言 时间:
2014-08-18 00:08:23
阅读次数:
845
MALLET:基于Java语言的用于统计自然语言处理,文件分类,聚类,主题建模,信息提取,和其他的用于文本的机器学习应用的Java包。
MALLET包括复杂的用于文件分类的工具:
有效的用于转换文本到“特征”的程序,多种多样的算法(包括朴素贝叶斯,最大熵,和决策树)。以及一些通用的指标用于评估分类器性能。
除了分类,MALLET包括序列标注的工具,像从文本...
分类:
其他好文 时间:
2014-08-16 11:15:20
阅读次数:
256
Title: 深度问答技术及其在搜索中的应用马艳军博士, 百度Abstract: 深度问答(DeepQA)是一种基于对自然语言深度理解的智能问答技术,其核心技术涉及知识图谱建设、语义表示和计算、语义匹配等技术。深度问答在互联网尤其在搜索中有着广泛的应用价值。本课程将详细介绍深度问答中涉及的核心算法,...
分类:
其他好文 时间:
2014-08-13 00:49:24
阅读次数:
442