码迷,mamicode.com
首页 > 其他好文 > 详细

MALLET简介

时间:2014-08-16 11:15:20      阅读:256      评论:0      收藏:0      [点我收藏+]

标签:style   java   os   io   strong   文件   ar   div   

MALLET:基于Java语言的用于统计自然语言处理,文件分类,聚类,主题建模,信息提取,和其他的用于文本的机器学习应用的Java包。

MALLET包括复杂的用于文件分类的工具:
有效的用于转换文本到“特征”的程序,多种多样的算法(包括朴素贝叶斯,最大熵,和决策树)。以及一些通用的指标用于评估分类器性能。

除了分类,MALLET包括序列标注的工具,像从文本中提供命名实体的应用。算法包括隐马尔科夫模型,最大熵马尔科夫模型,和条件随机场。这些方法在一个扩展的系统中实现,用于有限状态机转换器。

主题建模对于分析大规模的无标签文本集合非常有用。
MALLET中的主题建模(topic modeling)工具集包括有效的,基于采样的Latent Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA的实现.

MALLET中的很多算法依赖于数值优化(NUmerical Optimization)。MALLET包括有效的有限内存BFGS的实现(在许多其他优化方法中),

除了复杂的机器学习应用,MALLET包括转换文本文件为数值表示,然后进行有效处理的程序。该处理是通过一种灵活的“pipes”系统来实现的。它处理各种不同的任务,像标记字符串,去除停顿词,转换序列为计数向量。

另外,MALLET的一种称为GRMM的附加包,包含对通用图形化模型中的推理的支持。利用任意图像结构来训练CRFs。

注:MALLET工具集是一个开源软件,基于CPL发布。

MALLET简介,布布扣,bubuko.com

MALLET简介

标签:style   java   os   io   strong   文件   ar   div   

原文地址:http://blog.csdn.net/fantasy_wxe/article/details/38610843

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!