用CRF做命名实体识别

时间：2018-06-16 01:06:30 阅读：236 评论：0 收藏：0 [点我收藏+]

标签：一个 upload location 原理 template 流程任务 -o 数据预处理

摘要

本文主要讲述了关于人民日报标注语料的预处理，利用CRF++工具包对模型进行训练以及测试

新   O
世   O
纪   O
—   O
—   O
一   B_TIME
九   M_TIME
九   M_TIME
八   M_TIME
年   E_TIME
新   B_TIME
年   E_TIME
讲   O
话   O
(   O
附   O
图   O
片   O
1   O
张   O
)   O

中   B_ORGANIZATION
共   M_ORGANIZATION
中   M_ORGANIZATION
央   E_ORGANIZATION
总   O
书   O
记   O

CRF++训练的数据格式如上图所示

4.3 特征模板
特征模板template如下

# Unigram
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,0]/%x[-1,0]/%x[0,0]
U06:%x[-1,0]/%x[0,0]/%x[1,0]
U07:%x[0,0]/%x[1,0]/%x[2,0]
U08:%x[-1,0]/%x[0,0]
U09:%x[0,0]/%x[1,0]

# Bigram
B

4.4 CRF++包的使用说明
下载工具包之后，打开文件夹

技术分享图片
1.在此处新建一个文件夹chinese

2.我们复制crf_learn.exe，crf_test.exe和libcrfpp.dll这三个文件到我们新建的chinese文件夹里面，然后再把之前生成的CRF++数据格式的数据文件train.data放到chinese里面，再把我们自己定义的特征模板文件放到chinese文件夹里面(一共五个文件)

3.在chinese里面打开cmd
敲入以下代码，这便是开始训练模型

crf_learn -a MIRA template train.data model

template就是我们上面定义的特征模板
训练好之后会产生一个model文件

4.自己写几个测试文本，并将其转为CRF++的数据格式，注意标签要全部一样，如下图所示

扬   B
帆   B
远   B
东   B
做   B
与   B
中   B
国   B
合   B
作   B
的   B
先   B
行   B

希   B
腊   B
的   B
经   B
济   B
结   B
构   B
较   B
特   B
殊   B
。   B

同样把这个测试数据的文件test.data放到chinese文件夹里面

5.在chinese里面打开cmd
敲入以下代码，这便是开始模型预测

crf_test -m model test.data >> output.txt

打开output.txt文件你就会看到预测的结果

扬   B   O
帆   B   O
远   B   O
东   B   O
做   B   O
与   B   O
中   B   B_LOCATION
国   B   E_LOCATION
合   B   O
作   B   O
的   B   O
先   B   O
行   B   O

希   B   B_LOCATION
腊   B   E_LOCATION
的   B   O
经   B   O
济   B   O
结   B   O
构   B   O
较   B   O
特   B   O
殊   B   O
。   B   O