100000条数据共迭代826次,耗时885.93s。
标注错误率:0.0166197028394
技能词识别数:11395
字典技能词识别率:0.32576
新词数:7683
新词中技能词比例:0.522
技能词整体识别率:((11395 * 0.32576) +(7683 * 0.522))/ 11395 = (3712 + 4011)/11395 =7722/11395 = 0.68
第二次训练:(train:10w;test:all;英文单独过滤,不经过CRF;丢弃‘能力‘,‘及‘,‘思维‘,‘我‘;丢弃‘管理‘,‘能力‘,‘处理‘,‘制作‘;丢掉标点符号,丢掉的部分可以抑制技能词的不断扩展)
100000条数据共迭代852次,耗时1085.97s。
标注错误率:0.0258394960395
技能词识别:7683
字典技能词识别率:0.848887153456
新词中技能词比例(汉语):306 技能词比例:0.27
技能词整体识别率:(7683 * 0.85 + 1152 * 0.31)/ 7683 = (6530.55 + 357.12)/7683 =7722/7683 = 0.90
提高的原因:第一遍扩展了相当大一部分词典,所以第二次遍历词典词汇识别率很高,识别的新词数量减少。新技能词识别率低可能跟语料有一定关系。
第三次训练:(train:all;test:all)
580000条数据共迭代999次,耗时2932s。
标注错误率:0.0137764605234
技能词识别:7192
字典技能词识别率:0.790183537264
新词数(汉语):1114
新词中技能词比例:0.93
技能词整体识别率:7192* 0.79 + 1114 * 0.93)/ 7192 = (5681.68 + 1037)/7192 =6178.68/7192 = 0.86
下降的原因:训练语料增加,字典包含的技能词的比例会减少,新词识别增多,且新技能词识别率较高。
第四次实验:(test:all;key_word_line加入了‘熟悉‘,‘精通‘,‘熟练‘,‘了解‘,‘能够‘,‘掌握‘,‘建立‘ ,‘使用‘,‘分析‘,‘项目‘,‘页面‘,‘非常‘,‘通过‘,‘进行‘,‘运用‘, ‘负责‘,‘设计‘,‘组织‘,‘知识‘,‘深入‘,‘根据‘,‘擅长‘,‘指导‘ ,‘拥有‘,‘懂得‘)
没有训练(为了保证训练的精度)
标注错误率:0.0232847543088
技能词识别:14873
字典技能词识别率:0.46836549452
新词数(汉语):7040
新词中技能词比例:0.914
技能词整体识别率:14873* 0.47 + 7040* 0.914)/ = (6990.31 + 6432)/14873=13422.31/14873=0.9024615
提升的原因:相比之下,key_word_line的数量增加了三倍,所以新词量增加很多,相应字典技能词的比例就减少。新词中的真实技能词的比例依然能达到90%以上,说明标注的效果非常好。
总结:
CRF能够有效识别新的技能词,在经过两次测试以后,新词的识别率都在90%以上,说明词典的扩充提高了数据标注的准确度,从而提高了新词识别的效率。
最终结果还是存在很多意义相同但说法不同的词汇。通过词条过滤有以下两个问题:(1)词条量不够,会把很多很好的词过滤掉;(2)冗余太多,占用系统资源;(3)会存在很大比例的非词条的技能词,词频依然可观。