码迷,mamicode.com
首页 > 其他好文 > 详细

千万级巨型汉语词库分享

时间:2015-02-06 00:53:48      阅读:387      评论:0      收藏:0      [点我收藏+]

标签:

算法+语料≈NLP

这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM人名识别模块误命中的例子,这个词让HMM来看,“区”作为姓氏,“人”“保”作为名字的二三字的确非常有可能,但是正常人都不会取这个名字。要是我把“人”“保”这两个字的频度降低或删除的话,“袭人”“王保全”这些名字又无法识别。

本来博客“自然语言处理”分类下就有“语料库”这一小类,不过一直没有分享什么,这次分享一个6千万词汇的巨型汉语词库。

技术分享

目录

光目录就十分庞大,只贴出目录的一部分:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
     中国海洋大学青岛学院名人录.txt
     中国海诚.txt
     中国淡水鱼类名称.txt
     中国烟名大全.txt
     中国烟草名词.txt
     中国理学总词库.txt
     中国画专业词库.txt
     中国疗养院名录.txt
     中国的世界文化遗产名录.txt
     中国相声师承关系族谱.txt
     中国石化五建分包名单.txt
     中国石油西北销售公司词库.txt
     中国神仙表.txt
     中国种子植物科属.txt
     中国种子植物科属词典.txt
     中国种子植物科属词典1.1.txt
     中国科学技术大学.txt
     中国科学技术大学【校园词库】.txt
     中国科学院海洋研究所人名录.txt
     中国科学院院士名.txt
     中国移动 151.txt
     中国移动专用词库.txt
     中国移动业务专用.txt
     中国移动安徽有限公司.txt
     中国移动福建公司员工花名册.txt
     中国网络作家.txt
     中国职业名称大全.txt
     中国联通福建分公司客服中心专用.txt
     中国自唱歌曲.txt
     中国自然保护区.txt
     中国航油.txt
     中国艺术家(音乐理论、表演类).txt
     中国营口论坛-营口地方话词库.txt
     中国著名演奏家.txt
     中国观鸟年报-中国鸟类名录3.0.txt
     中国计量学院.txt
     中国象棋.txt
     中国象棋常用词汇.txt
     中国象棋红方走法大全.txt
     中国财税管理咨询网.txt
     中国近代历史名人.txt
     中国野鸟名录.txt
     中国钢厂名称库.txt
     中国铁路名词.txt
     中国银行.txt
     中国银行快速录入.txt
     中国音乐学院音乐考级山东考区人名2010年.txt
     中国音乐文化词库.txt
     中国风景名胜.txt
     中国高等教育名录数据库.txt
     中国高等院校(大学)大全【官方推荐】.txt

全部目录请下载:

技术分享千万级巨型汉语词库【目录】.zip

举个例子

推荐一些优秀的词库,比如:

四十万汉语大词库.txt

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
吖吖
吖啶
阿Q正传
阿阿
阿八
阿巴拉契亚山脉
阿爸
阿傍
阿谤
阿保
阿保之功
阿保之劳
阿本郎
阿鼻
阿鼻地狱
阿鼻鬼
阿鼻叫唤
阿鼻狱
阿比
阿比让
阿辟
阿避
阿柄
阿炳
阿波罗
阿波罗计划
阿伯
阿步干
阿茶
阿谄
阿昌族
阿叱
阿閦
阿从
阿达
阿大
阿呆
阿党
阿党比周
阿党相为
阿的
阿的平
阿等
阿弟
阿殿
阿爹
阿斗
阿阇
阿阇梨

自然语言处理及计算语言学相关术语.txt

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
隐式马可夫模型
阶层结构层次结构
单词句
同形异义词
同音异义词
同音词
同音异义
同部位音的
子句
人机界面
上位词
超文件超文本
下位词
主从结构的
直接成份
讯息为本的格位语法
成语熟语
特异性
施为性
直接成份
祈使句
蕴含谓词
含意
标引的
间接宾语
间接言谈行动间接言语行为
归纳推理
推理机器
不定词不定式
中缀
屈折变化
屈折词缀
资讯撷取
资讯处理信息处理
资讯检索
资讯理论信息论
固有特征
继承
继承
继承阶层继承层次
属性继承
语法天生假说
中插
里里外外演算法
体现
工具格
集成句法剖析程式

技术分享

金融专业相关词.txt

技术分享

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
安全投资原则
安全系数
安全性
安全钥匙
安全运作
安全责任
安泰集团
安泰科技
安泰授信有限公司
安田信托
安田信托银行
安徒生童话精选
安慰信
安慰信函
安新私人銀行有限
安信信托
安阳钢铁
安永
安永会计师事务
安永会计师事务所
安源股份
安装费
氨基酸序列
鞍钢股份
按百分率
按百分率收取
按百分率收取的费
按镑收费额
按保密专利申请处理
按比例
按比例分配
按比例分摊
按成本
按成本计价
按成本计算
按当时价格计算
按当时市价计算
按法律规定
按份共有
按付款当日价格
按付款当日价格计
按固定价格计算
按固定价格计算的
按固定市价计算
按貨幣計算
按级别攀升
按计划

这个做领域词库比较好。

新亚洲人名库.txt

技术分享

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
蔡碧虹
蔡碧野
蔡碧瑜
蔡斌
蔡冰川
蔡炳兴
蔡昌彬
蔡长丰
蔡长志
蔡常珍
蔡超超
蔡成波
蔡成香
蔡春英
蔡淳
蔡淳佳
蔡翠玲
蔡翠妮
蔡戴群
蔡德文
蔡德正
蔡东河
蔡冬梅
蔡笃强
蔡方燕
蔡飞英
蔡妃
蔡菲
蔡枫华

这个做人名识别比较好。

政府机关团体机构大全【官方推荐】.txt

技术分享

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
质量技术监督局
纪律检查委员会
机关事务管理局
国家知识产权局
最高人民检察院
河北教育考试院
国家外汇管理局
人民政府办公厅
计划生育服务站
科学技术委员会
中华全国总工会
北京市人民政府
国家烟草专卖局
长江水利委员会
黄河水利委员会
市中级人民法院
河北省人民政府
市政工程管理处
环境卫生管理处
社区居民委员会
四川石油管理局
工业园区管委会
黑龙江省教育厅
华北石油管理局
中国美术家协会
市政管理委员会
哈尔滨市公安局
机动车辆管理所
辽宁省人民政府

这个做机构实体识别比较好。

一些奇葩词库

技术分享技术分享技术分享

这个都能有……技术分享

下载地址

http://pan.baidu.com/s/10anmu

解压密码:www.hankcs.com

版权

这些词库是自己抓下来的,具体从哪里抓的就不说了技术分享,仅供个人研究学习用。

转载请注明:码农场 ? 千万级巨型汉语词库分享

千万级巨型汉语词库分享

标签:

原文地址:http://my.oschina.net/airship/blog/375893

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!