标签:
1、统计类工具:可参见【统计学习常用Python扩展包】
2、简繁转换工具:opencc
Open Chinese Convert(OpenCC)是一個中文簡繁轉換開源項目,提供高質量的簡繁轉換詞庫和可供調用的函數庫(libopencc)。還提供命令行簡繁轉換工具,人工校對工具,詞典生成程序,以及圖形用戶界面。(https://code.google.com/p/opencc/wiki/Introduction)
嚴格區分「一簡對多繁」、「一簡對多異」和「地域用詞差別」。
支持異體字轉換,兼容陸港澳臺等不同地區用字差別。
嚴格審校一簡對多繁詞條,原則爲「能分則不合」,用戶可自定義合併。
支持中國大陸、臺灣、香港異體字和地區習慣用詞轉換,如「裏」「裡」、「鼠標」「滑鼠」。
詞庫和函數庫完全分離,可以自由修改、導入、擴展。
支持C,C++,Python,PHP等多種語言調用,命令行直接調用,以及圖形界面。
兼容Windows、Linux等多種平臺。
2011年12月,支持地區異體字和習慣用詞轉換。
2011年7月,圖形版本發佈。
OpenCC創立於2009年,初期一直在蒐集整理詞庫,2010年6月正式對外發佈。
已經用於ibus-pinyin、fcitx的繁體模式輸入。U
Ubuntu 下安装如下:
标签:
原文地址:http://www.cnblogs.com/mo-wang/p/5102117.html