标签:英文 大小写 中英文 规则 合并 大学 学院 高性能 其他
1. 中英文平行语料预处理
中文处理
数据泛化,解决数据稀疏问题
数字 $number
日期 $date
时间 $time
网址等 $literal
专有名词处理:如“东北大学信息学院”建议拆分为“东北大学”、“信息学院”,有助于抽取出更多翻译规则
英文
大小写
句尾结束符与最后单词用空格分开
数据泛化处理
其他
全角 > 半角
中英文同一类型泛化名最好一致,如时间
可crf或语言模型高性能中文分词
英文句尾与Mr.Smith区分
泛化结果一致性检验,如一方含$number另一方也应含$number
双语预处理工具,NiuPlan/NiuTrans.YourData.html
2. 词对齐
挑战:ambiguity, 一词多义;不同语言的句子构成结构
直译弊端:单个词很多ifelse费时
工具:GIZA++
(源-目标,目标-源,结果不同,
需合并 -> 1.双向对齐;2.邻居单向对齐且未与任何词双向对齐)
the Noisy Channel Model(噪声信道模型)
标签:英文 大小写 中英文 规则 合并 大学 学院 高性能 其他
原文地址:https://www.cnblogs.com/iupoint/p/14628269.html