周锡令
xlzhou@btamail.net.cn
2001-11-8
在大多数情况下,我习惯于研究远离我们主观世界的客体。典型的例子是“天体”。在研究的过程中,使用的方法是“建立模型”。研究的进展过程主要表现为“模型的逐步求精”。
比如说,最开始只对两个天体组成的系统模型进行研究,研究的结果与实际的数据基本符合,但是有微小的差异。于是,我们进一步考虑距离较远的第三个星体所产生的摄动作用,如此这般,使得我们建立的模型越来越接近实际情况。
对于力学世界,也有类似的现象,最开始建立牛顿力学,它和常规的世界符合得很好;但是当物体的运动速度逐渐接近光速时,又很多现象无法解释,于是进入了相对论修正。
在自然语言处理工作中,我们好像也是采用类似的方法。我们建立了一个又一个语法模型,希望将尽可能多的语发现象笼括在内。但是和力学、电学等领域相比,所得的结果总是很不能令人满意。对此,我们总是把原因归结为:自然语言太复杂!
我们好像忽略了一个很重要的事实,那就是:像“天体”、“集成电路”……这类客体是“完全自立于我们主观世界之外”的,我们用来研究它们的大脑和这些被研究的对象是完全分开的。研究它们时,用不着为我们自己的大脑的工作过程建立模型。而和“天体”、“集成电路”……这些客观对象不同,自然语言本身似乎够不上一个完整的研究对象。作为一个有价值的完整的研究对象,参与其运行机制的主要方面都应该包含在内。
举例来说,如果有以下一个通讯系统:
图中的车载计算机通过无线电讯号向接收设备发送讯息。由于各种原因,信号经常受到干扰。因此发送时在信号中添加了误差校正码,而接收设备则拥有根据误差校正码校正错误的设施。我们在研究这个系统时,一定会整体地从信号的发送、传输、干扰、接收、校正的所有环节来考虑。如果抛开接收这头的校正环节,单纯研究信号的格式、统计规律,一定会得出千奇百怪、没有太多价值的结果。
然而在研究自然语言时,我们正是采取了这种奇怪的研究方式。自然语言是在人群中为了交流思想而产生和不断发展的。语言传递思想或信息的机制既蕴藏在语言内部的结构,也隐含在人的大脑解读语言中所包含的符号系列的过程中。可是我们只研究语言本身!
因此对于自然语言传递信息的运行机制,不能单单研究语言本身。原则上,应该把“人的大脑的处理语言的过程”也包含在所研究的系统内,这样才能有结果。
当然,研究大脑解读语言的过程很困难。但是,如果我们因此就完全放弃这一十分重要的方面,只是在语言的形式结构方面越钻越细,我们会不会永远也得不出结果?
目前我们当然还不可能提出大脑的全部模型。但是可以为大脑在理解自然语言时最重要的一个环节先拿出来研究,这就是解惑:补充语句中的缺失部分、纠正结构中的倒错部分。展开来说,就是:
把自然语言中的语句或者句群看成“含有多处含糊性”,“可以有多种解读方式”的符号系列,然后利用“知识”,借助“语义合理性准则”从中选出最合乎情理的一种解读方式,可以看成是为“大脑解读语言的过程”所建立最初级的模型。
“语法”和“语义”的第一个结合点是不是就在这里?
根据我现阶段的理解,HNC团队一直在这个方向上努力。当然,这个任务决不是轻而易举的。由于这条道路涉及全体人类在全部历史上积累下来的知识的表达和应用,沿着这条道路前进的工作着好像面临着数学上令人生畏的无穷大问题。因此,要在这个方向上获得进展、并能得到社会的承认,十分关键的一点就是:充分意识到任何工程都是有边界的,任何技术手段所能解决的问题都是有限的;从而明确有限目标,并睿智地划分工程的不同实现阶段。
最后,我们不妨来对比一下计算机编程语言。在发展这类语言时,从来就是把计算机对语言的处理能力联系在一起研究的。由于现阶段的计算机基本上没有解惑能力,所以这类语言基本上不允许有含糊性,书写出来的程序在语法上不能有丝毫差错。样样事情都要交代的明确,没有不符合语法或者模棱两可的地方。我说“基本上”是因为当代的计算机也不是绝对没有一点解惑能力。例如,很多人书写HTML程序的时候,往往没有严格遵从语法的规定。对于这种情况, 实际的HTML解释程序往往能够“正确地加以理解”,也即可以在一顶程度上自动加以补充或改正。而不同公司开发的HTML解释程序的解惑能力也有程度上的差异。