10年专业笔译品牌
10年数万场口译
专业留学移民翻译
多语言网站翻译
89种语言服务
机器翻译(Machine Translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,它是自然语言处理(Natural Language Processing)的一个分支,与计算语言学(Computational Linguistics)、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。
步入21世纪以来,随着国际互联网(Internet)的迅猛发展和世界经济一体化的加速,网络信息急剧膨胀,国际交流日益频繁,如何克服语言障碍已经成为国际社会共同面对的问题。由于人工翻译的方式远远不能满足需求,利用机器翻译技术协助人们快速获取信息,已经成为必然的趋势。
在方法论层面,机器翻译系统可分为基于规则(Rule-Based)和基于语料库(Corpus-Based)两大类。前者是由词典和语法规则库构成翻译知识库,后者则是以语料的应用为核心,由经过划分并具有标注的语料库构成知识库。其中,基于语料库的方法又可以分为基于统计(Statistics-based)的方法和基于实例(Example-based)的方法。
换个角度说,基于规则的方法属于理性主义范畴,基于语料库的方法则属于经验范畴。回顾近六十年的机器翻译发展史,翻译方法论的演变实际上就是“经验”与“理性”的相互“交流”。
1.主导地位的基于规则的方法
(1)基于规则方法的发展历程
早期的机器翻译系统基本上都采用基于规则的方法。1954年,世界上第一台机器翻译系统IBM701诞生,它只有250条俄语词汇、6条基本语法规则以及49个俄语翻译例句,通过直译法完成了世界上第一次机器翻译实验。所谓直译法,即把源语言中的单词或句子直接替换成相应目标语的单词或句子,必要时对词序进行适当的调整。直译法一般是针对特殊的语言对来设计,系统移植比较困难,缺乏通用性。
典型的直译法翻译系统是Systran系统,它是美国在乔治敦大学机器翻译系统的基础上进一步开发的,设计之初只能完成从俄文到英文的翻译,后来改进为可实现多语种之间的互译。这个系统对机器翻译的后续发展有着很大的影响,目前仍有不少翻译系统采用直译法。
在直译法逐步改进的同时,基于转换的方法也相伴而生。所谓基于转换,就是对句子结构进行层次分析,在词对词翻译的基础上,根据不同语言的不同规则生成相应的译文。这种方法需要三部字典:源语字典、源语—目标语双语字典和目标语字典。
最直观的例子就是中英文互译,中国人的名字是先姓后名,美国人的名字是先名后姓;中文句子是主谓宾加名词短语,英文句子是主谓宾加从句。诸如此类的不同规则,在转换法的翻译过程中,都需要通过三部字典中的特定描述才能顺利转化。
伴随着直译法和转换法的发展,另外一种基于规则的方法—中间语法应运而生。它先把源语言分析转换成对所有语言都适合的一种句法—语义表示,再由此转换为目标语言。也就是说,基于该方法的翻译过程包括两个阶段:从源语言到中间语言,再从中间语言到目标语言。
这种方法有一个典型的好处:节省开发费用。当需要多种语言翻译的时候,可以直接通过中间语言翻译到目标语言,而不需要每一种语言都设立一套规则程序。假如有6种语言需要彼此相互翻译,采用基于转换的方法需要30个语言转换模块(每对语言都需要一个模块),而采用中间语法的系统只需要12个模块。
虽然提出了三种方法,但显然当时的研究者还没有意识到机器翻译的难度,这些简单的方法对于稍复杂的句子就已经无能为力了。随着研究的深入,人们逐渐认识到:要完成机器翻译,计算机必须能够在一定程度上理解源语言的句子。与此同时,人工智能这门学科在20世纪70年代有了很大的发展,各种知识表示和知识推理的理论和算法纷纷被研究者提出。人们对自然语言的理解和机器翻译的认识有了质的飞跃。
这一阶段研究人员对基于规则的方法进行了创新性的改进,其主要特点是对语言进行了深层次的分析、转换和生成,也就是说,翻译不再是只在句子的表层(词序列)上进行,而是在句子的某种更深层结构(例如句法结构、语义结构或知识表示)的层面上进行。要实现这一点,系统就需要大量的语言知识和翻译知识,为此,机器翻译程序采用了数据与程序相分离的存储形式,语言知识和翻译知识以数据形式存在,而翻译程序利用这些数据进行翻译。这种数据最常见的表现形式就是规则和词典。
基于规则的机器翻译系统在1980年代达到一个高峰期,市场上涌现出很多基于规则的机器翻译系统,其中一些已经步入实用化阶段。国际上也出现了一些大规模的研究计划,例如欧盟的Eurotran项目和日本的亚洲五国语言机器翻译项目。即使到目前,大多数实用型机器翻译系统也都是以基于规则为主。整体而言,基于规则方法的翻译系统覆盖面宽,但译文质量的一致性有待提高。
(2)基于规则方法的现状
纵观机器翻译发展的历程,可以看出,机器翻译的主流方法一直是基于规则的方法。国际上有影响的机器翻译系统基本上都需要规则的贡献,即使在多种技术并存的系统中也要包含规则,基于规则的机器翻译技术思想是被普遍接受的、成熟的,也是到目前为止应用最广的方法。基于规则的机器翻译系统就是对语言语句的词法、语义进行分析、判断和取舍,然后重新排列组合,最后生成等价的目标语言。
基于规则的机器翻译方法导致了程序工作者和语言工作者的一种合作范式:程序工作者和语言工作者先共同制定数据规范,确定翻译算法、语言知识和翻译知识的表示形式,然后程序工作者编写程序实现翻译算法,语言工作者编写语言知识和翻译知识驱动翻译算法的运行,两者分工合作,缺一不可。
在这种工作范式下,系统翻译性能通常受到两方面因素的制约:一是算法的设计是否合理,另一个是语言知识是否足够丰富,其中最主要的瓶颈还在于后者。一旦翻译程序编程结束,并经过调试稳定以后,基本上就不需要再做修改,改进翻译性能的任务完全落在了语言工作者的身上。对于基于规则的机器翻译系统而言,知识获取实际上是最大的瓶颈。通常,经过一个人一年左右的调试就能得到一个可以翻译简单句子的演示系统,但要真正得到一个初步实用的机器翻译系统,非得要通过一批人经年累月的调试和积累不可。
在上述背景下,一方面,研究者们已经建立了一定规模的规则库,覆盖了相当多的语言现象。另一方面,基于规则的机器翻译技术不断借鉴和融合其他方法的优点,这些变化主要体现在:
在规则的获取方面,传统的规则方法主要依靠语言学家的总结进行调试,而现在更加重视从大规模语料库中自动获取规则。
传统的规则方法往往偏重描述粗粒度、全局化的大范围语言学规则知识,而现在则更加重视描述细粒度、局部的小范围的语言学知识,呈现出“小规则库、大词典”的趋势。
在知识表示方面,为了以更小的粒度、更加准确地对翻译知识进行描述,一般要对单纯的与上下文无关的规则作一些改进。改进的方法有以下两种:一种是采用特征结构与合一算法,例如LFG、GPSG 等等,这种方法一般要求具有较好的语言学背景;另外一种是采用词汇化的方法对规则加以细化。
传统的规则方法采用的往往是非此即彼的确定性原则,系统的鲁棒性较差,而现在的规则系统中一般都引入各种形式的概率或者评分函数,系统的鲁棒性有所提高。概率与评分函数方法的区别在于:前者一般有比较严格的数学模型做基础,概率值的计算要以对大规模语料库的统计为依据;后者的主观性较强,评分规则的确定以及具体规则的分值都是人为的,人们可以根据经验进行调整。
随着机器翻译研究的不断深入,规则方法存在的问题逐渐暴露出来。该方法最大的问题在其知识获取方面,单纯依靠语言工作者人工编写规则似乎永远也不能满足实际应用的需要。一个在市场上销售的机器翻译系统通常都要经过数十人乃至数百人的调试,但翻译效果还是远远不能达到令人满意的程度。
更为糟糕的是,人工添加规则的做法导致规则库的规模更大,而系统性能的改进则更为困难。因为一方面规则库越大,规则之间的冲突就越多,出现了所谓的“跷跷板现象”,系统虽然对某些句子翻译效果好了,但对另外一些句子的翻译效果反而差了,系统的整体性能并没有提高;另一方面,在后面加入的规则通常都是一些粒度非常小的规则,只能处理非常个别的语言现象,对系统整体性能的改进很小,整个系统的性能提升极为缓慢,而这个时期一些大型的机器翻译研究项目也都以失败而告终。基于规则的机器翻译方法似乎走到了尽头。
2.异军突起的基于统计的方法
基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。因此统计机器翻译又可以分为以下几个问题:模型问题、训练问题、解码问题。所谓模型问题,就是为机器翻译建立概率模型,也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型的所有参数。所谓解码问题,则是在已知模型和参数的基础上,对于任何一个输入的源语言句子,去查找概率最大的译文。
实际上,用统计学方法解决机器翻译问题的想法并非是20 世纪90年代的全新思想,1949年W. Weaver就已经提出使用这种方法,只是由于乔姆斯基(Chomsky)等人的批判,这种方法很快就被放弃了。批判的理由主要是一点:语言是无限的,基于经验主义的统计描述无法满足语言的实际要求。另外,限于当时的计算机速度,统计的价值也无从谈起。而现在,计算机不论从速度还是从容量方面都有了大幅度的提高,昔日大型计算机才能完成的工作,今日小型工作站或个人计算机就可以完成了。此外,统计方法在语音识别、文字识别、词典编纂等领域的成功应用也表明这一方法在语言自动处理领域还是很有成效的。
统计机器翻译方法的数学模型是由国际商业机器公司(IBM)的研究人员提出的。统计机器翻译的基本思想是:从理论上说,这种模型只考虑了词与词之间的线性关系,没有考虑句子的结构。这在两种语言的语序相差较大时效果可能不会太好。如果在考虑语言模型和翻译模型时将句法结构或语义结构考虑进来,应该会得到更好的结果。
统计方法的兴起缘于上世纪九十年代以来互联网的广泛应用,整个社会的信息呈现爆炸趋势,机器翻译的需求凸显。与此同时,人们对于提高机器翻译的质量和速度有了新的想法,基于“统计”的方法备受关注。参与这个领域研究的人数和发表论文的数量都呈指数型增长。统计机器翻译技术本身也经过了一个不断发展的过程,统计集群翻译的模型框架从早期的噪声信道模型发展到目前普遍采用的对数线性模型,其中最主要的统计翻译模型也从早期的基于词的模型发展到了目前主流的基于短语的模型,以及目前很多人都在进行的基于句法的统计翻译模型研究。
目前,Google的在线翻译已为人熟知,其背后的技术即为基于统计的机器翻译方法,基本运行原理是通过搜索大量的双语网页内容,将其作为语料库,然后由计算机自动选取最为常见的词与词的对应关系,最后给出翻译结果。不可否认,Google采用的技术是先进的,但它还是经常闹出各种“翻译笑话”。其原因在于:基于统计的方法需要大规模双语语料,翻译模型、语言模型参数的准确性直接依赖于语料的多少,而翻译质量的高低主要取决于概率模型的好坏和语料库的覆盖能力。基于统计的方法虽然不需要依赖大量知识,直接靠统计结果进行歧义消解处理和译文选择,避开了语言理解的诸多难题,但语料的选择和处理工程量巨大。因此目前通用领域的机器翻译系统很少以统计方法为主。
3.另辟蹊径的基于实例的方法
与统计方法相同,基于实例的机器翻译方法也是一种基于语料库的方法,其基本思想由日本著名的机器翻译专家长尾真提出,他研究了外语初学者的基本模式,发现初学外语的人总是先记住最基本的英语句子和对应的日语句子,而后做替换练习。参照这个学习过程,他提出了基于实例的机器翻译思想,即不经过深层分析,仅仅通过已有的经验知识,通过类比原理进行翻译。其翻译过程是首先将源语言正确分解为句子,再分解为短语碎片,接着通过类比的方法把这些短语碎片译成目标语言短语,最后把这些短语合并成长句。对于实例方法的系统而言,其主要知识源就是双语对照的实例库,不需要什么字典、语法规则库之类的东西,核心的问题就是通过最大限度的统计,得出双语对照实例库。
基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果,随着例句库规模的增加,其作用也越来越显著。对于实例库中的已有文本,可以直接获得高质量的翻译结果。对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造出近似的翻译结果。
这种方法在初推之时,得到了很多人的推崇。但一段时期后,问题出现了。由于该方法需要一个很大的语料库作为支撑,语言的实际需求量非常庞大。但受限于语料库规模,基于实例的机器翻译很难达到较高的匹配率,往往只有限定在比较窄的或者专业的领域时,翻译效果才能达到使用要求。因而到目前为止,还很少有机器翻译系统采用纯粹的基于实例的方法,一般都是把基于实例的机器翻译方法作为多翻译引擎中的一个,以提高翻译的正确率。
4.各有长短 融合使用
应该说,无论是直译法、转换法、中间语法,还是实例法和统计法,都是各有长短。作为理性主义范畴,前面三者属于基于规则的方法。它的典型缺点是技术粒度太大,即计算机语言无法完全描述实际语言组合中无限丰富的规则。
而作为经验主义范畴,后面两者属于基于语料库的方法,其典型缺点是数据稀疏。也就是说,由于语言的无限性,任何高性能的计算机都无法统计出所有短语的使用情况,总是会存在疏漏。
随着这些方法的各自缺陷逐步为人们所认知,自上世纪90年代以来,机器翻译系统的实现越来越多地集成了不同的方法和策略,基于单一方法的产品越来越少。其中最具有代表性的无疑是尼伦伯格提出的多引擎机器翻译系统,即系统中集成多种机器翻译的实现方法,每种方法构成的翻译模块作为一个引擎,多个引擎协同配合,共同完成翻译工作。
我们判断:在今后的机器翻译研究中,多种方法互相借鉴,互相融合的趋势会越来越明显。基于规则的方法与基于语料库的方法相结合,机器翻译与翻译记忆相结合,很可能是今后研究发展的主流方向。