译雅馨10年翻译品牌,20000家企业见证的深圳翻译公司
400-8808-295
18038126442
网站地图官方微信服务城市
文件翻译

文件翻译

10年专业笔译品牌 

陪同翻译

陪同翻译

10年数万场口译

证件翻译

证件翻译

专业留学移民翻译

本地化翻译

本地化翻译

多语言网站翻译

小语种翻译

小语种翻译

89种语言服务

当前位置:主页 > 翻译者手册

现有翻译系统的技术瓶颈及发展趋势

日期:2012-09-24 | 阅读: 翻译系统, 发展趋势
从商业观点来看,目前的机器翻译确已可以达成一些经济效益,协助需要大量翻译的机构,迅速获得外文资料。但从研究者的角度来看,许多机器翻译的研究议题仍未有适当的解决之道

从商业观点来看,目前的机器翻译确已可以达成一些经济效益,协助需要大量翻译的机构,迅速获得外文资料。但从研究者的角度来看,许多机器翻译的研究议题仍未有适当的解决之道。加以大部份的机器翻译研究人员,并没有实际运转机器翻译系统的经验,因此,所研究的议题或方向难免偏向学院式的作法。而传统的机器翻译发展策略,大抵上是传统语言学、形式语言学及少数人工智慧技术的综合体。利用这些技术所发展的机器翻译,在歷经数十年的研究后,还是未能大量使用,显示以往的作法有其先天上的限制。以我们多年发展及运转机器翻译系统的经验来看,传统的机器翻译架构、发展模式及方法,主要的缺陷可以归结為几点:

1. 缺乏一致性的歧义解决方案

由前面的架构及原理,大家可以发现机器翻译系统所要处理的细节相当繁琐。就技术层面来看,机器翻译最大的问题,即在於每一个处理步骤都充满了不确定性 (uncertainty)及歧义性(ambiguity)。例如,"bank"可能当动词或名词使用,这是词类的歧义;当它做為名词时,可能是"银行",也可能是"河岸",这是字义 (word sense)上的歧义;"I saw a girl with a telescope."可能是"看到一个带著望远镜的女孩"或者"用望远镜看到一个女孩",这是修饰语修饰不同词组所造成的语法歧义;"The police were ordered to stop drinking by midnight."句中的"police"可能是要阻止别人喝酒 (或其它饮料) 的人,也可能是被阻止继续喝酒的对象,这是语意角色不同所造成的歧义;"She was elected the president of the United States bythe public."可以翻成被动式的"她被大眾推选為美国总统"或主动式的"大眾推选她為美国总统",这是转换及生成过程產生不同句法结构所造成的歧义。

这些歧义现象涵盖的层次,包括分析(词汇分析、句法分析、语意分析)、转换(词汇转换、结构转换)、合成(结构合成、词素合成)等各个阶层。每一种歧义现象都需要其它的讯息来帮忙解决。传统的机器翻译系统,主要是依靠语言学家或电脑专家依现有的语言知识,构建一条条的规则,来决定在何种情况下该採取什麼行动。这就是所谓的规则式机器翻译 (rule-based MT)。遇有某一个层次不能解决的问题,就利用更多细琐的知识,作更深一层的分析。无可否认的,这种作法可以直接利用一些现有的语言学理论及人工智慧的理论,来构建基本的机器翻译系统。但是,当系统由实验室的雏形系统转化到大型的实际系统,面对各式各样的文章时,问题就来了。

首先遇到的问题是,不管加入多少知识,只要是没有办法把所需知识加全,不确定性及歧义现象就会存在。由於系统的整体绩效直接与系统误判的机率成正比,因此,降低系统误判的机率,就成了首要的工作。在此情况下,系统必需利用一个评分的标準,来作最少风险的判断。目前各系统主要是以规则式系统為主,故鲜少对不确定之情况予以评分;许多系统在实验室发展时,一遇到问题就希望透过更深层的分析,或加入一些经验法则进去,来解决眼前所遇到的问题,使得这样的规则式系统混乱异常。事实上,要想利用一些一般性的规则,来解决复杂的语言问题并不容易。而且,每加深一层分析时,又会引入另一个层次的歧义现象。因此,并无法真正解决歧义及不确定性的问题。

虽然有些规则式系统也採用评分的方式来处理不确定的情况,但所用的评分标準多数是缺乏学理根据的经验法则。这种经验式也许在实验室裡能针对少数例子予以调整至最佳状况,但整体而言,并不能推广到其它文章及领域,达到最佳化的结果,也无法用一种有系统、可控制的方式持续地改进系统绩效;当系统修正某些法则或参数来处理某些问题时,表面上解决了这些问题,实际上对其它问题及整个系统的影响却无法评估,甚至於造成不良影响。因此,系统会一直在反覆修正这些经验法则的过程中打滚,很难扩充到大型系统。

要突破这种技术瓶颈,唯有发展出一套客观的评分函数,利用有鑑别力的词汇、语法及语意特徵作判断,才能用最少的知识,作最不具风险的判断,同时随时保持系统整体的绩效。目前BehaviorTran所使用的评分方法,是结合词汇、语法及语意模式与贝式决策法 (Baysian Decision Rule)所发展出来的一套评分函数[Su 88, 91, Liu 90, Chan 92a, Lin 92]。由於是利用最佳化的决策法则在语言模式之上,因此,理论上可以达到最少决策成本的最佳化结果。

2. 知识抽取不易

另一个问题是,如何抽取这些繁琐的知识 (knowledge acquisition)而达到相当的涵盖面,且在不断更新的过程中,仍能维持这些知识的一致性。一般的机器翻译系统最起码要有一、二十万个词汇、一两千条分析文法,及一两千组转换规则才足敷使用。如何用人工把这些词典资料一一填齐,而使得这裡面的规则保持一致,不会互相衝突,是个相当耗时费力、高成本、高难度的工程问题。不要说这种工作需要透过一群人来作,就算一个人包办整个工作,也很难保持资料及规则的一致性。事实上,即便是将同一个词给予适当的语意分类,早上跟下午的想法都可能不一样。更何况一套机器翻译系统通常要歷经数年的时间,由一群不同知识背景的人经手呢。这种人工抽取知识的方式,对一个实验式的系统也许已经足够,但对於实际运作的大型系统而言,其涵盖面和一致性就值得怀疑。而要维护一个这样的系统也极為困难。

目前的趋势是利用大量的语料,透过一些自动或半自动的统计方式来抽取必要的知识。例如,利用相邻词类间共存的频率或机率,可以很準确地由数百以至於数千种可能的词类组合中,决定各个字的正确词类。而以往使用规则来限制这种词类共生现象时,并无法作很完善的处理。

然而,纯粹使用统计方式而不顾及语言本身的规律,也容易造成参数数目过大,而必需用极為庞大的语料,才能学习到语言学上已熟知的现象。例如,最近有些学者企图利用极為简单的语言模式来表达翻译的内在行為,利用数百万句的双语语料(加拿大国会会议记录),来求取这种翻译模式的参数。其结果虽然显示部份的可行性,但由於所需的语料库极為庞大,故受到学界相当多的质疑与批评。

因此,比较好的方式应该是将一些已知的高层次语言学现象加以模式化,再利用统计的方式由语料中求得适当的模式参数。如此,既可发挥语言学家归纳一般性语言规则及建立语言学模式的长才,又可将繁琐的知识抽取工作交给擅长处理大量资料的电脑来处理,获取一致性的模式参数,避免人工抽取的问题,同时减轻人工成本,可谓一举数得。这种以语料為基础,架构在高层语言知识上的统计方式,简称CBSO (Corpus-Based Statistics-Oriented)方式[Su 92a],在最近一次召开的机器翻译理论与技术会议(TMI-92, 1992)中,已被评為综合传统语言学与统计技术的一种最可能的未来趋势。

3. 单向式的系统设计

机器翻译的另一个重要问题,在於传统的机器翻译系统是一种单向式的设计。由於传统的转换式机器翻译是遵循著『分析』、『转换』及『生成』三个步骤一路作下来,使得『转换』及『生成』带有浓厚的原始语言色彩。因此,英中翻译系统的输出通常成了『英文式的中文』,日中翻译系统通常產生的是『日文式的中文』,而非道地的『中文式中文』。换言之,用来產生中文的生成文法与一般用的中文 (分析) 文法并不相同,而是由英文或日文文法套过来的文法。这种输出,自然需要相当的修缮动作,才能达到使用者的期望。為了避免使用这种具有原始语言倾向的目标语生成文法,釜底抽薪的方式,乃是利用原始语言及目标语言两套文法,来担任分析及生成语法,并利用原始语言及目标语言所构成的双语语料库(bilingual corpus)自动学习转换动作及生成动作[Chan 92b]。

4. 忽略语言特徵的鑑别力及强健性

由於许多机器翻译研究人员具有计算机科学的学识背景,而人工智慧又强调知识表达方式 (knowledge representation)的重要,因此,不少机器翻译的研究人员都相信,良好的知识表达方式有助於机器翻译品质的提昇。同样地,许多语言学家也不断寻求较适当的文法型式 (grammar formalism),企图用比较适当的语法理论来表达或解释同一种语言现象。这种作法并非没有好处。但是,严格地说,知识表达方式只跟系统的表达能力(expressive power)有关,而与最重要的歧义解决能力无关。一个看似简单的表达方式,就学理来看,可能与一个复杂的语法理论具有相同的表达能力 (例如,两者可能都可以处理context-free型态的语言);其主要差别通常只在於表达的适切性及剖析的效率 (linguistic felicity, expressiveness, computational effectiveness),而非歧义解决能力。

一般而言,歧义解决能力主要视系统所採用的语言特徵(feature set)、这组语言特徵在实际语料中的行為或机率分佈(probabilistic distribution),及系统所採用的决策模式(decision rules)而定。因此,改善系统绩效可以由几方面来进行。就语言特徵之选取而言,可以利用较有鑑别力的鑑别性特徵(discriminative features),来作决策依据,而不一定是用很容易观察到的特性式特徵(characteristic features)。採用良好的语言特徵及语言模式,有助於让每一种不同的语言行為,在观察空间中,都有个比较突出的机率分佈。如此,较容易判定某类行為应该採取何种特定行动。而良好的决策模式则可降低误判所造成的风险。通常鑑别性的特徵可以由各种特性式特徵加权之后获得,因此,使用具有增强鑑别力及强健性的学习策略,可在使用相同资料的情况下,改善系统的绩效。

然而,一般的机器翻译系统多数採用阶层式的分析方法,词汇分析无法解决的问题即推给语法分析,语法分析无法解决的即推给语意分析,再无法解决的,便寄望於所谓的一般性知识 (real world knowledge, common sense knowledge),较少强调在使用同样的资讯下,如何强化系统的鑑别力 (discrimination power)及强健性 (robustness)。

实际上,一般系统虽然可依词汇、语法、语意等步骤逐一分析。然而,系统分析的深度并非一成不便;有些资料未必有用,有些资料则与其它资料带有相同的讯息,而形成冗赘的资料。这种加深分析层次的作法大致相当於增加系统所用的语言特徵的维度(dimensionality)。依据语音处理及样型识别等类似技术的经验,一味加深及加细系统分析深度,或增加系统据以制定决策的特徵,容易导致系统的知识库过份偏向某些特定知识,使系统对测试用的例句显得相当有效,但却降低了系统对一般输入的整体绩效。

因此,目前新的作法是强调使用有鑑别力的语言特徵及语言模式,利用强健性的自动学习策略来调整系统参数;能在低层次分析中解决的问题,儘量利用提高系统鑑别力及强健性的方式,在低层次分析中加以解决,而不再一味地加深分析的层次。这种作法,不仅使得系统能对可用的语言特徵作最有效的运用,也因不过份使用深层的语言特徵,而减轻了知识抽取的负担[Chia 92, Lin 92]。

5. 设计者与使用者的期望不同,系统改善的方向无法随客户需求变动

前面已经说过,目前研究人员已经比较能认清机器翻译难以达成FAHQMT的事实,故在设计系统时,是以资讯抽取 (informationretrieval)等不需太高翻译品质的应用為目标,系统改善则主要是以增加输出的可读性為主,以期减少译后修缮的工作。不幸的是:(1)要求高品质翻译的使用者还是佔绝大多数,这些使用者的基本要求是翻译结果要能以出版品的型态出现 (publishable),而不只是可以读得通 (readable, understandable);(2)改善输出的可读性,一般是可以减少译后修缮工作。但是,实际的实验显示,两者并非直接相关;有时甚至於还会稍微增加修缮的成本。因為,修缮成本正比於修缮到客户所能接受的成品所需的编辑指令 (editing stroke)个数,而不是无法具体衡量的『可读性』。

要解决这样的问题,首先要有客观的方法,来衡量客户可接受的标準与系统输出的差距,并直接利用这样的差距当作回馈,来调整系统的参数,以达到特定客户所指定的词汇及风格。所谓客户可接受的标準,具体地说,就是客户所提供的翻译范例,或者以前為该特定客户所翻译的完稿稿件。根据这些客户已接受的稿件,以及系统对这些稿件所產生的原始初稿,我们可以很客观地计算出,两者之间的差距到底要用多少个编辑指令才能修正过来,以及需修正部份到底是因何原因而导致错误。如此,即可将『客户的期望』与『系统输出』的差距,用具体的『修缮成本』表示出来,并以此修正系统的行為。

要能实现这种架构,系统本身必需具有调适性 (adaptable)及可控制性 (controllable),而且可以将使用者的需求利用一条回馈的路径併入系统,随使用者的需求调整系统的执行行為,以达到整体的最佳化。因此,机器翻译系统本身必需是一个可参数化的回馈系统 (parameterized feedback control system);系统核心重要的决策模组,如辞汇分析、句法分析、语意分析、转换模组及生成模组,都要能够参数化,才有可能将客户的回馈纳入系统,直接降低可能的修缮成本。

这种参数化的系统,其特性是容易利用系统的参数,以可预期的方式控制系统的执行绩效。而一般规则式系统,基本上很难掌握不同规则之间的互动关系及相互影响,无法预测增删规则对整体绩效可能造成的影响。因此,BehaviorTran 大约在开始研究后的第三年,即开始转向这方面的研究。去 (1992)年,在全世界最大的计算语言学会议COLING-92上,提出参数化的回馈系统架构时,也引起不少学者的兴趣与讨论[Su 92b]。这种融合使用者期望的系统架构,势将在未来的机器翻译发展中,扮演一个重要的角色。

 

上一篇:机器翻译与人工翻译

在线预约,获取专属优惠报价
您的姓名
您的电话
翻译类别
在线咨询
与我们取得联系
电话咨询
免费热线:18038126442
关注微信
返回顶部