翻译公司论语音翻译

日期：2012-07-12 | 阅读：

根据目前国际上研究开发的一些口语翻译实验系统所采用的不同的翻译机制，翻译公司将其划分为三种主要类型[Zong et al., 2002]：传统翻译方法、非传统翻译方法和人机互助的混合翻译方

根据目前国际上研究开发的一些口语翻译实验系统所采用的不同的翻译机制，翻译公司将其划分为三种主要类型[Zong et al., 2002]：传统翻译方法、非传统翻译方法和人机互助的混合翻译方法。

3.1 传统翻译方法

所谓的传统翻译方法主要指如下四种基本的翻译方法：（1）基于规则（rule-based）的语音翻译方法；（2）基于事例（example-based）和模板（template-based）的语音翻译方法；（3）基于中间语义表示的（inter-lingual）语音翻译方法；（4）基于统计模型的（statistical）翻译方法。由于这四种翻译方法是在文本机器翻译中提出来的，并切有的已被广泛地应用于商业化翻译软件和实验系统中，因此，我们将其称之为主流的翻译方法。关于这些方法的优缺点已经有很多论著中给予了评述，这里我们不再赘述。

3.2 非传统翻译方法

所谓的非传统翻译方法是指除上述四种基本的方法以外，近几年来提出和被尝试的其它各种新的翻译策略。尽管这些翻译方法不像传统的翻译方法那样被广泛地承认和采用，但它们毕竟是众多的研究者向着实用、高效的翻译目标逼近的见证，而且其中的许多思想和策略同样值得我们借鉴。我们将这些翻译方法称之为非主流的翻译方法。

1997年Wakita等人曾提出了一种局部抽取可正确翻译成分的语音翻译方法[Wakita et al., 1997]，其基本思想是以基于事例的翻译方法为基础，翻译模块首先对输入语句进行句法和语义解析，然后在解析结果中寻找那些具有一定的长度（词汇达到一定的个数）、结构上符合句法、与事例库中某一例句（或片断）的语义距离小于给定门限的那些片断或语块，最后通过基于事例的翻译方法只翻译那些符合条件的片断或语块。实际上这种方法采用的是一种“回避困难”的权宜之计。我们注意到，这种翻译方法并不是从整个输入语句的全局来进行语块或片断的切分[Furuse et al, 1998]，而只是局部地计算片断与事例库中短语（或片断）的语义距离，这样有可能抽取出的翻译片断与原输入语句的含义并不相符，而且，有时候整个输入语句中抽取不出任何可翻译的片断，整个翻译系统也就无任何输出。另外，这种翻译方法与语义计算密切相关，因此，需要有一部高质量的语义词典和能够真正反映片断之间相似性的语义距离测度模型，而这些对于中文计算来说，往往都是比较困难的。

1999年日本德岛大学（The University of Tokushima）教授任福继博士提出了一种基于超函数的翻译方法（Super-Function Based Machine Translation, SFBMT），这种翻译方法的基本出发点是：在目前机器翻译系统不能做到“信、达、雅”翻译目标的情况下，用户与其对系统翻译正确率和译文可读性等提出不现实的过高要求，还不如提高系统的运行速度、减少系统开销、提高系统可控性和易修改性等性能来得现实。例如，一个以英语为母语的机器翻译系统用户并不会在意系统把“吃药”翻译成“take medicine”还是“eat medicine”。因此，基于这种考虑，任福继教授提出了利用超函数（Supper-Function, SF）建立原语言输入与目标语言输出之间映射关系的实现思路。具体地讲，这种方法不像其它基于分析的机器翻译系统一样对原语言句子进行彻底的句法和语义分析，而是通过构造SF来建立原语言句子模板和目标语言句子模板的对应关系 [Ren, 1999a]。问题的关键是如何获取SF。[Ren, 1999b] 和 [Ren et al., 2000]介绍了一种机器辅助的从双语对照语料中获取SF的基本方法。实际上，这种基于SF的直接翻译方法，在本质上与统计模型和模板方法是完全一直的。

日本ATR-SLT （Spoken Language Translation Laboratories）研究所的Yamamoto等人提出了一种基于输入语句改写的口语翻译模型，称之为Sandglass翻译模型[Yamamoto et al, 2001, 2002；Zong, 2001; 宗，2002b]。这种翻译方法的一种解释是当翻译引擎不能实现输入句子的正确翻译时，让系统的原语言预处理模块自己实现输入句子的自动改写，并不断为翻译引擎提供原来语句另外可能的表达形式。其基本思想是借鉴和模拟人在进行口语翻译时的基本模式。另一种解释是，由于翻译模块能够处理的语言现象往往是有限的，如果系统原语言预处理模块能够生成输入语句的其它多种表达形式，那么这些表达形式中只要有一个落入到系统可以处理的有限的句型集之内，系统就可以得到原输入语句的正确翻译结果。Sandglass翻译模型的直接效果是把复杂的原语言解析任务从翻译模块中分离出来，让原语言本身来表达输入语句的含义，翻译模块可以采用简单的转换方法，例如：模板直接匹配等方法，实现有限集内原语言到目标语言的翻译转换。

实际上，Sandglass口语翻译模型面临许多新的问题和技术难点，而且，人们最容易提出这样一个问题：如果系统能够对原输入语句进行分析和改写，那么，为什么不直接将其翻译呢？

后来，人们提出了基于简化表达式的语音翻译方法[Zong et al., 2000b]等多种方法。总起来说，非传统方法基本上都是在传统方法的基础上进行的改造。

3.3 人机互助的混合翻译方法

人机互助的混合翻译方法是指多种翻译策略并用的多引擎交互式口语翻译方法。目前从事的语音翻译研究都是针对推进式的对话方式（push-to-talk dialogue），即两个持不同语言的说话人之间的对话过程是按每人一句进行的，也就是说当一方说完以后，系统把该说话人的语句翻译完毕并发送给对方，对方听完来自彼端说话人的翻译语音后才开始发音。在这种情况下，翻译人员（翻译器）可以有机会与说话人沟通，在实施翻译之前翻译（器）可以主动地与说话人对话，弄清说话人使用的词汇，确认说话者的意图。我们认为，在这种对话翻译系统中，中间翻译角色必须具备与说话人对话的能力，即翻译者与说话人之间应该是交互式的，而不是单向的。但从目前研究情况来看，除了JANUS系统外，几乎都不是人机交互式的，人们只是在原语言识别和分析技术上下功夫，一厢情愿地希望能够通过改进识别技术和翻译策略来提高系统翻译的正确率和鲁棒性，但实际上这有点儿徒劳无功，因为毕竟人说话是无法控制的，说话人愿意怎么讲就怎么讲，想到哪里就说到哪里，根本不像书面语那样经过深思熟虑，并且有表达符号标记，而且说话人可能随时对前面说过的话进行修正，在这种情况下让系统无论“听懂”还是“听不懂”硬去翻译，根本不给系统提问的机会，这有点儿不合情理，好像翻译器和说话人也都是不负责任的，说话人不管系统是否理解，只管说，系统则不管理解的对与错，只管翻。以这种方式实现的语音翻译系统的正确率和鲁棒性至今没有根本性的改进和提高也似乎是情理之中的事情。

近几年中人们提出了一些交互式翻译的设想[Waibel, 1996; Boitet, 1996; Blanchon, 1996; Seligman, 1997, 1998]，但通过对这些交互式口语翻译系统的分析我们发现，其交互过程都是针如何校对语音识别器的错误结果进行的，这种实现思想的出发点都是认为机器翻译模块只能接受100％正确的输入语句。而实际上这是不现实的，一方面，语音识别器不可能做到无错误识别，尤其说话人在复杂环境下；另一方面，说话人与系统之间的交互过程势必要影响系统的实时性，更重要的是说话人是否愿意使用这样一个繁琐的需要不停地校对错误的用户界面，用户所能够忍受的极限有多大？进一步分析，即使机器翻译模块接收到的输入是完全正确的，系统就一定能够得到正确的输出吗？显然未必。那么，问题就在于系统是否能够真正“理解”说话人的意图，如果系统一旦发现输入语句中存在无法消除的歧义，系统如何与说话人进行交互，向说话人获取系统想要得到的知识。因此，基于这样的考虑我们提出了基于对话管理的交互式语音翻译方法[Zong et al., 2002]，在这个交互式翻译框架下，我们提出了基于填充槽的翻译方法（Slot-based translation）。

译雅馨深圳翻译认为，基于对话管理的交互式口语翻译方法基本上模拟了人的翻译过程，该方法不但可以方便地集成传统翻译方法和非传统翻译方法中的多种翻译策略，而且可以将语音－语音翻译和文本－语音翻译有效地统一起来，有利于推进口语翻译系统的尽早实用化。

3.4 分析方法与统计方法的比较

分析方法与统计方法一直是自然语言处理中采用的两大主流方法，实际上，在我们上面介绍的三种翻译方法中，分析方法与统计方法都是不可缺少的两种基本方法。在过去自然语言处理研究中，尤其是机器翻译研究的几十年中，关于这两种方法的优劣比较和结合策略等问题的争论从来都没有停止过。2002年日本ATR-SLT的Sumita博士介绍，在ATR进行的语音翻译实验中，基于事例的翻译方法的正确率要远远高于基于统计的翻译方法[Sumita, 2002]

上一篇：解析母语负迁移对汉英翻译的重要影响下一篇：翻译任务与标准