10年专业笔译品牌
10年数万场口译
专业留学移民翻译
多语言网站翻译
89种语言服务
据译雅馨翻译公司了解到,话语翻译技术研究是国家重点基础研究发展规划项目(973项目)“图象、语音、自然语言理解与知识挖掘”的子课题之一(编号:G1998030504-01)。在该项目的资助下,课题组在数据资源建设、翻译方法研究、实验系统开发和国际合作等方面均确立若干主要的研究成果。
1 数据资源建设
大规模真实语料和数据是口语信息处理的基础。但国内真实口语语料资源十分缺乏,大规模的双语对照口语语料尤其匮乏。因此,我们把基础语料资源的建设作为一项首要的工作,有针对性地进行了口语语料、多语对照语料的收集和处理,建立了一个现场收录的自然口语语料库及一个通用的口语语料库,并建立了多个大规模多语口语对照语料库及专用语料库。主要包括:
(1)收集旅游咨询真实场景下的口语对话约90段,3000个对自然口语句,并在此基础上对全部口语语料进行了标注和分析。
(2)与国际语音翻译联盟(C-STAR)成员联合收集旅行过程中最常用的中-英-日三语对照句子各2万多句,其中每个中文语句又由3个意义相近的句子构成,约7万句的规模。另外,与C-STAR成员联合收集日常多领域多语言口语对照语句(每种语言)约20万句。
(3)与国外有关研究机构联合收录中国人名地名及机构名约300多万个,经过分析处理后,用于识别人名地名、及机构名称。
2 基于多策略的口语翻译方法
在口语翻译方法研究中,我们先后提出了基于灵活模板的汉英口语直接翻译方法、交互式口语翻译方法,以及多翻译引擎的串行工作策略等。这些新方法在我们的实验系统中均取得了初步的成功。
基于灵活模板的直接翻译方法是多引擎口语翻译系统中采用的基本翻译策略,使翻译机制与语言保持较好的相对独立性,便于实现语言扩充和系统向多领域移植。我们还提出了灵活的“柔性”翻译模板匹配策略,既允许模板中出现关键词和词性变量,也允许多个候选关键词以逻辑“或”的形式出现,还允许跳过任意词汇,并且语义特征可作为限制条件,目标语言生成也采用了灵活的处理方式。这个策略有效地克服了一般基于模板的翻译方法对于翻译句型缺乏灵活性、翻译结果过于死板的弱点。测试结果表明基于模板的翻译器可以对完全正确的文本输入的语句得到70%以上的正确翻译结果,对于语音识别模块给出的前10个候选结果,可以获得68%的翻译正确率。
根据前面的分析,目前的语音翻译实验系统主要存在鲁棒性差、翻译正确率低的问题,其主要原因一方面源自于语音识别器有限的正确率和鲁棒性,另一方面翻译系统缺乏人机交互的能力,因此,我们提出了基于对话管理的交互式语音翻译方法。在这种翻译方法中,综合了基于模板的翻译方法、基于中间语义表示(IF)的翻译方法、基于统计的翻译方法和基于对话管理引导的槽填充翻译模式等多种翻译方法[Zong, 2002a],该方法在理论上体现了人充当翻译角色时的基本工作方式和思维过程。
3 实验系统开发
基于上述工作基础,我们先后开发了多个口语翻译实验系统,其中包括上面提到的LodeStar中日、中英语音翻译实验系统,基于C-STAR III翻译平台的中英双向电话语音翻译实验系统和与韩国电子通信研究院(ETRI)联合开发的基于C-STAR III翻译框架的中韩双向电话语音翻译实验系统。中韩双向电话语音翻译实验系统建立在旅馆预定领域,可识别韩语词汇约16000个,中文词汇约12000个,系统可以约2到3倍的实时速度运行。该系统于2002年3月在C-STAR III国际口语翻译联盟首次在我国召开的C-STAR研讨会上成功地演示。
值得提及的是,目前自动化所模式识别国家重点实验室正与北京首都信息集团公司等多家单位联合开展面向2008年北京奥运会的多语言网络信息服务系统的联合攻关研究,其中,语音翻译是重要的技术模块之一。
4 国际合作
在本项目的资助下,口语翻译研究在国际合作方面取得了重要进展,自动化所作为核心成员参与了国际七国语言电话语音自然口语互译合作计划,与国际上本研究领域最具实力和水平的大学和研究所共同合作。同时与日本ATR、韩国ETRI建立了长期的合作关系,与日本松下公司实现了富有成效的合作开发联合实验;与国际著名的法国机器翻译研究所(GETA, IMAG)建立了良好的合作关系,双方联合开展中法口语翻译技术的研究,双方曾多次互派访问学者,并就双边联合培养硕士生、博士生一事达成协议;与Nokia中国研发中心建立了良好的合作关系,双方就口语翻译中的若干基础问题,包括语料收集,语音识别等方面,联合攻关,并在已有的工作基础上联合参与了欧共体项目“面向多语种口语翻译的词汇处理(LC-STAR)”