ЭТАП—3机器翻译系统研究
[摘要]通过对ЭТАП-3机器翻译系统的简要概述,重点对相关模块、特征及句法语义处理方法进行分析,目的在于借鉴该机器翻译系统先进的句法语义处理方法,尝试建立可用于俄汉机器翻译系统的应用模块,从而改善现有俄汉机器翻译系统的性能。
[关键词]机器翻译;ЭТАП-3机器翻译系统;句法语义
[中图分类号]TP3912[文献标识码]A [文章编号]2095-0292(2013)05-0110-03
一、引言
自20世纪30年代,法国科学家阿尔楚尼提出使用机器来进行语言翻译这一设想开始,机器翻译呈现了曲折的发展历程,无论是在国外还是国内都历经了几次兴衰。直到20世纪70年代末,机器翻译终于进入了相对繁荣时期,使这项研究走向了实用化,出现了一大批实用的机器翻译系统。由俄罗斯信息传输问题研究所研制的ЭТАП-3①机器翻译系统便是其中的代表。
ЭТАП-3机器翻译系统是一个多功能自然语言文本处理系统,该系统由俄罗斯科学院院士、著名语言学家阿普列相领导的信息传输问题研究所下属的计算语言学实验室在俄裔科学家梅里丘克的《意思·文本》语言学理论基础上设计而成。从最开始的ЭТАП-1机器翻译系统可实现法语—俄语单向翻译,ЭТАП-2机器翻译系统可实现英语—俄语单向翻译,到现在的ЭТАП-3机器翻译系统阶段,逐步改进日臻完善,并已经成功与联合国开发的通用网络语言UNL(Universal Networking Language)接口。目前,该机器翻译系统主要应用于五对语言的翻译工作,即英—俄、俄—英、俄—法、俄—韩、俄—德,主要侧重于前两对语言的双向翻译。
ЭТАП-3机器翻译系统是一个非商业化的机器翻译系统,以自然语言研究为主要目的。重点是将自然语言在计算机上加以模式化,这种模式依赖于一个基于规则的深层次的语法分析和完备的语言知识。在ЭТАП-3机器翻译系统的所有应用软件中,他们都使用自己独创的三值逻辑系统和经过详细刻画的形式化描述语言FORET(易绵竹,2006: 207)。该系统区别于其他基于转换的机器翻译系统的地方在于,它不是局限于简单的句法转换阶段而是已经进入到语义转换阶段。本文将重点对ЭТАП-3机器翻译系统句法语义处理研究方面做深入探讨。
二、ЭТАП-3机器翻译系统的简要概述
目前,从世界范围来看,机器翻译系统可以分为以下几种类型:基于规则的机器翻译系统,基于语料库的机器翻译系统,基于实例的机器翻译系统,语音机器翻译系统和多引擎机器翻译系统(冯志伟,2004:35)。目前,机器翻译系统的绝大部分都是基于规则的机器翻译系统,在该类型的机器翻译系统中,较好的还是基于转换的机器翻译系统。ЭТАП-3机器翻译系统便是其中的代表之一。
ЭТАП-3机器翻译系统主要有以下七种模块:
(1) 高质量的机器翻译系统;(2) 基于通用网络语言(UNL)的俄语文本生成模块;(3) 与SQL型数据库的自然语言接口;(4) 同义转换模块;
(5) 句法纠错模块;(6) 计算机辅助语言学习工具;(7) 文本语料库工作台。
在ЭТАП-3机器翻译系统中,最重要的模块就是对于英—俄、俄—英、俄—法、俄—韩、俄—德等五对语言的高质量机器翻译系统,主要应用于前两种语言的双向翻译。其中,俄语和英语这两种语言的搭配词典中各有50000个词条,每个词条下还配备大量句法语义等方面的相关信息,主要用于科技材料、计算机和电子技术、政治经济等相关文本的翻译工作,同时也可以翻译基本日常生活方面的相关内容。除此之外,该系统的研制者还研制了一部具有100000词条的俄语词法词典和一部60000词条的英语词法词典,在这两本词典中包含详尽的词法信息、句法信息和互译信息等内容。当文本以句段为单位进行翻译时,机器翻译系统中的句法分析已经上升为语义分析的阶段,通过对源语言的形态分析、句法分析,再进一步进行语义分析,得出相应的语义关系,进而再得到完整的目标语言。
在与SQL型数据库的自然语言接口这一模块中,主要的功能是用结构化查询语言SQL来表达自由形式的自然语言,实现两种语言的相互转换。在同义转换模块中,主要用来获取各种意义近乎相同的俄语或者其他语言的句子,该模块的主要理论思想来源于《意思·文本》语言学理论中的“词汇函项”这一概念。在句法纠错模块中,主要用于对俄语文本的处理工作,目的在于查找在文本中的词汇搭配、接格以及语法一致性等方面出现的各类错误,并进行相应的修改。计算机辅助语言学习工具这一模块属于一个独立的应用软件,主要可用作对外俄语、英语以及德语的计算机辅助教学工作。该软件主要为那些有一定的外语水平,又想提高自己词汇量的外语学习者提供帮助,有助于他们掌握更多的词汇,以便于今后更好地学习该门语言。在文本语料库工作台这一模块中,主要运用ЭТАП-3系统中的词典和词法句法分析部分,用以构造初步的俄语文本语料库。
ЭТАП-3机器翻译系统的主要模块主要特征概括为(http://www.iitp.ru/ru/researchlabs/922.htm):多功能性、多语言性、多层级性、多种翻译方案、最大限度地利用语言学资源。目前,在ЭТАП-3机器翻译系统的所有模块中,对自然语言的处理均采用的是基于规则的算法,它对自然语言进行深层次的句法结构分析,在这一层次上实现从源语言到目标语言的转化,这也显示出它与其他自然语言处理系统的不同特点。ЭТАП-3系统采用的是依存关系句法树来表现句子的结构,而不是句子结构的简单拼接,并且将词汇资料看得和语法信息一样重要,在词典的条目中新增加了词汇的句法特征和语义特征,一个词可以从200多个句法特征中进行选择,而语义特征则用来检查词汇在句子中的语义一致性。
为了支持ЭТАП-3机器翻译系统多语言的环境,它将记录在词典中的信息与记录在语法中信息同等看待,一个语言组配词典中包含大量信息,例如:词形、句法特征、语义特征、次范畴化特征、词汇的支配模式、句法和语法规则、生成规则,以及其他各种规则和数据。在给定的源语言和另一个目标语言中,每一个词条都会建立相应的对应关系,从而进行两种语言的双向翻译。
三、ЭТАП-3机器翻译系统句法语义处理研究
当今机器翻译系统的研究在世界各国都取得相当可喜的成果,归结起来大致可以将机器系统分为三代:第一代机器翻译系统是逐词、逐句互译的直接翻译阶段,由于没有句子间的意义联系分析,所以这种系统过于简单;第二代机器翻译系统是以句子为单位,进行句句之间的翻译系统,将句法分析应用其中,达到句法转换的层次;第三代机器翻译系统则是翻译的单位从词、词组、句子上升到句段以及篇章上,并且将句法分析同语义分析相结合,来保障翻译的准确度。但是,由于各语言之间属于不同的语系,源语言之间的表层特征在句法分析后还是有很大差别,在转换为目标语言后还是会出现翻译上的误差和不知所云的情况,所以这就需要将源语言的分析提高到语义分析的层面,通过深层次的句法语义分析,用以提高文本翻译的准确度,避免歧义。但语义分析要比句法分析困难得多,在当前的翻译系统中还不是很完善。鉴于以上原因,在ЭТАП-3机器翻译系统中,设计者着重加强该方面的研究设计,使得该系统在句法语义处理方面取得了很大的突破。
解决语言的多样性问题在文本的自动处理中一直处于首要位置,语言单位的模糊不清对于文本的自动分析来说也是最困难的问题之一,机器翻译系统无论如何仔细地研究语法和词典部分,系统的分析模块还是会在不同的阶段需要面临文本材料在词法、句法还有语义上不同的表现形式,我们在处理一些同音同形词具有多义性的时候,特别是一些没有界限含糊不清的变体的时候,还是会遇到一定的困难。其中有一部分原因可能是有些表现形式没有涵盖在系统规则中的语法和词汇信息里,这就需要我们在日后的系统完善中尽力克服。另外,还可能是因为其中某些表现形式是我们主观臆造的,人类有时并不使用刻板的语言知识来分析文本,在很大程度上人们都根据自己的常识以及平时语言能力的习惯和积累来判断,但是对于计算机系统来说,有关生活方面的常识和对于上下文的理解有些可能还做不到,这在机器系统进行分析的时候就会造成歧义或不理解的情况。这就说明句子的语义分析程度在计算机语言学中实现还远远不够,因此,需要补充一些有效的信息用以消除句子的歧义。
在ЭТАП-3机器翻译系统中,不存在单一的用于消除歧义的处理阶段,该机器翻译系统能够有效地消除翻译中的歧义部分都要归功于它强大的语言知识,当句子翻译遇到歧义时,它会给出几种不同的答案,通常是句法结构最为接近的或者是点击率最高的。例如:(1)不同语法属性的词汇意义;(2)不同句法属性的词汇意义;(3)不同句法属性的语法意义;(4)相同词义的不同翻译。当遇到这些情况时,若想得到相应可能的翻译文本,系统会做出一定的选择,记住那些难以消除的歧义部分,给出适用的词汇和句法结构,以便于更好地进行文本的翻译。
为了更准确地进行文本翻译,该系统研制出一种基于规则和统计结合的方法来分析文本,同时在语言的处理过程中,使用一个句法分析的综合算法,用来更好地解决语言的多义性,在实验过程中试图切实贯彻这一战略,特别是提出了使用双语语料库的统计方法来优化选择翻译等值的短语,并开发出一个基于统计的优先选择系统。
ЭТАП-3机器翻译系统的文本分析是以句子为单位,包括形态分析、句法分析和语义分析。与其他大部分机器翻译系统采用直接关系成分结构不同,在ЭТАП-3机器翻译系统中,使用的是依存关系句法树来表达句子的结构。该机器翻译系统的形态分析是在没有任何上下文的情况下进行的。在句法分析阶段要根据上下文解决词汇和语法中的同音同形词。通过句法依存关系树对源语言句子进行分析,句子中的每个词根据规则中句法关系一一对应。在这个阶段进行词汇和语法的句法分析后消除歧义,从而解决句法语义分析的相关问题。
在过去的几年间,俄罗斯科学院信息问题研究所还开发出俄语文本的句法语料库和专门分析句法关系的统计模块,文本中的每一个句子无论有怎样的形态变化,在依存关系句法树中都会提供相应的句法分析。由于文本的语料库是半自动化的,每一个句子都要经过ЭТАП-3机器翻译系统的句法分析,从而获得必要的检查和修正,这样生成出来的文本才能是高质量的。为方便起见,使用一种特殊的软件系统,由文本拆分模块和图形结构程序构成,这样译者可以根据依存关系句法树中的相关信息轻松快速地修改翻译对象。整个语料库是在XML(可扩展标记语言)的基础上研制的,它能够很好地与国际公认的标准标记语言兼容,并提供一个与其他应用程序的接口。目前,该语料库有超过12000个句子和18000个词可以使用。
四、结语
目前,ЭТАП系列机器翻译系统已经由最初的ЭТАП-1发展到现在的ЭТАП-3,该系统是将梅里丘克的《意思·文本》语言学理论应用于实践的典型代表,该系统在向我们提供一种科学理论的同时,也向我们展示了一种科学的研究方法和手段,它丰富了我们的学术思想,也开拓了我们思考的空间。对于研究俄汉机器翻译相关问题的我们而言,在借鉴现有俄汉机器翻译系统的前提下,结合俄汉语的语言特征,必将在改善现有机器翻译系统性能的工作中起到积极的作用。
[参考文献]
[1]易绵竹工程语言学[M]上海:上海外语教育出版社,2006
[2]冯志伟机器翻译研究[M]中国对外翻译出版公司,2004
[3]易绵竹,等一种与UNL接口的机器翻译系统 ETAP-3概要[C]//机器翻译研究展——2002年全国机器翻译研讨会论文集,2002
[4]张家骅俄罗斯当代语义学[M]北京:商务印书馆,2003
版权声明:
1.十号范文网的资料来自互联网以及用户的投稿,用于非商业性学习目的免费阅览。
2.《ЭТАП—3机器翻译系统研究》一文的著作权归原作者所有,仅供学习参考,转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益,请联系我们,我们将会及时删除。
本栏目阅读排行
栏目最新
- 1在农民收入调查工作动员培训会上讲话
- 22024年领导干部政治素质自评材料(完整)
- 3公司党委党建工作总结报告【完整版】
- 42024年主题教育党建调研开展情况总结
- 52024年度区妇联关于党建工作述职报告(完整)
- 6关于加强企业人才队伍建设调研与思考(完整文档)
- 72024县党员干部抓基层党建工作述职报告
- 8第二批主题教育研讨发言:时刻“以民为本”,听“实言实语”,办实事好事
- 92024关于党员干部法治信仰情况调研报告(2024年)
- 10局网络安全工作责任制落实自查报告(全文)
- 11XX国企分管领导关于党建设引领企业高质量发展研讨发言(范文推荐)
- 122024年第二批主题教育专题读书班研讨发言提纲(6)【完整版】