phrase : tongue technics : discipline of physics : metallurgy : calculate glossology : Software > Belt interpret
Contents
统计机器翻译
  最早提出可行的统计机器翻译模型的是IBM 沃森研究院的研究人员。在著名的文章《机器翻译的数学理论》中提出了由五种词到词的统计模型,称为 IBM 模型 1 到 IBM 模型 5。这五种模型均源自信源-信道模型,采用最大似然法估计参数。由于当时(1993年)计算条件的限制,无法实现基于大规模数据训练。其后,由Stephan Vogel提出了基于隐马尔科夫模型的统计模型也受到重视,该模型被用来替代IBM Model 2.
  在此文发表后6年,一批研究人员在约翰·霍普金斯大学的机器翻译夏令营上实现了GIZA软件包。Franz Joseph Och 在随后对该软件进行了优化,加快训练速度。特别是IBM Model 3 到 5的训练。同时他提出了更加复杂的Model 6。Och发布的软件包被命名为GIZA++,直到现在,GIZA++还是绝大部分统计机器翻译系统的基石。针对大规模语料的训练,已有GIZA++的若干并行化版本存在。
  基于词的统计机器翻译的性能却由于建模单元过小而受到限制。因此,许多研究者开始转向基于短语的翻译方法。Franz-Josef Och提出的基于最大熵模型的区分性训练方法使统计机器翻译的性能极大提高,在此后数年,该方法的性能远远领先于其他方法。一年后Och又修改最大熵方法的优化准则,直接针对客观评价标准进行优化,从而诞生了今天广泛采用的最小错误训练方法(Minimum Error Rate Training)。
  另一件促进统计机器翻译进一步发展的重要发明是自动客观评价方法的出现,为翻译结果提供了自动评价的途径,从而避免了繁琐与昂贵的人工评价。最为重要的评价是BLEU评价指标。绝大部分研究者仍然使用BLEU作为评价其研究结果的首要的标准。
  Moses 是目前维护较好的开源机器翻译软件,由爱丁堡大学研究人员组织开发。其发布使得以往繁琐复杂的处理简单化。
百科大全
  jiqi fanyi
  机器翻译
  machine translation
    用计算机把一种自然语言翻译为另一种自然语言,又称自动翻译。被翻译的语言称为源语,译出的语言称为目标语。机器翻译不仅和人工智能研究关系密切,而且还涉及语言学研究(特别是应用语言学研究)。它是有一定代表性的计算机非数值应用研究。机器翻译过程和人翻译有某些类似之处,也要通过查词典、源语分析和目标语综合等几个阶段。机器翻译系统一般包括词典、语法分析、语义分析和转换与综合等4个子系统。
    词典子系统 机器词典是存储在计算机系统内的一部双语或多语大词典,其中对每个源语词不仅指出对应的目标语的译法,而且还给出翻译过程中需要使用的其他一系列信息,例如词类信息、词组信息、语法信息、语义信息和目标语综合信息等。机器词典是机器翻译工作的基础,词典子系统的任务就是在计算机内建立并使用这样一部大词典。在翻译过程开始时,通过自动查找这部机器词典,提供源语句子中每个词的有关信息。
    语法分析子系统 求得源语词汇和词组信息之后,计算机还要对源语句子进行语法分析,求出源语句子的语法结构,即查明句中各词之间的语法关系。通常,这种语法结构用一种倒置的树状图来表示,称为语法树。例如,英语句子“I read a book”,通过翻译系统的语法分析子系统,可得到语法结构描述(见图语法树)。
    语义分析子系统 为了得到正确的译文,不能仅仅进行形式语法分析。例如有些词汇具有多种词义,即所谓多义词;有些句子脱离上、下文的语义就可能有一种以上的不同语法解释,形成多值语法结构。为解决这些多义和多值问题,必须使用语义手段进行一定的语义分析。在机器翻译研究中,语义分析是一个比较薄弱的环节,还需要结合人工智能和语言理解的研究进行深入的探讨。
    转换和综合子系统 根据求得的词汇信息、语法信息和语义信息,计算机进行翻译的最后一个阶段是目标语译文的综合。译文的产生考虑源语与目标语之间在词汇和语法等方面的差异,找出对应的规则,进行必要的词汇转换和语法结构转换,综合出合乎目标语语言规范的译文。转换和综合子系统是翻译过程的主要完成者,其他子系统都是在为机器翻译提供必要的信息准备。
    特点 机器翻译的特点是速度快,计算机能在较短的时间内“不知疲倦地”完成大量的文字翻译工作;但是机器翻译质量尚不理想,译文比较生硬呆板,有些译句不通顺,甚至译错。机器翻译只适用于翻译语法结构比较严谨、词汇含义比较明确的文献,例如科技文献。为保证机器翻译具有一定的译文质量,往往还需要人从旁协助,进行所谓的“译前加工”(源语句子输入计算机时,对机器难于处理的某些语言现象由人先提供一定的注释和解法)或“译后编辑”(对计算机翻译出来的译文由人再去校对和润色),甚至要求建立人机合作式的机器翻译系统,对计算机翻译过程中出现的疑难问题,随时由人提供解答。
     (耿立大)
    
Related Phrases
artistArtlessness tonguehistorical figuresthe Western Jin Dynasty
Containing Phrases
Belt interpret Fair PriceHuajian Belt interpret Companywith Citation Weibende Belt interpret
Knowledge for the sake of Ben zhi Belt interpretBase knowledge of Belt interpret