機器翻譯-求介紹比較好用的機器翻譯系統?
本篇文章2908字,讀完約7分鐘
科技的進步使很多產業都實現了機械化,相信大家對自動化設備多多少少都了解一下,今天自動化設備網小編在這里為大家介紹機器翻譯的一些基礎知識,希望能給大家帶來一些幫助。
建議你試一下新譯科技機器翻譯,一直在用,很方便,其次應用領域也很廣泛,比如zhuan利、法律、會議報告、電商、醫學、航天、簡歷書信、軍事、議會、旅游等領域的高品質翻譯。機器翻譯英語。
機器翻譯的基于統計同聲翻譯機器。
一般的基于語料庫(Corpus-Based)的機譯系統就是基于統計的機器翻譯,因為這一領域異軍突起,統計就是統計平行語料,由此衍生出許多不同的統計模型。
不同于基于規則的機譯系統由詞典和語法規則庫構成翻譯知識庫,基于語料庫的機譯系統是以語料的應用為核心,由經過劃分并具有標注的語料庫構成知識庫。基于語料庫的方法可以分為基于統計()的方法和基于實例()的方法。 基于統計的機器翻譯 基于統計的機器翻譯方法把機器翻譯看成是一個信息傳輸的過程,用一種信道模型對機器翻譯進行解釋。這種思想認為,源語言句子到目標語言句子的翻譯是一個概率問題,任何一個目標語言句子都有可能是任何一個源語言句子的譯文,只是概率不同,機器翻譯的任務就是找到概率最大的句子。具體方法是將翻譯看做對原文通過模型轉換為譯文的解碼過程。因此統計機器翻譯又可以分為以下幾個問題:模型問題、訓練問題、解碼問題。所謂模型問題,就是為機器翻譯建立概率模型,也就是要定義源語言句子到目標語言句子的翻譯概率的計算方法。而訓練問題,是要利用語料庫來得到這個模型的所有參數。所謂解碼問題,則是在已知模型和參數的基礎上,對于任何一個輸入的源語言句子,去查找概率最大的譯文。
實際上, 用統計學方法解決機器翻譯問題的想法并非是 20 世紀 90 年代的全新思想,1949 年W. Weaver 在那個機器翻譯備忘錄就已經提出使用這種方法,只是由于喬姆斯基(N.Chomsky) 等人對計的批判,這種方法很快就被放棄了。批判的理由主要是一點:語言是無限的,基于經驗主義的統計描述無法滿足語言的實際要求。機器翻譯
另外,限于當時的計算機速度,統計的價值也無從談起計算機在速度和容量上都有了很大的提高。如今,小型工作站或個人電腦可以完成大型電腦過去所做的工作。此外,統計方法在語音識別、字符識別、詞典編纂等領域的成功應用也表明了該方法在自動語言處理領域的有效性。
統計機器翻譯方法的數學模型是由IBM的研究人員提出的。在著名的《機器翻譯數學理論》一文中,提出了一個從五個詞到五個詞的統計模型,稱之為IBM模型1到IBM模型5、這五種模型都是從源信道模型出發,采用極大似然法進行參數估計。由于當時(1993年)計算條件的限制,無法實現大規模的基于數據的訓練。此后,Stephan-Vogel提出的基于隱馬爾可夫模型的統計模型也受到重視,并被用來代替IBM模型2、在本研究中,統計模型只考慮詞與詞之間的線性關系,而不考慮句子結構。當兩種語言的詞序完全不同時,這可能不太有效。在考慮語言模型和翻譯模型時,如果考慮句法結構或語義結構,應該會得到更好的結果。怎么檢測機器翻譯。
機器翻譯:機器翻譯可以替代人工翻譯了嗎?
本文發表6年后,一群研究人員在約翰霍普金斯大學機器翻譯夏令營中實現了Giza軟件包。弗朗茲·約瑟夫·奧赫后來優化了軟件,以加快訓練速度。特別是IBM model 3到5培訓。同時,他提出了一個更復雜的模型6、och發布的軟件包名為Giza 。到目前為止,Giza 是大多數統計機器翻譯系統的基石。對于大規模的語料庫訓練,Giza 有幾個并行版本。
但是,由于建模單元太小,基于詞的統計機器翻譯的性能受到限制。因此,許多研究者轉向基于短語的翻譯。Franz-Josef-och基于最大熵模型的判別訓練方法大大提高了統計機器翻譯的性能。在接下來的幾年里,這種方法的性能遠遠領先于其他方法。一年后Och又修改最大熵方法的優化準則,直接針對客觀評價標準進行優化,從而誕生了今天廣泛采用的最小錯誤訓練方法(Minimum Error Rate Training)。
另一件促進統計機器翻譯進一步發展的重要發明是自動客觀評價方法的出現,為翻譯結果提供了自動評價的途徑,從而避免了繁瑣與昂貴的人工評價。最為重要的評價是BLEU評價指標。絕大部分研究者仍然使用BLEU作為評價其研究結果的首要的標準。機器英文。
Moses 是維護較好的開源機器翻譯軟件,由愛丁堡大學研究人員組織開發。其發布使得以往繁瑣復雜的處理簡單化。機器翻譯模型。
Google 的在線翻譯已為人熟知,其背后的技術即為基于統計的機器翻譯方法,基本運行原理是通過搜索大量的雙語網頁內容,將其作為語料庫,然后由計算機自動選取最為常見的詞與詞的對應關系,最后給出翻譯結果。不可否認,Google 采用的技術是先進的,但它還是經常鬧出各種“翻譯笑話” 。其原因在于:基于統計的方法需要大規模雙語語料,翻譯模型、語言模型參數的準確性直接依賴于語料的多少,而翻譯質量的高低主要取決于概率模型的好壞和語料庫的覆蓋能力。基于統計的方法雖然不需要依賴大量知識,直接靠統計結果進行歧義消解處理和譯文選擇,避開了語言理解的諸多難題,但語料的選擇和處理工程量巨大。因此通用領域的機器翻譯系統很少以統計方法為主。 基于實例的機器翻譯 與統計方法相同,基于實例的機器翻譯方法也是一種基于語料庫的方法,其基本思想由日本著名的機器翻譯專家長尾真提出,他研究了外語初學者的基本模式,發現初學外語的人總是先記住最基本的英語句子和對應的日語句子,而后做替換練習。參照這個學習過程,他提出了基于實例的機器翻譯思想,即不經過深層分析,僅僅通過已有的經驗知識,通過類比原理進行翻譯。其翻譯過程是首先將源語言正確分解為句子,再分解為短語碎片,接著通過類比的方法把這些短語碎片譯成目標語言短語,最后把這些短語合并成長句。對于實例方法的系統而言,其主要知識源就是雙語對照的實例庫,不需要什么字典、語法規則庫之類的東西,核心的問題就是通過最大限度的統計,得出雙語對照實例庫.機器翻譯需要的技術。
基于實例的機器翻譯對相同或相似文本的翻譯有著非常重要的影響。隨著示例數據庫規模的增大,其效果越來越顯著。對于案例庫中已有的文本,可以直接得到高質量的翻譯結果。對于實例庫中與實例非常相似的文本,可以通過類比推理構造近似翻譯結果,并對翻譯結果稍加修改。
這種方法剛推出時就受到許多人的高度贊揚。但過了一段時間,問題就出現了。由于該方法需要大量的語料庫作為支撐,實際對語言的需求很大。然而,受語料庫規模的限制,基于實例的機器翻譯很難達到很高的匹配率,只有局限于狹窄的或專業的領域,翻譯效果才能達到要求。迄今為止,很少有機器翻譯系統采用純基于案例的方法。通常,基于實例的機器翻譯方法被用作多翻譯引擎之一,以提高翻譯的準確性。
以上就是關于機器翻譯:求介紹比較好用的機器翻譯系統?的內容,如果您對自動化設備有疑問或者有購買意向,可以直接向我們提問以及購買,自動化設備網小編期待您的來電咨詢。
標題:機器翻譯-求介紹比較好用的機器翻譯系統?? ??地址:http://www.ggp9.com/article/532.html