自動機器翻譯
語言的障礙始終是不同種族不同國家人民之間的一道巨大的鴻溝。在這個信息爆炸的時代,伴隨著互聯網上信息量的巨大增長,讓電腦為我們自動翻譯不同語言的文字具有相當重要的意義和價值。從本質上來講,讓電腦把一段文字從一種語言翻譯到另一種語言是一個字符串的轉換過程,暨把源語言(待翻譯語言)的一段字符轉換成目標語言的一段字符,同時保持意思不變。從另一個角度看也可把翻譯過程看成一個密碼解密的過程,也就是信息被源語言用某種編碼加密了,我們要通過某種規則或算法把它解密成我們看得懂的形式。
這個表面上看似簡單的過程背后是一個非常復雜的認知活動,要做到準確的翻譯理論上需要翻譯算法能夠完全的理解原文的意思。為了完整準確的解碼源語言文字中的意思,電腦的翻譯算法要對文字所有的特征進行分析和理解,包括對源語言和目標語言的詞匯、句法、語法、語義、習語等的深層次的知識還要對雙方的文化有深入的掌握和對世界的常識有一定的理解。
機器翻譯的難度主要在以下幾個方面:1.詞匯的一次多義。比如英文bank可以翻譯成銀行也可以翻譯成河岸,而在具體的翻譯過程中選擇哪一個翻譯要看上下文和整個的語境。2.語法的歧義。一種語言里的某種句法表達在另外一種語言可能有多種不同的表現形式,翻譯算法同樣需要根據句法里包含的詞匯以及相關的語境來做出正確的翻譯選擇。3.語序的變化。典型的例子是語言的形容詞一般在名詞前面而法語卻相反,所以翻譯詞匯的排列順序對翻譯的質量也非常重要。很多情況下,盡管所有的單個詞匯都做到了正確的翻譯,如果它們沒有按照合適的順序組合起來,其得到的翻譯結果的含義會和原文有很大出入。4.其他各種問題。比如OOV(Out-Of-Vocabulary)詞匯的翻譯,人名英譯(Transliteration)的問題,等等。
為了克服機器翻譯中的這些難題,人們研發了不少機器翻譯系統。其主要的方法可以歸納為這么幾種:1.基于詞典的機器翻譯。這種基本依賴于一個詞典逐字的進行翻譯。這種方法的優點在于簡單,但是一旦遇到一詞多義的現象,由于沒有考慮語境,它往往只能做一些簡單的處理。同時它也不能很好的分析句子的語法和詞匯順序的轉換,所以這種系統的翻譯準確性是比較差的。2.基于規則的系統。這種系統通過機器翻譯算法套用語言學家和翻譯家手工編寫的翻譯規則實現。這種方法由于加入和語言學家的很多相關專業知識,其準確度要高于基于詞典的逐字翻譯,但它的缺點在于開發成本和時間過高。同時由于自然語言中廣泛存在的歧義現象,語言學家所描寫的規則也往往互相沖突,很難徹底解決歧義問題。3.基于例子的機器翻譯。這種系統保留一個包含很多互為翻譯句隊的數據庫,針對輸入待翻譯的句子它從數據庫里面找到一個和它相似度最高的句子并采用它的翻譯作為輸出。這種系統在處理數據庫之外的句子,只能做到近似的翻譯,準確性不高,但由于不需要手工描寫翻譯規則,故開發成本比較低廉。4.基于統計的機器翻譯。這種方法通過從雙語平行語料里訓練出來的統計模型來產生翻譯。只要擁有充足的訓練語料,這種方法是效率最高和準確度最高的。
![]() |
![]() |
詞泰科技的SmartTran®系統是一種基于統計的機器翻譯系統。它通過強大的文本挖掘技術從海量文本中挖掘出大量的雙語訓練語料,并通過機器學習算法從中訓練高精度的統計翻譯模型,如上圖所示。同時,它還可以比較方便的擴展到其他的語言對。
相關產品
SmartTran®
高性能的自動 機器翻譯 系統能夠對任意長度的中英文文本即時自動互譯,準確度達到世界先進水平。
ichacha.net
查查在線詞典 是我們提供的多語種在線詞匯翻譯服務。通過使用大規模的文本數據挖掘和處理技術,我們詞典的詞匯量遠超其他同類詞典,同時用戶數目和網站流量也名列前茅。
更多信息
欲了解詞泰科技的信息檢索與網絡搜索技術如何集成到您的系統來幫助您的應用,請與我們聯系。