機器學習
詞泰科技各種產品中使用了許多最先進的機器學習(Machine Learning)算法。機器學習之所以在文本處理中能夠非常成功的運用的原因在于大量訓練數據里包含了足夠的有規律的模式使得我們可以用它來處理新的未知數據。盡管各種文檔千變萬化,它們內在的模式通常是類似的,所以我們基于機器學習的算法能夠從大量復雜的數據中歸納出有效的規律來對新文檔做準確的處理。
我們的策略是在做每一個細小處理的時候都要考慮語境(context)。這些小的分類決策都要考慮到多種不同的特征,比如:詞匯、短語、語境、結構,已經領域內的知識和文檔之間的統一性。如果在訓練數據中發現了特征的相似模式,那么算法就應該可以對文檔中的概念作出有意義或類似的解釋。因為這種流程有點類似于人的思考過程,所以我們把它叫做文本理解。
對每個特征的小的不同判斷提供了對理解整個文檔的多種可能性。我們算法的強大在于它能把這么多不同的小的模式和規律組合起來以統計的方式對整個文檔做出整體和連貫的理解。統計模型是非常強大的,因為它能讓我們的工程師把各種不同種類的知識結合起來做出最佳的綜合判斷。
機器學習雖不是魔術,但是門藝術,因為它需要很深的專業知識才能把它用的最好,包括如何產生最對口的特征集和知識表達方式。機器學習在自然語言處理里的運用發展的非常迅猛,我們的科研人員和工程師在這個領域的業界和學術界一直保持著廣泛的接觸。