google翻譯VIP版本?MIT科學家開發機器翻譯新演算法,專為破譯消失的古語言


大資料文摘授權轉載自學術頭條

作者:吳婷婷

語言是文化的有機組成部分,也是文化的載體,世界文明的多樣性在很大程度上表現為世界語言的多樣性,而在 21 世紀的今天,語言學家們顯然已經不滿足于傳統的、對已知語言的研究。相反,許多科學家開始利用計算機技術,去探索已經消失的、幾乎成為謎底的滅絕古老語言。

近日,麻省理工學院計算機科學與人工智能實驗室(Computer Science and Artificial Intelligence Laboratory 簡稱 CSAIL)的研究人員就開發出一種計算機演算法,旨在幫助語言學家破譯歷史上已消失的語言,

無法“google翻譯”的古老語言

如今,世界上現存約有 7100 種語言,然而,古時存在的大多數語言都已不再使用,幾近滅絕。數十種已滅絕語言也被認為是“未破譯”的語言,也就是說,我們對它們的語法(grammar)、詞匯(vocabulary)或句法(syntax)了解不足,也無法理解其文本的意思。


圖 | 世界語言分布地圖 2018

而研究這些“未破譯”的語言,不僅僅是出于學術上的好奇心,還是因為,不理解語言,我們就會錯過與講這些語言的人有關的一整套知識體系。不幸的是,大多數滅絕語言的相關記錄極少,因此,科學家無法使用google翻譯之類的機器翻譯工具或AI演算法來對其進行解密。

而傳統的研究方法是,找出目標語言的“相關”語言來作比較研究,例如同一語系或相似度較高的現存語言,然而,有些語言并沒有對應的、已被深入研究過的“相關”語言,并且它們通常缺少諸如空格和標點符號之類的傳統分隔符(想像一下,要解密出用這種語言寫出的文字該有多么令人頭禿)。

但是,CSAIL 的研究人員發明的新系統,已被證明能夠自動破譯消失的語言,且無需對其與其他語言的關系有深入的了解,他們還表明,該系統自身就可以確定語言之間的關系,并可以用它來證實最近的一項表明 Iberian 語言實際上與 Basque 語言無關的學術研究。

語言破譯:從文本到矢量的轉變

此研究由 MIT 教授 Regina Barzilay 牽頭,依賴于基于歷史語言學(historical linguistics)見解的幾項原則,其中一條原則是,一種給定的語言很少會直接添加或洗掉整個音節,但是很可能會發生某些近似發音的替換。比如,母語中帶有“ p”發音的單詞可能會在其后代演變中變為“ b”,但是由于明顯的發音差異,變為“ k”的可能性則較小,

通過整合這些原則和其他語言學約束,Barzilay 等人的新演算法學習將語言發音嵌入多維向量空間,在該多維空間中,相應矢量之間的距離反映了不同發音的差異,這種設計使他們能夠捕獲語言變化的相關特征,并將這些特征表達為計算約束(computational constraints)。

因此,它可以評估兩種語言之間的相似度,實際上,當對已知語言進行測驗時,它甚至可以準確地識別出該語言屬于哪個語系(language families),例如英語、德語同屬于日耳曼語系。

不僅如此,演算法生成的模型可以將古語言中的單詞進行細分,并將其一一映射到“相關”語言中的對應單詞上去,研究團隊的最終目標是使該系統僅僅使用幾千個單詞,就能夠破譯數十年來語言學家們都無法理解的古語言,

機器翻譯相關研究

實際上,這并非 MIT 首個使用計算機技術破譯已消失語言的研究。

早在 2010 年,Barzilay 就和其他合作者一起,開發出一個新的計算機演算法,該演算法在幾個小時內就破解了古老的猶太語言烏加里特語(Ugaritic)。


除了幫助破譯“神秘的”八種左右古老語言外,這項工作還可以擴大自動翻譯系統可以處理的語言數量,例如目前,google翻譯支持 103 種語言,而破譯系統中使用的技術可以幫助其為數千種語言構建詞典,

去年,Barzilay 等人也發表過一篇論文,文中使用改進的計算機演算法破譯了線形文字 B(Linear B,出現在西元前 1400 年左右)。他們說,“我們的翻譯腳本能夠以 67.3%的準確率將線性文字 B 的同源詞轉換成對應的希臘語。據我們所知,該試驗是自動解讀線性文字 B 的第一次嘗試。”


在未來的工作中,該團隊希望擴展到將文本與已知語言的相關單詞相關聯的范圍之外,這種方法被稱為“基于同源的破譯方法”,

Barzilay 說:“例如,我們可以識別文本中涉及到的所有人或地點的資訊,然后可以根據已知的歷史證據對其進行進一步的調查,這些物體識別(entity recognition)方法如今已廣泛用于各種文本處理應用程式中,并且具有很高的準確性 ,”

參考資料:
https:http://news.mit.edu/2020/translating-lost-languages-using-machine-learning-1021
https:http://news.mit.edu/2010/ugaritic-barzilay-0630
http:http://people.csail.mit.edu/j_luo/assets/publications/DecipherUnsegmented.pdf
http:http://people.csail.mit.edu/bsnyder/papers/bsnyder_acl2010.pdf

實習/全職編輯記者招聘ing

加入我們,親身體驗一家專業科技媒體采寫的每個細節,在最有前景的行業,和一群遍布全球最優秀的人一起成長,坐標北京·清華東門,在大資料文摘主頁對話頁回復“招聘”了解詳情。簡歷請直接發送至[email protected]

0 条回复 A文章作者 M管理員
    暫無討論,說說你的看法吧