最新突破！科大訊飛榮獲多語言理解評測XTREME冠軍

發(fā)布時間：2022-01-03

近日，在世界權威多語言理解評測XTREME（Cross-Lingual Transfer Evaluation of Multilingual Encoders）中，哈工大訊飛聯(lián)合實驗室（HFL）團隊以總平均分84.1位列榜首，刷新世界記錄，在四個賽道中獲得三項最好成績。

這也標志著科大訊飛多語言理解與跨語言遷移能力再上新臺階。

這個難度有多高？先來看一段話：

The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen F?llen ist die W?rmequelle ein Atomreaktor, Erdw?rme, Solarenergie oder Abw?rme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.

上述這段話包含了英語、德語、西班牙語，而這只是機器多語言理解評測的冰山一角，它要面臨的是多達40種語言的高難度理解。翻譯成中文就是：

讓水沸騰以提供蒸汽所需熱量有多種來源，最常見的是在封閉空間（別稱有燃燒室、火箱）中供應適量空氣來燃燒可燃材料。在某些情況下，熱源是核反應堆、地熱能、太陽能或來自內(nèi)燃機或工業(yè)過程的廢氣。如果是模型或玩具蒸汽發(fā)動機，還可以將電加熱元件作為熱源。

最新突破：在40種語言下完成自然語言理解

XTREME評測由谷歌公司舉辦，旨在全面考察模型的多語言理解與跨語言遷移能力。該評測覆蓋了中文、英語、韓語、日語、阿拉伯語、越南語等40種語言，包含了句對分類、序列標注、閱讀理解、句子檢索賽道，共四大類九個任務。吸引了國內(nèi)外眾多知名高校和研究機構(gòu)參加。

XTREME評測包含4大類9個任務，分別為：

? 句對分類：XNLI、PAWS-X（自然語言推斷）
? 序列標注：UDPOS（詞性標注）、PANX （命名實體識別）
? 閱讀理解：XQuAD、MLQA、TyDiQA（片段抽取型閱讀理解）
? 句子檢索：BUCC、Tatoeba（跨語言文本檢索）

與以往單語言自然語言理解評測任務不同的是，XTREME中的每一個任務都覆蓋了多種語言，評測的是模型在多種語言上的理解能力平均指標，因此對系統(tǒng)模型的多語言理解與跨語言遷移能力要求大大提高。

其難度可想而知，榜單上的模型也代表了多語言模型的頂尖水平，因此獲得了眾多機構(gòu)和高校的廣泛關注。

機器是怎么做到多語言理解的？

本次哈工大訊飛聯(lián)合實驗室提交的CoFe模型以總成績84.1分位居XTREME評測榜首，有三大法寶：
1、加入了自主研發(fā)的跨語言對比學習技術，鼓勵模型學習不同語言中的語義相似性。
2、利用知識蒸餾技術進行自監(jiān)督學習和知識遷移，進一步提升了模型在各個語言上效果的穩(wěn)定性。
3、創(chuàng)新性地融入了細粒度的語言學特征，幫助模型克服訓練不足的困難，解決低資源語言學習不充分的問題，同時使之適應不同語言的形態(tài)學特點。

也就是說，通過本土語言學習，機器可以在少量其他語言語料的情況下，通過“類比”學會這門語言，減少了收集語料、語音標注等大量工作。

這就是多語言理解與跨語言遷移能力！

發(fā)布少數(shù)民族語言預訓練模型CINO

“要讓中文語音技術由中國人做到最好?！?br/>
成立至今，科大訊飛初心未改，持續(xù)關注并積極推動中文相關信息處理技術的研究與發(fā)展。少數(shù)民族語言處理是中文信息處理中不可缺少的一環(huán)，也是中文信息處理多樣性的一種體現(xiàn)。這項技術的進步將極大改善我國少數(shù)民族語言學習問題。

目前由于國內(nèi)少數(shù)民族語言語料稀缺、獲取難度大等原因，相關技術研究相對匱乏，而主流的多語言模型也無法很好地處理國內(nèi)少數(shù)民族語言文字。為了促進中國少數(shù)民族語言信息處理的研究與發(fā)展，近期科大訊飛發(fā)布了首個面向少數(shù)民族語言的多語言預訓練模型CINO (Chinese mINOrity pre-trained language model)，彌補相關資源的空白，并將相關預訓練模型和任務數(shù)據(jù)開源。希望未來能夠進一步促進業(yè)內(nèi)少數(shù)民族語言相關的技術研究，推動少數(shù)民族語言相關技術的應用落地。未來支持各少數(shù)民族語言的多語言搜索引擎等文字應用工具或?qū)⒊蔀榭赡堋?br/>

返回列表

下一篇：已經(jīng)是第一篇上一篇：北京2022年冬奧會倒計時10天！

在线专区国产传媒在线-丁香六月婷婷激情啪啪-亚洲国产成人久久午夜-欧美大尺度一区二区在线观看

最新突破！科大訊飛榮獲多語言理解評測XTREME冠軍

最新突破！科大訊飛榮獲多語言理解評測XTREME冠軍