智駕峰會
您正在使用IE低版瀏覽器,為了您的雷鋒網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發私信給栗峰
發送

0

自然語言不等于英語,為什么NLPer應當認識到這個問題,以及該怎么做?

本文作者:栗峰 2019-10-08 10:41
導語:自然語言并不等于英語~

雷鋒網(公眾號:雷鋒網)AI科技評論編者按:自然語言并不等于英語。然而,目前NLP的研究中,大家潛意識里卻認為英語是一種具有足夠代表性的語言。而除英語以外的其他語言研究則通常被認為是“特殊語言”,在審稿人的眼中同等情況下對它們的研究則不如英語研究重要。這本質上是對語言的“以偏概全”。近日華盛頓大學語言學家Emily M. Bender為此撰寫了一篇文章《The Bender Rule: On Naming the Languages We Study and Why It Matters》,指出其中存在的問題,以及提出對學習語言進行命名和標記的方案。AI科技評論對其文章做如下不改變原意的編譯。

一、高資源語言與低資源語言

自然語言處理(NLP)領域的進展取決于語言資源的存在。通常這些資源需要有帶黃金標準(gold standard)的標簽或注解來反映NLP系統對當前任務的預期輸出。無監督、弱監督、半監督或遠程監督等機器學習技術降低了對標記數據的依賴性,但即使是使用這些方法,也同樣需要足夠多的標記數據來評估系統的性能,此外對于數據需求量極大的機器學習技術,通常也需要大量未標記數據的支撐。

這樣的需求導致了在NLP領域中出現了高資源語言和低資源語言的數字鴻溝。

高資源的語言種類只有幾種,包括英語、漢語、阿拉伯語和法語,或許還可以將德語、葡萄牙語、西班牙語、芬蘭語包括進去。這些語言具有大量可訪問的文本和語音資源,以及一些注釋資源如樹圖資料庫(treebank)和評估集。

截止到2019年8月,LRE Map列出了961項英語資源,此外還有美式英語資源121項、德語資源216項、法語資源180項、西班牙語資源130項、漢語資源103項、日語資源103項。其他超過50項資源的語言只有葡萄牙語、意大利語、荷蘭語、標準阿拉伯語和捷克語。世界上另外大約7000種其他的語言則只有極少的資源或沒有。

同樣值得強調的是,世界各地的研究人員在主要的NLP會議上發表的大部分研究工作都集中在高資源語言上,且不成比例地集中在英語上。Robert Munro,SebastianMielke和我對NLP領域的幾個主要會議中的語言進行了一個調查,其結果如下:

自然語言不等于英語,為什么NLPer應當認識到這個問題,以及該怎么做?

盡管英語和漢語廣泛被作為第一語言或第二語言使用,但顯然NLP的研究不應當只是去做這兩種語言的研究。

但很不幸,NLP陷入了一種惡性循環:除英語以外的其他語言研究通常被認為是“特殊語言”,因此被認為同等情況下不如英語研究重要。 

NLP會議的審稿人經常會有這樣一種錯誤的理解:將某一任務上的最先進水平等同于該任務在英語上取得的最先進水平;如果一篇論文不能與之進行比較,那他們就無法判斷這個研究是否是“有價值的”。 

這里一個重要的因素是人們潛意識里認為英語是一種具有足夠代表性的語言。當學習的資源是英語時,人們往往不會在名字中顯示“英語”,這更助長了這種誤解。

但英語既不是自然語言的代名詞,也不是自然語言的代表。

二、英語不能代表全部

我最近在Widening NLP 2019大會的演講中做了一個比喻,將NLP比作是一扇濺滿了雨水的窗戶。

自然語言不等于英語,為什么NLPer應當認識到這個問題,以及該怎么做?

我們知道NLP是一個跨學科的領域,不同領域的人所關注的視角也不相同。從事信息提取工作的人對用數字化語言編碼的信息感興趣,這就像是人在屋內凝視窗外的場景。而從事語言學工作的人則對語言的結構和模式以及它們與交際意圖的關系很感興趣,這就類似于想要探究雨滴下來的模式以及它們是如何影響我們看窗外的景色。 

把這個比喻再延伸一點,每一種語言(包括英語)都只是一扇有特定雨滴模式的窗戶,各自都有它自己特有的風格。

以下我羅列了一些英語不能代表所有語言的原因,這些原因即使是在四姐上使用最廣泛的語言中也沒有得到廣泛的共享:

1、它是一種口頭語言,而不是符號語言。如果我們只做英語的研究,我們就錯失了一類重要的語言。

2、它有一個完善的、長期使用的、大致是基于發音拼寫系統(phone-based orthographic system)。

“Phone-based”的意思是字母對應于單獨的發音。英語拼寫法僅近似于這個原理。西班牙語等其他語言,具有基于發音的拼寫法系統更加透明化,還有一些語言僅代表輔音(例如傳統的希伯來語和阿拉伯語)或具有代表音節而不是單一聲音的符號(例如馬拉雅拉姆語,韓語或日語假名),或者使用邏輯系統(例如中文,或者借鑒漢字形成的日文;參見Handel 2019)。 當然,世界上還有許多語言沒有書面語,或者書面語的歷史較短還沒有發展出標準的拼寫法。英語拼寫的標準化事實上在很大程度上簡化了NLP的任務,而我們常常沒有意識到這個問題。

3、英語的標準化拼寫法提供了一個成為“word”的概念,不同“word”之間會有一個空格留白。

然而并不是所有語言都有這個特點,例如漢語、日語、泰語等,對于這些語言,它們的NLP任務都必須從分詞開始。

4、大部分的英語寫作通常只使用在每臺計算機上都能找到的低位ASCII字符。

在大多數情況下,當使用英語時我們都不用擔心不常見的字符編碼、不支持的Unicode符號等等。

5、英語的屈折形態(inflectionalmorphology)相對較少,因此每個單詞的形式比較少。

許多NLP領域的技術都存在數據稀疏的問題,只有當同一個詞以多種不同的形式出現在高度變化的語言中時,這種問題才會顯得更加嚴重。(基于字符n-gram的深度學習模型在一定程度上解決了這個問題,但它仍然是英語和世界上許多語言之間的一個重要區別。) 

6、英語有相對固定的語序。

與世界上許多語言相比,英語在詞序上比較死板,在大多數情況下都保持主謂賓、形容詞在名詞前面、關系從句在后等等。如果不對更靈活的詞序語言進行測試,我們怎么會知道哪些系統在多大程度上依賴英語的這種特性?

7、英文表單可能會“意外”匹配數據庫字段名、本體條目等。

許多語言技術通過將輸入語言中的字符串映射到外部知識庫或者將這些字符串轉換為語法或語義表示從而實現特定任務的目標。當輸入的字符串和知識庫中的字段名或條目使用同一種語言時,處理快捷方式就可用了。但是這又能適用于多少種語言呢?

8、英語有大量可用的訓練數據(比如用來訓練BERT的3.3B語言符號)(Devlin et.al,2019)。

如果我們將全部的精力都集中在依賴大量的訓練數據這種方法上,而這些數據卻無法適用于世界上大多數的語言,我們將如何構建適用于其他語言的系統?同樣,如果我們只重視使用這些技術的工作(例如在會議論文評審中),那么我們怎么可能期待在跨語言NLP上取得進展呢? 

三、Bender Rule

2009年,Tim Baldwin和ValiaKordoni在EACL上組織了一個研討會,主題為“語言學與計算語言學之間的互動:良性的、惡性的還是空洞的?”(The Interaction between Linguistics andComputational Linguistics: Virtuous, Vicious or Vacuous?)當時,機器學習(深度學習之前)對NLP來說非常重要。很多人都在討論圍繞NLP的機器學習方法如何能夠更經濟,因為它們比以前基于規則的范式需要投入的語言專家更少。這在當時很流行。

在這次會議上有人指出(出現在當時部分論文中),不對任何特定語言知識進行編碼的NLP系統都是與“語言無關的”。

我反對這種觀點。我在其中的一個研討會上也發表了一篇論文,題為《語言幼稚!=語言獨立:為什么NLP需要語言類型學》(Linguistically Na?ve != Language Independent: Why NLP NeedsLinguistic Typology)。我認為如果我們只使用英語(或英語加上一小部分其他語言),我們無法判斷所構建的系統是否真正適合于所有語言。僅僅因為沒有直接編碼有關英語的特定語言知識并不意味著該模型適用于所有的語言。

此外,如果目標是語言獨立或跨語言應用系統,那我們最好充分利用語言知識。特別是,我們應該利用語言類型學領域的研究成果,該領域研究世界上各種語言的變化范圍以及這種變化還存在的局限性。

在Bender 2011(《關于實現和評估在NLP領域中的語言獨立性》,“On Achieving and Evaluating Language-Independence in NLP”)中,我列出了語言無關NLP的“dos and don' ts”。它包括了后來被稱為Bender Rule的早期聲明(雷鋒網):

Do – 指明正在學習的語言類型,即使它是英語。要明確一點,我們正在研究的是一種特定的語言,這意味著由此開發的技術可能只適用于特定的語言。相反,如果不去聲明正在使用的數據的語言類型,就會給工作帶來是語言獨立的假象。(Bender 2011:18)

自然語言不等于英語,為什么NLPer應當認識到這個問題,以及該怎么做?

然而,直到2019年,這段話才真正流行起來。2018年11月,當我在編撰計算語義學和語用學的語言資源時,再次遇到這樣頭疼的事情:那些使用英語語料的論文往往沒有說明所討論的語言是英語。于是我發了如下的推文:

自然語言不等于英語,為什么NLPer應當認識到這個問題,以及該怎么做?

2019年3月到5月,Nathan Schneider、Yuval Pinter、Robert Munro、Andrew Caines等人分別提出了“Bender Rule”或“Bender Clauses”。他們的不同之處在于命名所研究語言的方式,作為論文評審人員應該詢問研究者研究的是哪種/些語言,或者當僅使用一種語言時應當對所研究系統的語言獨立性持懷疑態度。最終,BenderRule的聲明合并為簡單的一句話:始終注明你正在使用的語言。

自然語言不等于英語,為什么NLPer應當認識到這個問題,以及該怎么做?

在NAACL 2019和ACL 2019及其研討會上,有幾張poster在命名其語言時直接提到了Bender Rule。

這樣的原則似乎是顯而易見的,且很瑣碎。但我很榮幸能以我的名字來命名這個原則。因為我強烈地感覺到NLP領域必須擴大范圍,超越英語和少數幾種精心研究的語言。我相信,除非我們不再把英語當作默認語言,不再假裝學習英語(且只學習英語)不是“language-specific”,否則我們永遠無法做到這一點。 

四、命名語言只是第一步

 NLP領域開始考慮“為語言命名”使我深受振奮,即便大部分工作使用的顯然還是英語。

但是,隨著NLP領域的人們開始解決NLP技術所帶來的道德影響以及語言技術對用戶和旁觀者產生的負面影響(參見Hovy&Spruit 2016,Speer2017,Grissom II 2019),我們應當清晰地認識到:關于訓練和測試模型所使用的數據,我們應該提供更多信息。

首先是語言之間的差異性:所有語言都在不斷地變化;除了那些使用人數極少的語言外,一種語言的不同變體之間總是存在著很大的差異。(參見Labov 1966,Eckert和Rickford2001)。這包括不同地域之間的差異,以及不同社會群體和社會身份相關的差異。針對某一特定人群的語音/文本/標志進行訓練的模型不一定適用于其他人群,即使是在使用相同語言的人群中也是如此。

第二,模型會汲取訓練文本中所包含的偏見,而這些偏見則來源于生產文本的人如何認識和談論這個世界。(參見Bolukbasi et.al 2016,Speer2017)。

為了避免以上兩個問題所帶來的潛在問題,Batya Friedman和我在 ( Bender & Friedman2018) 中提出了“數據聲明”的概念,這是一種清晰記錄NLP系統中使用數據集的做法。我們建議所有NLP系統都應該附帶關于訓練數據的詳細信息,包括所涉及的特定語言種類,選擇數據的原理(如何選擇數據以及為什么選擇該數據),有關說話者和注釋者的人口統計信息等等。當然,僅憑這些信息并不能解決偏見的問題,但它為解決這些問題提供了可能性。

自然語言不等于英語,為什么NLPer應當認識到這個問題,以及該怎么做?

頭圖來源(雷鋒網):http://images.wired.it/wp-content/uploads/2014/01/1390576102_language.jpg

原文鏈接:https://thegradient.pub/the-benderrule-on-naming-the-languages-we-study-and-why-it-matters/

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知

自然語言不等于英語,為什么NLPer應當認識到這個問題,以及該怎么做?
分享:
相關文章

文章點評:

表情
最新文章
請填寫申請人資料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說
2019087期双色球走势图