• 文化創新比較研究-投稿網站
當前位置: 主頁 > 收錄文章 >

大灣區多語種政府新聞標注語料庫建設研究

2022-08-18 點擊:
姜 嬴,楊 靜,朱哲宇,林佳瑩
(北京師范大學 珠海分校,廣東珠海 519000)
 
     摘要:粵港澳大灣區是中國開放程度最高、經濟活力最強的區域之一,在“一國兩制”政策實施的背景下,廣東、香港、澳門地區的語言文化(普通話、粵語、英語、葡萄牙語等)呈現出了多樣性狀態,使得語言規則變得復雜,目前尚未存在同時支持針對粵港澳地區多語種語料文本標注和分析的語料庫。該文以大灣區政府新聞語料為主要研究對象,在粵港澳大灣區復雜的語言環境背景下,通過研究經驗總結出多語種語料庫建設的常見問題和解決手段,構建出數據規模大、符合多語種生態的高質量語料庫,促進教育、文化、語言研究事業的發展。
     關鍵詞:粵港澳大灣區;多語種語料庫;分詞標注策略
    中圖分類號: G642        文獻標識碼:A         文章編號:2096-4110(2022)03(c)-0062-05

Study on the Construction of Multilingual Government News Annotation Corpus in the Greater Bay Area

JIANG Ying, YANG Jing, ZHU Zheyu, LIN Jiaying
(Beijing Normal University, Zhuhai, Guangdong, 519000, China)
 
      Abstract: The Guangdong-Hong Kong-Macao Greater Bay Area (GBA) is one of the most open and economically dynamic regions in China. Under the background of the One Country, Two Systems Policy, the language and culture of Guangdong,Hong Kong and Macau (Mandarin, Cantonese, English, Portuguese etc.) present a diverse state, which makes the language rules more complicated. Currently, there is no corpus that supports annotating and analysis of multilingual corpus in the GBA at the same time. Under the complex language environment, through the previous research experience, this paper summarizes the common problems and solutions of multilingual corpus construction, constructs a high-quality corpus with large data scale and in line with the multilingual ecology. Promoting the development of education, culture and language research.
     Key words: Guangdong-Hong Kong-Macao Greater Bay Area; Multilingual corpus; Tagging Strategy of word segmentation
 

1 大灣區多語種語料庫研究必要性

      目前,粵港澳大灣區已經存在一些語料庫,如:“香港兒童粵語語料庫”系統地記錄了8個幼兒在一年內學習和使用粵語情況,最終整理出 177 個檔案,存儲記錄 14 兆字節[1];“香港粵語語料庫”通過收集日常談話,針對性地提供給研究者和語言學習者一個反應真實演講和對話內容的粵語語料庫[2];“LIVAC共時語料庫”語料來源于上海、港、澳、臺,以及新加坡等5地的報紙資料,已處理逾5.7億字,累積并持續提煉出2百多萬詞條。
      大灣區現存語料庫多建立于上世紀90年代,部分語料庫在取材上、時間維度上,存在滯后現象且語種選取較為單一,無法勝任多語種研究的任務。粵港澳大灣區及其輻射區域存在多種語言文字,構成了語言種類復雜多樣性、語言分布分層交織性、對外關系復雜性等問題,是中國從古代到現代語言文字多樣性最發達,使用量最多,同時共存時間最長的地區[3],這些問題都需要多語種語料庫的支持。
      普通話、粵語、英語為大灣區語言使用層次第一的3個語種,覆蓋了大灣區絕大多數的地區和人口。葡萄牙語使用層次位于第3,被認定為澳門地區的官方語言,具有一定代表性[4]。因此,該文選取這4個語種作為主要研究對象,采集高度規范化的政府新聞語料,并結合標注語料庫數據,嘗試為語言研究者提供多語種語料庫研究的思路。
 

2 研究內容及方法

     該文根據研究過往的標注經驗,分析多語種分詞標注任務中存在的差異,提出符合多語種語料庫的通用分詞標注策略,基于項目研究過程中已經搭建好的在線眾包標注平臺收集人工檢驗的標注結果,對標注結果進行交叉檢驗,提煉出粵港澳地區新聞多語種語料庫,基于編程技術訓練分詞模型并進行交叉驗證,評測標注策略是否符合實際生產要求,根據實驗結果整理出多語種標注規范,提出在研究多語種問題上的建議,為灣區的自然語言研究者提供基礎條件和便利,促進大灣區文化、教育事業發展。
 

3 數據來源

     該研究的普通話文本來自香港律政司、行政長官2018年施政報告、香港政府一站通、政府賬目及報告、香港特別行政區政府新聞公報、中國文化報、大公報,粵語文本來自明報OL,英語文本來自 South China Morning Post,葡萄牙語文本來自 Revista Macau。以上均為粵港澳地區權威且文本數量較多的新聞網站,總共包含12個新聞網站,其中“國際”“兩岸”“中國”等 50 多個板塊。自2019年 3 月開始持續開展標注工作,已收集大量數據,具體規模在 6.1 節可見。
 

4 多語種分詞標注異同

     粵港澳大灣區的語言文字生態樣貌較為獨特,語言文字資源也較為豐富,漢語普通話、英語、葡萄牙語在不同區域都具有法定語言的地位,粵語、客家方言、閩方言等多種漢語方言在日常生活中也擁有廣泛的民眾基礎[5]。不同的語言文字在分詞上的規則和難度是不同的,下文舉例說明多語種分詞標注時需要注意的地方。

4.1是否有分隔符

     現代英語、葡語的基本語素表達形式是詞,文本中的詞天然由空格分開,分詞時主要運用的是正則表達式和專家提供的詞庫分詞。普通話、粵語文本的基本組成單位并不是詞而是字,計算機可以輕而易舉地對字進行切分,但詞與詞之間的切割則極為困難,主要是因為中文詞語在句中存在互相重疊的情況,這很容易產生歧義字段,以“不過度開發生物資源”一句為例,進行完全切分的結果如下。
     [不,不過,過,過度,度,開,開發,發,發生,生,生物,物,物資,資,資源,源]
     完全切分并不是嚴格意義上的分詞,它輸出句中所有出現在詞表中的字和詞。因為中文詞語存在類似“不過”和“過度”交集現象,9 個字被切分成了長度為 16 的序列。粵語屬于漢藏語系漢語族漢語方言,文本結構與普通話類似,同樣沒有分隔符做切分,這無疑增加了中文分詞的難度。

4.2是否有詞語形態變換

     對英文和葡語預處理時需要做詞干提取和詞性還原,而中文或者粵語則不需要。英文存在詞形變換,例如,動詞do需要根據時態的不同變換為does、doing、did、done、do homework和doing homework本質上是一樣的,但對于計算機來說是完全不同的兩個字符串。
     葡語的名詞和形容詞存在“陽性”和“陰性”的區別,tempo、sol為陽性,canção、lua為陰性。普通話中的“好”在葡語中既可以是bom也可以是boa,但這實際上這種區別無法被消除,因為詞的“陰陽性”是互相獨立的,并不會有“原型”或者“詞根”一說,也就沒有辦法降維。對分詞來說需要注意的是葡語動詞需要根據人稱變化發生對應的變形,即“變位”,例如estudar根據主語的不同需要轉換為“estudas、estudo、estuda、estudamos或estudam,而它們的原型是相同的。

4.3是否需要考慮顆粒度

     在通常情況下對于普通話和粵語分詞來說切分顆粒度越大,結果也就越精確,但與此同時召回率低和歧義切分問題也必然會隨之出現。在實際環境,例如搜索引擎中,當用戶希望獲取有關“自然語言處理”的內容時,若將其拆分為“自然”“語言”“處理”,那么顆粒度如此之大的分詞結果必然會造成搜索引擎返回結果數過多,導致不能滿足用戶預期。
     英語中Natural Language Processing可以被拆分為Natural、Language、Processin,但是按照完整語義的角度出發,同樣可以不將其分詞而是作為一個復合詞來看待,整體入庫。同樣,葡語中Processamento de linguagem natural可以被拆分為Processamento、de、linguagem、natural。所以在分詞時需要根據具體環境劃分合理的顆粒度。
     綜上,普通話、粵語、英語、葡萄牙語之間分詞既有相同之處也有不同之處,主要可以歸納為3個問題:是否有分隔符、是否有形態轉換、是否需要考慮分詞顆粒度。
 

5多語種分詞標注流程策略

5.1系統設計概述

      在標注不同語種的語料時需要做分庫處理,同時對標注人員進行分組,同組人員完成對同一語種的標注工作,方便對語種和語料進行管理。同時,系統內應設置3種基本模塊:“標注”模塊和“個人”模塊為系統內所有種類的用戶服務,“工作組管理”模塊則只為專家用戶和系統管理員服務,普通用戶只需專注于標注任務本身即可。
 
圖1 標注用戶流程圖

5.2 標注人員選擇

     語料庫是研究人員、學者進行深度研究的基礎,必須保證分詞標注結果由專業領域內的人員產生。比如,普通話文本標注者最好來源于大灣區內部的普通話母語者,粵語文本標注者最好來源于大灣區內部的粵語母語者,若要讓普通話母語者去分詞標注粵語文本中的“點解”(粵語含義:為什么),標注者雖然可以看懂文本中的每一個字,但無法理解文本本身的含義,甚至可能覺得文本出現了錯誤,此時也就無法準確、客觀地對文本進行處理。
     每個語種都是十分具有特色的,且部分規則只有在當地長期生活或者母語是該語種者才能知曉,為了得到準確的分詞標注結果,需要由專業人員去處理其擅長的語種領域。 

5.3 系統角色分配

     知識領域的眾包分配任務需要引入“角色”的概念,多語種眾包標注系統應包含3種角色:普通用戶、專家用戶和系統管理員。普通用戶為語言、歷史、教育或相關專業的本科生、碩士生或專業標注人員,負責對系統標注結果進行修改。專家用戶為擁有領域內專業知識的且從事自然語言研究的學者、研究人員或高校教授,主要負責對普通用戶產生的結果進行評估和修改。
       若標注系統中只包含標注類用戶,則無法很好地對數據、標注過程及一些事務做管理,需要引入系統管理員維護后臺,對語料、用戶、系統的各種狀態進行實時監控與管制,與分詞標注工作的總負責人還有系統內的專家用戶保持一定溝通,保證系統正常、高效運作。

5.4 三級標注

     人工標注時總是會存在一些難以避免的錯誤,針對大灣區的多語種標注應采取三級標 注模式,使錯誤率接近0%,以保障入庫數據是準確的。第一階段為算法預標注階段,指的是標注系統依據現有的開源分詞工具對導入數據庫中的生語料做預標注,預標注的準確率普遍可以達到 85% ~ 95%。在進入第二階段眾包標注階段時,標注用戶所需要做的只是處理 5% ~ 15% 的系統標注錯誤,大大減少了時間成本。一條語料往往需要至少被兩位不同的標注用戶所標注以確保其正確性,若標注結果不相同,則還會被更多的標注用戶所標注,這是為了保證語料庫的質量,若語料庫的質量無法保證,那么再多的數據量也是無效的。到了第三階段,也就是專家標注階段,專家角色的知識水平和對于同一條語料的理解程度通常是超過普通標注人員的,專家所需要重點處理的是第二階段所遺留下來的“疑難語料”,之后專家用戶也可以對普通用戶的結果做檢查和修改。經過嚴格的三級標注之后我們認為所產出的語料是可信的,可以作為語料庫搭建的基礎。

5.5 多語種標注細節

      針對第4節結尾提出的多語種標注存在的3種不同之處,在本節提供解決方案。
     (1)分割符:對于不存在天然分割的語種,例如普通話和粵語,在系統預標注階段推薦采用Hanlp、NLTK等高質量開源工具進行分詞標注預處理。對于存在天然分割的語種,例如英語和葡語,若僅需提供給標注用戶預分詞結果,推薦使用正則表達式對文本進行預處理。正則表達式分詞的優點在于靈活、門檻較低且標注效果好,以下為本研究提供的一種正則匹配規則:
     [ ,,.。??!!\\f\\n\\t\\r\\v]+
     分詞測試中有3個常見的指標:P指精確率,代表預測結果中正類數量占全部結果的比率;R指召回率,代表正類樣本被找出來的比率;F1代表P值和R值的調和平均。在布朗語料庫(Brown Corpus)和麥克莫弗語料庫(MacMorpho Corpus)上進行測試后發現本研究 F1值達到 98.97% 和 99.73% ,這說明在語料沒有基本格式錯誤的情況下,通過正則匹配來初步分詞效果十分不錯。
     (2)形態轉換:當需要標注的語種存在時態變換或根據人稱變換詞語形態之類的問題時,需要對語料進行詞干提取或是詞性還原。詞干提取和詞性還原兩者并不相同,詞干提取由基于規則的方法實現,主要用于信息檢索領域,而詞形還原基于詞典方法,在處理單詞準確率較高的領域效果更好,例如,文本分類、情感分析等[6]。其的目的是減少回復的詞語數量,從而達到降低語言模型維度的作用,具體使用何種方式進行預處理需要視使用場景而定。
      同時,引入上述處理的具體位置也同樣關鍵。若在系統標注階段引入,則會導致系統標注結果不準確。而且該結果是需要向標注用戶展示的,去掉句中原本存在的一些信息后必然會影響標注者的判斷,造成標注的錯誤。所以,持久化保存語料結果之前應保留語料文本的全貌,在進行模型訓練之前做詞干提取或詞性還原的操作,這保證了詞語的序列不會改變且保留了原文本除了詞語形態之外的所有信息。
    (3)分詞顆粒度:通過限定標注格式可以實現同時記錄不同顆粒度分詞標注結果的效果。復合構詞的現象幾乎存在于所有語種中,在對“中央督導委員會”這一復合詞進行人工標注時,推薦采用如下的格式:
     [中央/n 督導/vn 委員會/ni]/nto
    中括號里的為復合詞的各個組成部分,標注時需要為每個部分進行分詞和詞性標注,而中括號外的詞性為整個復合詞的詞性,這樣可以同時得到不同顆粒度的結果,方便對模型進行調整,但是需要標注人員付出更多的精力和耐心。

5.6 結果存儲策略

     同一條語料會被分配到不同的普通標注用戶手中,且在三級標注階段中的第二階段我們規定一條語料應至少分配給兩人以上進行標注,所以在數據入庫時必然會存在多種結果。為了保證結果的全面性和準確性,需要將語料的id與標注用戶的id聯系起來同時存儲,而不是進行覆蓋式存儲或者整合式存儲。
     同時,考慮到標注用戶的專業性問題,若一條語料被專家用戶修改或者標注后,直接將其作為該語料的分詞標注結果,在提取分詞標注和進行訓練時優先應考慮該類結果,而非普通標注用戶的結果。

5.7 質量保障

    聘用標注用戶時應首先進行考核,判斷其是否能夠勝任標注任務,考核的結果將作為初步任務分配的依據,將不同難度的標注任務分配給不同水平的標注者。標注期間應隱式地對標注者再次進行評估,并根據結果重新為其分配適合的標注任務。當標注者完成任務數量達到閾值時應及時給予不同程度的獎勵,對于完成質量差的用戶則及時解聘。
 

6 實驗

6.1 詞典

     在生成詞典和詞性標注時,中文和粵語標注集采用《ICTPOS 3.0 漢語詞性標記集》和《現代漢語語料庫加工規范——詞語切分與詞性標注》的兼容版本,英文標注采用的標注集為Penn Treebank Tagset,葡萄牙語標注采用的標注集為Universal Tagset。
詞語種數指語料庫中有多少個不重復的詞語,總頻次指的是所有詞語的詞頻之和,分別可以用來衡量語料庫應用的豐富程度和規模大小[7],詞典統計信息如下。
表1 詞典統計

6.2分詞標注評測

     使用Hanlp提供的NatureDictionaryMaker接口將已標注語料生成二元語法模型,接著對不同語種語料庫做K折交叉驗證。
 
圖2 交叉驗證結果
     在K值取 10 的情況下,普通話和粵語的F1均值達到了 91%以上,英語和葡萄牙語,F1均值達到了 99% 以上。觀察圖 2 可知該文給出的多語種標注策略是切實可行的。
 

7 結語

    該文給出多語種語料庫研究的流程和策略,通過實驗結果和統計信息,展現研究總體進度和策略可信度。同時,該研究經過了長時間的語料標注收集和多種多樣的分詞實驗,為粵港澳地區新聞媒體文本處理提供了較為豐富的數據。后續會繼續采集粵港澳地區各種類型、各種語種的語料,屆時數據量和分詞標注的效果將會大大提升,我們會將語料庫本體和分詞器代碼打包發送到開源平臺,以供感興趣的學者深入研究,為粵港澳地區語言研究事業以及教育事業獻力。
 

參考文獻

[1] 黃大網,陳明瑤.研究兒童早期語言發展的得力工具——香港兒童粵語語料庫項目概覽[J].解放軍外國語學院學報,2001(5):25-28.
[2] Kang Kwong Luke, May L.Y. Wong. Linguistic Corpus and Corpus Linguistics in the Chinese Context[J].Journal of Chinese Linguistics Monograph Series 2015(25):312-333.
[3] 鄧一光.對大灣區語言文字歷史和現狀的一點觀察——在“個體與命運共同體:大灣區文學的多種可能”對話活動上的發言[J].粵港澳大灣區文學評論,2021(4):146-153.
[4] 殷俊,徐藝芳.粵港澳大灣區的語言多樣性與語言戰略問題[J].云南師范大學學報(哲學社會科學版),2019,51(6):37-45.
[5] 郭杰.粵港澳大灣區語言環境建設研究[J].云南師范大學學報(哲學社會科學版),2019,51(6):46-54.
[6] 馬偉娜.學術資源中英文分詞和分布式存儲系統的設計與實現[D].北京:北京郵電大學,2016.
[7] 何晗.自然語言處理入門[M].北京:人民郵電出版社,2020,99-100.

基金項目:2021年廣東省科技創新戰略專項(攀登計劃)(項目編號:pdjh2021a0607);國家語委科研項目(項目編號:YB135-123);粵港澳大灣區國際教育示范區建設研究項目(項目編號:2020WQYB030);廣州市社科規劃課題(項目編號:2019GZY26);廣東省哲學社會科學規劃項目(項目編號GD19CYY01)。
作者簡介:姜贏(1981,9-),男,湖北武漢人,博士,研究方向:自然語言處理、語料庫語言學、文本校對、信息管理、知識圖譜和大數據。
往期雜志 | 收錄文章 | 文化資訊 | 期刊簡介 | 加急審核 | 投稿須知 | 聯系我們 | 網站地圖
主管單位:黑龍江省委宣傳部 主辦單位:黑龍江文化產業投資控股集團有限公司 國際標準刊號:ISSN 2096-4110 國內統一刊號:CN 23-1601/G0
文化創新比較研究雜志社版權所有@|本站僅作征稿宣傳 京ICP備2021023680號-2
久久精品这里热有精品