點擊右上角微信好友

朋友圈

點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕

文化人 天下事
正在閱讀﹕ 語言數據是信息時代的生產要素
首頁> 光明日報 > 正文

語言數據是信息時代的生產要素

來源﹕光明網-《光明日報》2020-07-04 04:15

調查問題加載中﹐請稍候。
若長時間無響應﹐請刷新本頁面

  如同土地之于農民﹐機器之于工人﹐計算機通過對語言數據的加工學習可以獲得知識與智能﹐從而去創造人類的新生活──

語言數據是信息時代的生產要素

作者﹕李宇明(北京語言大學語言資源高精尖創新中心主任兼首席科學家)

  隨著5G﹑語言智能和物聯網的快速發展﹐人類社會正在發生劃時代的變化。人類的認識也應隨著時代進步而不斷更新﹐重新審視已然﹐及時預判將然。語言究竟是一種什麼現象﹖語言學究竟如何發展﹖就是需要審視﹑需要預判的。

語言數據是信息時代的生產要素

  1. 語言數據是生產要素    

  生產要素與生產力發展水平和經濟制度密切相關。數據具有生產要素性質﹐祗有信息化發展到一定階段才能成為現實﹐才能被人認識。

  早在2017年12月8日﹐習近平總書記就提出“要構建以數據為關鍵要素的數字經濟”。之後﹐在2018年4月“首屆數字中國建設峰會”(福州)﹑2018年5月中國國際大數據產業博覽會﹑2018年9月江蘇互聯網大會﹐以及2019年12月第六屆中國國際大數據大會上﹐都突出了“數據是數字經濟關鍵要素”的話題。特別是在2018江蘇互聯網大會上﹐工業和信息化部總經濟師王新哲強調﹐“以數據作為關鍵生產要素的數字經濟正在成為繼農業經濟﹑工業經濟之後的新型經濟形態”。至此﹐人們獲得了兩個基本認識﹕1.數字經濟是繼農業經濟﹑工業經濟之後的新型經濟形態﹔2.數字經濟的關鍵生產要素是數據。

  黨的十九屆四中全會提出﹐“健全勞動﹑資本﹑土地﹑知識﹑技術﹑管理﹑數據等生產要素由市場評價貢獻﹑按貢獻決定報酬的機制。”這是對數據具有生產要素性質這一認識的總結﹐把數據與勞動﹑資本﹑土地﹑知識﹑技術﹑管理並列為第七大生產要素﹐可以通過市場按貢獻取酬。這是重大的理論創新﹐體現著對信息化社會的本質認識﹐是在數字經濟快速發展背景下經濟制度的與時俱進。

  一般認為﹐數據是信息的表現形式和載體。隨著科技與社會的進步﹐數據的內涵和外延都可能會發生變化。但有一點現在是可以肯定的﹐那就是多數數據都是“語言數據”。其一﹐語言(包括文字)是人類信息最為重要的載體﹐大約80%的信息是用語言負載的。沒有用語言負載的信息﹐也常常需要語言來幫助闡釋﹐比如圖畫﹑雕塑﹑音樂﹑服裝﹑建築等藝術。其二﹐語言資源本身也是語言數據。語言數據是最為重要的數據﹐應當屬於“生產要素”範疇。

  語言數據是信息時代的生產要素﹐如同土地之于農民﹐機器之于工人﹐計算機通過對語言數據的加工學習可以獲得知識與智能﹐從而去創造人類的新生活。隨著語言智能的發展﹐語言數據的生產要素屬性定會越來越清晰。

語言數據是信息時代的生產要素

6月16日﹐世界智能大會期間﹐智能機器人指揮樂團演奏曲目。新華社發

  2.語言數據納入數字經濟視野    

  20世紀50年代﹐人類就開始進行機器翻譯的嘗試﹐訓練機器進行語言信息處理的進程由此開始。中文信息處理經過字處理﹑詞處理階段的艱難行進﹐已順利步入話語處理階段﹐努力讓計算機具有語言智能。信息檢索﹑自動翻譯﹑機器寫作﹑人機對話等領域的快速進展﹐得益於語言大數據的集聚與應用。

  語言是人類獨有的符號系統﹐這是語言學的經典認識。但是隨著語言智能的發展﹐語言將為人類和機器這兩個“物種”共同享有。如今重要的語言交際﹐多數都是“人-機-機-人”的交際﹐是“人-機”“機-機”“機-人”的合成﹐疫情期間的雲端會議﹑線上課程﹑網絡購物﹑網上就醫等﹐都屬於這種交際模式。如果與“人形機器人”對話﹐機器擁有語言這一現象﹐就會看得更為明顯。隨著物聯網的發展﹐祗要在需要驅動的目的物上植入“語言感應器”﹐人就可以通過具有語言智能的機器與萬物關聯﹐與萬物對話﹐使萬物具有“語言智能”。

  2018年12月召開的中央經濟工作會議重新定義了基礎設施建設﹐把5G﹑人工智能﹑工業互聯網﹑物聯網定義為“新型基礎設施建設”﹐簡稱“新基建”。一年多來﹐新基建的內容不斷豐富﹐面貌逐漸清晰。新基建不僅是信息網絡等的基礎設施建設﹐還讓基建物具有“智能”﹐特別是語言智能﹐以便實現人與萬物的關聯對話。

  與信息相關的產業﹐有許多是語言產業。在較高的工業化時代﹐據瑞士語言經濟學家的研究﹐語言產業為社會GDP的貢獻接近10%。信息化時代﹐數據可以成為生產要素的時代﹐語言產業的經濟能量會大幅提昇﹐可以預測﹐沒有語言產業的繁榮﹐發展不出繁榮的數字經濟。

  未來﹐也許是不久的未來﹐語言數據將成為重要的生產要素﹐語言將進入重要的生產力範疇。集聚﹑管理語言數據並使其發揮最大作用﹐將成為發展生產的重要任務﹐語言產業﹑語言職業將成為數字經濟的一方重要支柱。

  3. 語言與物理﹑社會﹑信息“三元空間”    

  人類形成之前﹐世界就是自然界﹐祗是一個“物理空間”。人類的形成與發展﹐便在物理空間中生長出一個“社會空間”。語言與社會空間一起成長﹐大約距今3到5萬年前的舊石器時代﹐人類已有較成熟的口頭語言﹐口語的載體是聲波。大約距今5000至5500年前﹐文字在兩河流域產生﹐語言有了新載體光波。20世紀20年代﹐廣播﹑電視相繼出現﹐有聲媒體使語言有了第三大載體電波。20世紀末﹐互聯網商業化﹐語言信息處理也快速進步﹐人類開始建構一個新空間──“信息空間”﹐也就是常說的“虛擬空間”“網絡空間”。潘雲鶴院士2019年在題為《人工智能2.0與數字經濟》的報告中﹐敏銳指出人類正由傳統的“物理空間”“人類社會”二元空間﹐逐步進入了“物理空間”“人類社會”“信息空間”所構成的三元空間。

  信息空間是一個正在發展的空間﹐其結構和運行機理還在被逐步認識﹑逐漸完善中。但有一點相對明確﹐那就是信息空間主要是被數字化了的語言空間。語言過去是在社會空間中使用﹐如今是在社會空間﹑信息空間這兩個空間中使用。隨著物聯網﹑語言智能的發展和智能化新基建的實施﹐語言將跨入物理空間﹐在人類的三元空間中運用。語言在人類生產活動的作用將更為顯著。

  語言已經不僅僅是人文現象﹐它是“具有聲光電三大媒介﹑為人類與機器兩個‘物種’共享﹑將應用在社會﹑信息﹑物理三元空間中”的事物。語言學作為“研究語言及其相關問題”的科學﹐也不能局限於“語言文學”﹐而應當是橫跨文理工的綜合學科。

  2017年10月﹐美國希拉姆學院提出“新文科”的教育理念﹐對其29個專業重組﹐把新技術融入哲學﹑文學﹑語言等課程中。這反映了學科交叉融合的時代大趨勢。我國也在積極推進“新工科﹑新醫科﹑新農科﹑新文科”建設。根據語言的性質﹐就應當依照“新文科”的思路發展語言學。綜合﹑交叉﹑融入新技術的語言學﹐才能夠適應“數據是數字經濟的關鍵生產要素”的時代命題和經濟制度﹐促進知識經濟的發展﹐推進智能化新基建的發展。當然﹐新基建和知識經濟的謀劃者﹐也應當充分重視語言和語言學﹐獲取語言學的科學紅利。

  《光明日報》( 2020年07月04日 12版)

[ 責編﹕張悅鑫 ]
閱讀剩餘全文(