點擊右上角微信好友
朋友圈
請使用瀏覽器分享功能進行分享
作者:張宜春(中國藝術科技研究所數字藝術部主任)
當前,以大語言模型技術為核心的人工智能技術正飛速迭代和加速演進。大模型通過海量數據的預訓練,形成千億級別參數的復雜網絡結構,能夠實現強大的上下文理解和多模態內容生成能力,并在很大程度上體現出了通用性和推理能力,能夠有效解決當前社會生產生活中存在的一些具體問題,提升全社會的生產效率。圍繞大模型的廣泛應用,正在形成新的科研范式、創新范式、人機協同工作范式,解構了傳統的代際知識傳承方式和教育方式,催生出新的人類信息和知識獲取模式,重塑未來經濟生活形態。
但是,當我們看到人工智能帶給人類新紀元曙光的同時,也必須看到當前的大模型在涉及文化判斷和價值取向的領域,輸出結果仍不盡如人意,存在著與主流認知之間的差異,在一定程度上存在著“胡說”“亂說”“胡寫”“亂畫”的現象,干擾了人們對社會主流價值觀念的認同與判斷、對中華優秀傳統文化的認知和理解,也對人工智能時代的薪火賡續形成了新的挑戰。因此,亟須在積極推進大模型產業應用的前提下多措并舉,以社會主義核心價值觀為引領,把中華文化主體性融入到大模型的建設和產業應用中,讓大模型更具“中國特色、中國風格、中國氣派”。
當前的大模型在涉及文化安全的領域,存在著如下問題和挑戰。
從訓練數據角度看,全球互聯網中的英文語料占比高達59.8%,中文語料占比僅為1.3%,使得大模型在訓練生成時就缺乏豐富的中文知識。比如,ChatGPT訓練數據所使用的中文數據占比就不足0.1%。這種數據分布結構性的缺陷導致了大模型在認知中文世界時存在先天不足。與此同時,互聯網公開信息來源復雜,存在大量未經認證的虛假和錯誤信息,“以訛傳訛、三人成虎”的現象在互聯網中屢見不鮮,并形成了大量基于誤導信息的語料。這就導致大模型對于真實信息的識別能力下降,進而影響輸出結果的正確性。除此之外,互聯網經過近三十年的發展,“數字鴻溝”問題依然存在,數據在地域、領域和人群分布上極其不均衡,“馬太效應”嚴重,互聯網是強勢地區、活躍領域、活躍人群的發聲地,互聯網數據無法全面代表全球不同人群的價值觀和世界觀,扭曲了大模型最終的價值判斷和文化取向。
從大模型本身的技術架構角度來看,大模型存在著極其復雜的網絡結構,內部工作機制一直被認為是個黑箱,輸出邏輯不可理解,輸出結果難以預測,可解釋性是目前大模型應用中的重要技術難點。因此,一旦出現大模型針對某些領域的輸出異常,難以判斷是來自模型內部的技術缺陷,還是來自模型外部的人為操作。難以區分“別有用心”和“無心之舉”,也就限制了相應對策和措施的應用。此外,大模型在極力追求通用性和泛化能力時,會過度依賴統計規律,導致非強勢文化在內容生成時出現明顯失真。
從外部操作角度看,在大模型的創制過程中,算力成為第一制約要素。但是算法和數據依然對于大模型生成有著直接而重要的作用。模型訓練數據的取舍、清洗、標注、質量檢測,模型參數的調優、對齊、反饋強化學習、能力評價,都有著大量人類智力活動的主動參與,有著主觀能動性的發揮空間。業界常說的“有多少人工,就有多少智能”,對于大模型的應用落地依然有效,那么從業者本身的價值判斷和審美取向,也會通過其工作帶到大模型中。人的主觀能動性也在潛移默化中影響著大模型的輸出結果。
因此,為了應對上述風險和挑戰,需要從系統思維的角度,展開以下工作。
第一,加強人工智能時代廣義標準體系建設。總而言之,就是要用“標準來約束過程,用數據集來約束結果”。具體來講,一是要建立“國家——行業——社會——企業”的多層級標準體系。通過標準的建設,綱舉目張,執本末從,將大模型的數據建設、參數調優、能力評估、人員準入等問題,以標準的形式加以約束和指導,將價值判斷和意識形態融入到大模型的建設過程中。二是要加快人文社科領域各類權威數據集的建設。權威數據集在大模型時代中的作用,猶如定海神針。有了各個細分領域的權威數據集,就可以要求大模型的輸出結果能夠和權威數據集“對得上,對得準”,工程技術團隊才能展開各類大模型中的校準和對齊技術工作,提綱挈領,牽住大模型的“牛鼻子”,實現人工智能在文化藝術領域的對標和對表。
第二,加快中文優質語料的建設和開放共享。如果把大模型的訓練過程看成是一個嗷嗷待哺的嬰孩茁壯成長的過程,那么撫育嬰孩成長的乳汁就是高質量語料數據。高質量語料數據已經成為推進大模型建設的核心生產要素,對于大模型文化輸出能力的建設來說,可謂“得數據者得天下”。做好高質量語料數據建設,首先需要加大政府投入,加快公立文化藝術相關機構的語料庫建設和開放工作,盡快將主流聲音、主流意識注入互聯網中,同時把語料庫的建設、開放、共享程度作為考核相關部門和單位數字化轉型和改造的重要指標,從專業性、合規性、安全性、適用性等多個方面進行綜合評估。其次需要協同推進數據加工處理的工作載體建設,在產業端推進數據標注的產業發展和集聚,在公共事務端推進建設文化藝術行業數據中心,配合國家文化數字化戰略的工作任務,做好文化藝術資源的數據匯交工作,集中力量辦成大事。最后是創新語料建設的工作機制,增強社會參與和共創能力。一些地方發放“語料券”的實踐表明,該機制可使多模態數據庫建設效率提升38%,也為文化藝術領域的語料庫建設提供了新的解決思路和辦法。
第三,加快數據標注產業的發展。數據標注是原始數據進行采集、清洗、分類、標記、質量檢驗的專業數據治理工作。隨著大模型預訓練數據中多模態數據的日趨增多,數據標注已經成為大模型建設中不可缺少的環節。數據標注的水平不僅直接關系到大模型的能力和輸出內容結果,也直接影響到中華文化主體性的融入和價值呈現。由于文化藝術領域數據和資源存在明顯的專業性、小眾性、傾向性、偏好性等特點,無法完全利用機器完成數據標注工作,極其依賴從業者本身具備良好的文化藝術專業知識基礎。首先需要大力推進文化藝術領域的數據標注產業和崗位建設,這既能夠有效提升大模型建設質量,也能通過產業發展創造出文化藝術領域新的工作崗位,促進人才培養與產業發展的良性互動。其次要做好文化藝術相關領域數據標注人員的技能聯動培訓,并建立職業準入標準,制定人員定期培訓機制,做到“一手管數據,一手管處理數據的人”,從源頭上保障大模型中的中華文化主體性融入。
第四,加強哲學社會科學在大模型建設中的作用。在人工智能快速發展的當下,哲學社會科學需要構建起適應人工智能時代的底層認知框架,主動引導人工智能的發展方向,建立起人和智能體協作共生的理論邊界,弄清楚“哪些是可以做的,哪些是不能做的”,探討新的知識生產模式和人工智能倫理評估模式,開展“新時代文化治理學”的跨學科研究工作,建立起可量化的人工智能意識形態評價體系,對人工智能的廣泛應用構建“壓力測試”試驗環境,在“人工智能熱”中注入冷靜的觀察和思考。將前瞻思辨的思維主動融入大模型的建設和開發鏈條中,在模型設計階段即注入人文價值考量,從而最終引領人機共生的知識新生態、文化新生態。
第五,建立起全社會共同參與和協同工作的機制。大模型中的文化主體性問題,牽涉社會的方方面面,需要通過全社會不斷的、持續的、實時的反饋,不斷調整大模型的輸出結果,建立起“各界共商、多方參與、實時反饋、寬容創新”的中華文化主體性的建設和維護機制。建立“金字塔型”社會參與模型,基層建立起文化AI志愿者聯盟和社團組織,實現全民可參與的人工智能反饋機制,讓大模型能夠做到“出錯即發現,有錯即更改”;中層建立起各類行業協會和專業組織,完成人類專業知識向人工智能大模型的灌輸和滲透;頂層建立起專家倫理審查和價值判斷機制,通過分層賦權形成協同治理閉環。全社會攜手相望,運用社會共治筑牢創新發展的防護堤岸,最終形成人機共生的中華文明進化生態,回望千年歷史,跨越時代變革,賡續璀璨光芒。