文:上海君倫律師事務所
前言
今年年初,國家互聯網資訊辦公室、工業和信息化部、公安部針對深度合成服務製定的《互聯網信息服務深度合成管理規定》(以下簡稱“《深度合成管理規定》”)順利施行,其明確了深度合成服務相關方的義務與主體責任,强化了對互聯網資訊服務深度合成領域的管理。 《AIGC暫行辦法》(以下簡稱“《暫行辦法》”)將與《深度合成管理規定》一併為中國大模型領域構建更為完善的治理和監管框架。
本文將對中國監管體系項下的大模型領域的合規要素予以梳理,並重點關注現實環境下,梳理當前落地應用的大模型主要的合規義務。
一、大模型的概念
首先先讓我們瞭解幾個專業用語,以便更好理解接下來的概念。
模型:類比碳基物種,矽基物種的大腦就是模型。 我們現在說的算灋(比如Transformer)代表大腦(模型)的能力。
模型參數:模型參數的數量新增可以類比人類大腦本身的成長和成熟,隨著人類的成長,接觸的事物新增,大腦的認知在改變,參數的數值可以類比人類利用外界資訊給自己構建的認知。
模型訓練數據:人類通過感官接受這個世界的資訊來構建對世界的瞭解。 模型的訓練數據某種程度類比於此,模型看到的數據數量和質量,即决定了參數的數量和數值。
大模型(large language model)是指具有超大參數規模,建立在多頭自注意力機制Transformer架構之上,以深度神經網路為基礎,用海量文字數據預訓練而成的語言模型。 例如chatgpt就是一種基於大模型的生成式人工智慧,大模型是人工智慧訓練的一種管道,為其提供强大的生成能力,實現知識遷移和泛化。 而大模型人工智慧的關鍵因素之一便是充足的基礎養料——數據。 一般而言,收集的有用數據越多,資料庫越大越集中,人工智慧便具有更多樣化的樣本用於學習和分析; 在人機互動過程中問題定位就越精確,輸出的結果便越貼近真實社會,準確度也會相對提升。 所以,人工智慧的研發團隊便希望盡可能多地獲取數據以支持人工智慧訓練數據的更新和擴大,但是在收集訓練數據的過程中存在極大可能誘發數據合規風險。 所以在下文中,我們將從大模型的訓練和生成兩部分進行數據合規風險解讀。
二、大模型在訓練階段的合規風險以及資料處理風險(科技方風險)
在人工智慧迅猛發展的當下,《暫行辦法》對於基於大模型的生成式人工智慧的規範意義重大。 其第七條明確指出,提供者在開展模型預訓練、優化訓練等資料處理活動時,需嚴格遵循一系列規定。 一方面,要使用來源合法的數據與基礎模型,且在涉及知識產權與個人資訊時,務必確保合規性,避免侵權行為; 另一方面,還需採取有效舉措提升訓練數據質量,使其具備真實性、準確性、客觀性與多樣性,同時全面遵守相關法律及監管要求。
(一)模型訓練合規風險
1
侵犯智慧財產權風險
首先,大模型科技獲取數據可能涉及侵權風險,依據《中華人民共和國著作權法》第五十三條,若大模型科技方獲取的數據涵蓋受著作權等智慧財產權保護的資料,且未獲完整授權,便極易陷入侵權困境。 例如以爬蟲管道獲取數據時,網絡中的文章、圖片、用戶評論乃至網站資料庫,只要具備獨創性,就可能構成著作權法意義上的作品。 即便這些數據在原網站可免費公開訪問,未經許可的抓取與使用行為仍可能構成侵權。
其次,科技方將獲取的數據用於模型訓練的行為是否符合“合理使用”原則也存在模糊的界定。 科技方往往會複製或下載訓練數據至自有或協力廠商服務器以便使用,此行為涉及著作權中的“複製”行為,且其使用目的多為商業用途,似乎難以契合《著作權法》規定的“合理使用”條件。 可是大模型訓練中的作品複製屬於“中間複製”,即複製件並非大模型產品的最終呈現形式,且技術支援方通常不會對外傳播或展示這些複製件。 例如國內首個有關AIGC侵權的生效判决案件:原告擁有“奧特曼”形象的著作權,並主張被告未經許可使用該形象訓練其AI,進而生成了相似的圖片。 法院最終認定被告侵犯了原告對作品的複製權和改編權,判决被告賠償原告經濟損失10000元。 故而,大模型訓練是否適用合理使用原則仍有待進一步深入研究。
同時,依據《中華人民共和國反不正當競爭法》,商業秘密是指不為公眾所知悉、具有商業價值並經權利人採取相應保密措施的科技資訊、經營資訊等商業資訊。 若AIGC技術支援方在獲取訓練數據過程中,未能識別並使用構成商業秘密的數據且未獲授權,便可能構成商業秘密侵權,需承擔相應法律責任。
2
不正當競爭風險
在實踐中,技術支援方常運用爬蟲等科技獲取訓練數據,這一行為存在不正當競爭風險。 《中華人民共和國民法典》第一百二十七條雖為數據權益保護提供了法律依據,但僅為框架性、引致性規定,未對數據權利内容及保護要求作出具體界定。 司法實踐中,對於非法爬取數據的行為,法院多傾向於依據《反不正當競爭法》相關規定進行判定。 該法第二條規定,經營者應遵循自願、平等、公平、誠實信用原則,遵守公認的商業道德。 使用爬蟲科技繞開robots協定(尤其是目標網站的Disallow語句)爬取數據的行為,極有可能被認定為違反“公認的商業道德”,從而構成不正當競爭行為,相關科技使用方需承擔停止侵害、損害賠償等責任。
例如,在某房產交易資訊平臺房源數據抓取案中[1],法院判定S公司以科技手段大規模抓取涉案數據,存儲於自有服務器後去除原平臺浮水印並添加其他主體浮水印,傳播至社交媒體和協力廠商房產信息平臺等行為,為“虛假房源”發佈提供便利,違背行業誠信原則與商業道德,且S公司在訴訟承諾停止後仍變相持續實施被訴行為,主觀惡意明顯,其行為搶奪了L公司用戶流量,影響用戶粘性與信賴度,損害消費者權益,破壞行業競爭生態與秩序,構成不正當競爭行為。
[1]參考 http://www.elawcn.com/data/2023/0118/1221.html
3
侵犯人格權風險
《民法典》第九百九十條明確了人格權涵蓋生命權、身體權、健康權、姓名權、名稱權、肖像權、名譽權、榮譽權、隱私權等諸多權利,自然人還享有基於人身自由、人格尊嚴產生的其他人格權益,且人格權受法律嚴格保護。 尤其在涉及肖像權方面,《民法典》第一千零一十八條規定自然人享有肖像權,有權依法製作、使用、公開或許可他人使用。 第一千零一十九條規定,任何組織或個人不得醜化、汙損或利用資訊技術手段偽造等管道侵害他人肖像權,未經肖像權人同意,不得製作、使用、公開其肖像(法律另有規定除外),對自然人聲音的保護參照肖像權規定執行。 在實踐中,鑒於訓練數據可能包含圖片、影片等內容,若其中的肖像或聲音能够反映自然人特徵,或社會福斯可借此與自然人真實特徵建立聯系,那麼這些形象或聲音便可能納入自然人肖像權和聲音權範疇。 科技方使用此類訓練數據時,必須取得相關自然人的授權,否則將構成侵權行為。
4
侵害個人資訊風險
《中華人民共和國網絡安全法》第四十四條嚴禁任何個人和組織竊取或以其他非法管道獲取個人資訊。 《中華人民共和國個人信息保護法》第二十七條規定,個人資訊處理者可在合理範圍內處理個人自行公開或其他合法公開的個人資訊,但個人明確拒絕的除外,且處理已公開個人資訊對個人權益有重大影響時,應依法取得個人同意,處理敏感個人資訊還需取得個人單獨同意。 囙此,若科技方獲取用於模型訓練的數據包含個人資訊,就必須嚴格遵循《個人信息保護法》相關規定。 若在未經用戶同意的情况下收集用戶個人資訊,便可能構成侵害個人資訊的違法行為。
5
處理覈心數據、重要數據風險
《中華人民共和國數據安全法》第二十一條將覈心數據定義為“關係國家安全、國民經濟命脈、重要民生、重大公共利益等數據”,《數據出境安全評估辦法》第十九條指出重要數據是“一旦遭到篡改、破壞、洩露或者非法獲取、非法利用等,可能危害國家安全、經濟運行、社會穩定、公共健康和安全等的數據”。 當前,多地、多行業及部分先行區已出臺相關規則或目錄對覈心數據和重要數據予以明確。 例如,工業和信息化部在《工業和信息化領域數據安全管理辦法(試行)》中細化了工業和信息化領域重要數據、覈心數據的認定標準; 五部門聯合發佈的《汽車數據安全管理若幹規定(試行)》劃定了汽車行業重要數據的認定範圍。 若科技方用於訓練大模型的數據涉及覈心數據、重要數據,就需履行一系列更為嚴格的義務,且不同行業的具體義務履行管道存在差异,包括向監管部門履行備案、風險評估報告報送、資料安全管理情况定期報送等義務,以及建立資料安全工作體系、依據數據安全級別採取相應安全措施等資料安全管理義務。
6
刑事風險
依據《中華人民共和國刑法》第二百八十五條和第二百八十六條,未經授權獲取“電腦資訊系統中存儲、處理或者傳輸的數據”,“對電腦資訊系統實施非法控制”,或者對電腦資訊系統功能進行干擾,情節嚴重的可能面臨刑事處罰。 例如,若科技方故意避開或强行突破網站反爬蟲科技設定,或者侵入《刑法》第二百八十五條第一款規定以外的電腦資訊系統,且網路爬蟲過快或大量重複訪問,大量佔用服務器頻寬和運算能力、大幅增加電腦處理負擔,進而干擾電腦資訊系統正常運行且後果嚴重,便可能涉及刑事責任。
(二)資料處理風險
1
處理個人資訊合法性基礎的缺失
依據《個人信息保護法》,處理個人資訊需遵循合法、正當、必要與誠信原則,禁止以誤導、欺詐、脅迫等手段為之。
《暫行辦法》第十一條相關規定實則是在人工智慧脉络下對《個人信息保護法》所確立的上述原則的再次強調。
在實踐場景中,通常由直接面向服務使用者提供服務的科技方運營方承擔上述義務,若科技方運營方者超範圍或非法處理服務使用者的個人資訊,則需承擔相應法律責任。
2
數據跨境傳輸的潛在風險
當科技方借助API等管道接入境外服務商提供的服務,抑或其將自身服務器部署於境外時,科技方運營方在使用相關服務過程中上傳的數據便有可能被傳輸至境外。 而依據《數據安全法》《個人信息保護法》以及《數據出境安全評估辦法》等相關法規,中國明確了數據出境的三條主要途徑,即通過國家網信部門組織的安全評估、經專業機构開展個人資訊保護認證,或者依照國家網信部門製定的標準合同與境外接收方訂立契约以約定雙方權利義務。
3
數據主體權利保障的不足
《個人信息保護法》借助原則性條款明確賦予個人對其個人資訊處理的知情權與決定權,個人有權限制或拒絕他人對其個人資訊的處理,並具體規定了查閱複製與轉移權、更正與補充權、删除權、要求解釋權等權利。 故而,科技方運營方需審慎對待服務使用者的行權請求並及時予以響應,絕不能以存在困難為由而不予處理或延遲處理。
三、技術支援方的合規義務
1
算灋備案:
技術支援方需履行算灋備案的義務,選擇“生成合成類(深度合成)算灋”進行備案。
2
數據訓練合規:
技術支援方需確保訓練數據來源的合法性,關注訓練數據中是否包含需要另行取得許可或授權的知識產權或個人資訊等數據。
3
網路安全、資料安全和個人資訊保護:
在大模型訓練環節,技術支援方同樣需履行網路安全、資料安全和個人資訊保護義務。
4
數據質量要求:
技術支援方需提高訓練數據質量,增强訓練數據的真實性、準確性、客觀性、多樣性。
5
建立數據合規管理和科技應對方案:
技術支援方應遵守相關的數據保護法規和AI倫理準則,利用科技手段建立健全風險應對方案,比如資料加密、匿名化處理等。
小結
本篇介紹了大模型的概念,以及主要分析了大模型在訓練階段的合規風險以及資料處理風險,為科技方的風險防控提供了一些建議。 關於運營方的風險將在下一篇中重點分析。
數字經濟法律研究中心
Legal Research Center for Digital Economy
君倫數字經濟法律研究中心是君倫內設的從事數字經濟法律研究和服務的專業部門,主要負責人為上海數據交易所數據合規師金昌華律師,致力於為數字經濟領域的各主體提供最優商業解決方案。
君倫是上海區塊鏈技術協會的理事單位,擔任上海長三角區塊鏈產業促進中心的法律顧問組織,上海數據交易所和深圳數據交易所的首批數據合規評估服務商。 長期深耕區塊鏈法律服務,連獲《商法》China Business Law Journal“金融科技及區塊鏈”行業領域2022年度、2023年度卓越律所大獎,上海區塊鏈技術協會“2020年度協會工作貢獻獎”,以及第二届區塊鏈法治高峰論壇的“區塊鏈法治優秀服務獎”。
憑藉深耕各數字經濟領域的專業經驗和對行業實務的深刻理解,為區塊鏈、元宇宙、數位版權等領域,數據確權、流通、跨境等領域,新媒體、互聯網、人工智慧等領域以及個人資訊的保護、跨境傳輸、企業管理體系的搭建和隱私保護領域提供全流程、全方位的法律服務。 服務內容包括但不限於數據資產管理(數據資產入錶和資本化)、企業常規法律合規服務,主體架構搭建、交易結構設計、個人資訊安全評估等法律服務,主體設立、行銷、商業合作等法律服務以及交易稅務籌畫、盡職調查、投融資、政策分析、爭議解决等專項法律服務。