首個生成式AI服務安全規範性檔解讀

文：上海君倫律師事務所

導語

2023年10月11日，全國資訊安全標準化技術委員會發佈《生成式人工智慧服務安全基本要求（徵求意見稿）》（以下簡稱“徵求意見稿”），面向公眾徵求意見，這是國內首個專門面向生成式AI服務安全規範性檔意見稿，也是對同年7月份網信辦等七部門發出的《生成式人工智慧服務管理暫行辦法》（解讀詳見：《AIGC新規：促進發展、鼓勵創新、審慎監管、留有餘地》）的支撐。本文中，我們將對徵求意見稿的主要內容予以解讀，説明讀者理解其內容。

一、總則

徵求意見稿提出了生成式AI服務提供者（以下簡稱“提供者”）需遵循的安全基本要求，包括語料安全、模型安全、安全措施、安全評估等。提供者在向相關主管部門提出生成式AI服務上線的備案申請前，應按照徵求意見稿中各項要求逐條進行安全性評估，並將評估結果以及證明材料在備案時提交。不誇張地說，每一個提供者都有必要對徵求意見稿進行仔細研讀。每一位元創業者的生成式AI服務若想要“持證上崗”，就必須逐條核對是否符合徵求意見稿中的要求。

二、語料安全要求

在語料安全要求上，徵求意見稿從來源安全、內容安全、標注安全三方面提出了要求。

01、來源安全方面

語料來源安全要求提供者建立語料來源“黑名單”制度，不得使用來源於“黑名單”的語料進行訓練。但是徵求意見稿並沒有給出“黑名單”的具體定義，但是規定了單一來源語料內容中含違法不良資訊超過5%的，應將該來源加入“黑名單”。至於是否有其他形式需要加入“黑名單”的語料來源，則需要提供者事前與主管部門做充分諮詢溝通。

02、內容安全方面

要求提供者採取應採取“關鍵字、分類模型、人工抽檢”等方式，充分過濾全部語料中違法不良資訊；同時要求設置語料以及生成內容的智慧財產權負責人，並建立智慧財產權管理策略。語料用於訓練前，智慧財產權相關負責人等應對語料中的智慧財產權侵權情況進行識別，提供者不應使用有侵權問題的語料進行訓練。

03、標注安全方面

設立標注人員考核制度，定期進行考核培訓，對於合格者予以標注資質。同時對於標注人員職能進行劃分，同一個標注人員不應承擔多項職能。另外還需制定標注規則，標注規則應至少包括標注目標、資料格式、標注方法、品質指標等內容。

三、模型安全要求

徵求意見稿從基礎模型使用、生成內容安全、服務透明度、內容生成準確性、內容生成可靠性五大方面做出了嚴格要求。

1、基礎模型使用方面

提供者如使用基礎模型進行研發生成式AI服務，則其需要使用經主管部門備案的基礎模型。

2、生成內容安全方面

訓練過程中，提供者應將生成內容安全性作為生成結果的優劣的主要考慮指標之一；在提供服務過程中以及定期檢測時發現的安全問題，應通過針對性的指令微調、強化學習等方式優化模型。

3、服務透明度方面

在服務透明度方面，提供者應在網站首頁等顯著位置向社會公開服務適用的人群、場合、用途、局限性、模型架構等資訊。

4、生成內容準確性方面

生成內容應準確回應使用者輸入意圖，所包含的資料及表述應符合科學常識或主流認知、不含錯誤內容。

5、生成內容可靠性方面

該方面要求生成內容應能夠有效説明使用者解答問題。

四、安全措施要求

徵求意見稿從模型適用人群、場合、用途，個人資訊處理，收集使用者輸入資訊用於訓練，圖片、視頻等內容標識，接受公眾或使用者投訴舉報，向使用者提供生成內容，模型更新、升級，這七大方面提出了要求。

01、模型適用人群、場合、用途方面

該方面要求提供者應充分論證在服務範圍內各領域應用生成式AI的必要性、適用性以及安全性；服務用於關鍵資訊基礎設施、自動控制、醫療資訊服務、心理諮詢等重要場合的，應具備與風險程度以及場景相適應的保護措施；服務不適用未成年人的，應採取技術或管理措施防止未成年人使用。

02、個人資訊處理方面

該方面要求提供者應按照我國個人資訊保護要求，並充分參考現行國家標準，對個人資訊進行保護。

03、收集使用者輸入資訊用於訓練方面

該方面要求提供者應事前與使用者約定能否將使用者輸入資訊用於訓練；應設置關閉使用者輸入資訊用於訓練的選項；使用者從服務主介面開始到達該選項所需操作不應超過4次點擊。

04、圖片、視頻等內容標識方面

該方面主要要求提供者將相關圖片、視頻在顯著區域進行標識。

05、接受公眾或使用者投訴舉報方面

該方面主要要求提供者提供投訴舉報的途徑以及回饋方式；同時要求提供者設定處理規則及時限。

06、向使用者提供生成內容方面

該方面要求模型具有拒絕生成違法不良資訊的問題；同時要求提供者設置監看人員，及時根據國家政策以及協力廠商投訴情況提高生成內容品質，監看人員數量應與服務規模相匹配。

07、模型更新、升級方面

該方面主要要求，模型在經歷重要更新升級後，需要在此進行安全評估，並需要向主管部門重新進行備案。

五、安全評估要求

徵求意見稿從評估方法、語料安全評估、生成內容安全評估、內容拒答評估四方面給出了十分具體的參考。

1、評估方法方面

在評估方法方面，徵求意見稿主要要求提供者應在服務上線前以及重大變更時開展安全評估且安全評估應覆蓋本檔所有條款，同時應將本檔各條款的評估結論以及相關證明、支撐材料寫入評估報告。

2、語料安全評估方面

提供者在對語料安全情況進行評估時，需採用人工抽檢，從全部訓練語料中隨機抽樣不少於4000條語料，合格率不應低於96%；同時採用關鍵字、分類模型等技術抽檢時，隨機抽樣不少於10%的語料且合格率不應低於98%。

3、生成內容安全評估方面

在生成內容安全評估方面，主要要求提供者對生成內容的安全評估方法進行要求，主要採取人工抽檢、關鍵字抽檢、分類模型抽檢等。

4、內容拒答方面

該方面主要是規範模型生成內容，包括從應拒答測試題庫中隨機抽取不少於300條測試題，模型的拒答率不應低於95%以及從非拒答測試題庫中隨機抽取不少於300條測試題，模型的拒答率不應高於5%。

結語

徵求意見稿繼承了《生成式人工智慧服務管理暫行辦法》等規定中的立法邏輯，進一步明晰了提供者內部合規的具體落地建議，具有很強的實操性，為我國的生成式AI服務技術發展提供規範性指引。

上海君倫

首個生成式AI服務安全規範性檔解讀

joius@joius.com

發佈留言取消回覆

joius@joius.com

發佈留言 取消回覆

發佈留言取消回覆