Deepseek隱私之困:國內大模型出海隱私合規之路

關注公眾號並設為🌟標,獲取AI治理全球最佳實踐
Deepseek以價效比驚豔全球之後,合規議題在政治動機的驅動下很快跟上。Noyb起訴國內頭廠資料跨境和訪問權違規的事情還未塵埃落定,DeepSeek又成為了一輪監管熱點,這兩天全球監管爭相搶熱點,從義大利到愛爾蘭,剛又來了韓國……
歐美在這個議題上呈現出不同的關注點美國很快以國家安全為由發起調查,並且OpenAI發聲後引發關於“知識蒸餾”的版權議題。歐盟這邊則是延續著近兩年來GDPR的執法趨勢,仍由Garante最先發起問詢。從歐洲視角來看,這個問題也很直接:既然歐盟監管選擇執法美國AI公司,是否要區別對待中國企業?這樣一種思維模式很快在社交媒體發酵。DeepSeek技術報告發布的震動還未停止,Garante就馬上發起了問詢。據媒體稱隨後愛爾蘭資料保護委員會DPC也發起問詢,但寫作截止前沒有任何官方宣告。
站在歷史角度來看,Deepseek和當年的OpenAI真的驚人相似。技術震驚世界後,被監管催著補齊合規,包括應對資料洩露問題(Wiz Research剛披露了Clickhouse資料庫可公開訪問),以及Garante的禁令。Garante的監管行動多少會路徑依賴,但後面我會提到,此次針對Deepseek的行動存在一個關鍵的不同點,即資料本地化的合規困境
2023年在3月20日前後,部分付費ChatGPT使用者發現首頁上會出現其他使用者使用聊天記錄,所洩露的資料包括姓名、郵件以及信用卡後四位和有效截止日期。這一事件也引起了監管注意。2023年3月底,義大利資料保護機關Garante決定(短暫)停用ChatGPT,並識別至少四個合規點

隱私政策資訊披露不充分——最為基礎的資料收集型別、來源等資訊都未提供缺乏適合的合法性基礎。2024年年末Garante對OpenAI處罰釋出後披露了很多細節,包括OpenAI最開始採用合同履行作為合法性基礎,被義大利監管機關認為不充分。“幻覺”問題——也即ChatGPT輸出結果,尤其是涉及到個人資料時並不準確。彼時幻覺問題出現了很多的討論,包括技術可行性以及法律義務(noyb去年曾基於GDPR準確性原則投訴OpenAI認為該企業應當對產出內容真實性負責)。Garante在2024年最終處罰決議中並未再追究此事,作為待議事項處理。沒有年齡認證機制,雖然OpenAI公開表示只提供給13歲以上的使用者使用。

需要說明的是,因為ChatGPT當時沒有在歐盟設定機構,一站式機制無法觸發,所有監管機關都有獨立管轄權,後面發現不同監管的關注點也差異很大,當時和博文曾寫過一篇文章梳理異同。對於DeepSeek而言,局面幾乎相同,這就導致歐盟合規一上來就進入困難模式。OpenAI在2024年初開始建立歐盟代表和機構,這似乎是對所有進入歐洲市場的模型廠商而言最終的必經之路。
部分解決了這些合規問題之後,Garante在1個月之後恢復了OpenAI服務,但調查同步進行。次年年初Garante宣佈結果認定OpenAI違規,年末釋出決議,並未再提幻覺一事,但把更早之前發生的資料洩露事件納入考量。
此次針對Deepseek,Garante首先發起問詢,要求Deepseek在20天內回覆。此後沒多久就下達禁令,歷史驚人相似。與OpenAI相同的是,Deepseek收到的問題清單涉及基本的合規問題,包括是否收集個人資料,資料來源,使用目的,合法性基礎,以及是否對註冊和非註冊使用者進行充分披露等。
有了OpenAI的經驗之後,此次Deepseek問詢相對更為細緻和觸及AI監管核心,除上述基本問題外還要求披露訓練資料等來源,以及使用網路爬取的情況和佔比。關於這些問題的討論,還在GDPR執法以及AIA落地程序中逐步摸索,歐盟AI辦公室也才在1月份開會討論訓練資料披露的模版。說到AI辦公室,也就在前兩天宣誓性地評論了一下DeepSeek在歐盟的AI合規。
此次對DeepSeek發難最大的不同點在於資料的本地化問題,值得留意的是noyb在年前針對中國六家網際網路大廠的資料回傳投訴中(見前文),針對SHEIN的投訴就在義大利。一旦得到確認,資料跨境和回傳會成為另外一個關注點,但這個問題是企業自身合規無法解決的問題。目前愛爾蘭DPC的問詢細節並未公佈;從採訪內容來看,焦點也放在資料本地化帶來的次生問題。
反觀Deepseek,目前尚未針對法域進行區分和精準合規。隱私政策內容相對中規中矩,某些面向上比OpenAI當年做得更好一些,但在顆粒度和明確性上很可能會被苛責。這也是歐盟監管選擇問詢作為起始點的緣由。
這也引發本文想討論的一個問題,基於目前的指南和執法情況,關於歐盟大模型隱私合規是否存在最低標準?如果要有針對性開展合規,國外監管尤為關注什麼?此前看到大國同學寫過一篇合規操作性強的文章。在此基礎之上,我嘗試補充一些策略和決策性的思路。
充分披露的隱私政策無疑是必備,國外監管對於細節和顆粒度的要求更高。即便這麼說,仔細看下OpenAI、Anthropic、Meta等的隱私政策會發現也問題重重。拉齊標準的角度看,實操性難度並不是很高。
資料訓練的合法性基礎問題已在去年下半年有了很多的討論,基本上合規方案已經相對清晰,合同不行,同意有難度(但不會完全繞過),正當利益可能是目前主流的邏輯。對合規而言,正當利益的論證成本以及配套的技術和組織保護措施要求很高,相關標準也在演進之中。隱私政策中披露本身不難,難在出現問詢和調查之後能夠形成一套融貫和完整的敘事,以及相關的影響評估和平衡論證。與正當利益一脈相承,目前關於救濟措施的提供上仍然存在較大的差異,EDPB在AI Model Guidelines列舉了諸多措施,並未分析或者分配法律效果。可以明確的是,在不基於同意進行AI訓練的情況下,提供渠道允許使用者退出目前逐漸成為主流方案,包括英國ICO和巴西ANPD還對於退出機制的易操作性(也即不得存在暗黑模式)有明確要求。
兒童保護一直是Garante關注的重點,尤其對於公開表明年齡限制的AI應用。OpenAI透過設定中立年齡門的方式過了第一關,但是整個歐盟範圍因為DSA以及AIA關於兒童畫像和影響評估的新要求,很大程度提升了門檻。在歐盟之外,巴西監管機關ANPD曾要求Meta“基於兒童的最大利益”移除或者處理訓練資料中的兒童資料,但這一要求在後續的協商溝通中也不再追究,因此可以劃入中長期的專案。
對於很多初創AI企業進入歐盟而言,都存在著資料跨境規則適用性的問題。法國資料法學者Theodore Christakis將其稱之為“DeepSeek悖論”,因為Deepseek在歐盟境內沒有資料“出口”商,按照EDPB的指南GDPR第V章關於資料跨境的規定並不適用。換言之,在這樣的情形下並不存在“跨境”,本質上涉及域外法權的界限。但這並不意味著GDPR其他部分的條款和原則不適用。此外,進入特定的資料流場景可能還是存在爭議,例如在不同公司主體間的資料流動,或者政府訪問公共部門資料時,有觀點認為“跨境傳輸”本身仍然成立,但目前並沒有法律確定性。
即便Deepseek和其他模型廠商湊齊了歐盟需要的合規檔案和機制仍然解決不了本地化帶來的合規難題。真正在國際層面形成信任,需要在狹義法律層面就國內三部資料法律(加上情報法)、網信辦的法律定位和出臺檔案的法律性質,以及公共部門訪問私有部門資料的正當程式,包括基於民法典和個人資訊保護法對外國人行使權利的救濟等諸多問題釐清方能有進展。關於資料回傳和公共部門訪問的問題已經站到風口浪尖。年後科技利維坦計劃會組織一期線上活動專門討論海外監管壓力和紓困方案。
還有一些無論從技術上還是法律上都較為棘手的難題,例如敏感資料的識別和隔離、幻覺問題,機器去/再學習(用於落實刪除權),以及修正權(用於治理幻覺)的執行等。對於基礎合規而言,這些機制本身仍在發展和探索之中,法律確定性本身不高,合規優先順序也可以相對靠後。
全部AI及資料中譯本及資訊請加入


相關文章