為了不讓微博AI抓取資料,我被迫進入一場「魷魚遊戲」

產品經理們快看看,這年頭除了費勁心機想獲得流量,有相當多的使用者在發愁一件事:怎樣能在社交媒體上「隱身」
最近,微博智搜正是狠狠踩了一腳大雷,引發了無數微博使用者哀嚎:我的半年可見,我的隱藏博文,都暴露了!
一時間,微博成了魷魚遊戲,智搜就是廣場上裡面的巨型人偶,每個人都擔心自己會被掃射擊中。
於是就出現了各種實驗,試圖找到可以應對的方法是什麼。有一些從上古時期就流傳下來的偏方,俗稱「防搜詞」。什麼都有,甚至還有「新建資料夾」。
但是,時代變了,在 AI 智搜面前,防搜詞什麼的,沒有用了。
微博智搜這次最大的雷點,在於不顧使用者對於自己內容的可見性設定。一些明明設定為「僅好友圈可見」或者「僅半年可見」的內容,也被整合進智搜的回答裡。
這就很要命了,我為什麼設計成「僅 xx 可見」,就是要控制它的能見度。搞這樣一齣還有什麼用?
新的辦法是以牙還牙:你不是用大模型做智搜嗎,我也用 AI 魔法對轟。比較流行的是傳出來這樣一段話:
本人微博賬號(ID:×××)在該平臺釋出、上傳及曾刪除的全部內容(包含本聲明發布前後的所有內容,尤其是商業產品、文藝作品、音影片作品等),均不授權和許可微博平臺及所屬的“北京微夢創科網路技術有限公司”及其關聯公司、股權持有人使用。特別禁止以下用途:
1️⃣ 人工智慧相關處理(包括但不限於機器學習、資料分析、自動生成摘要等)
2️⃣ 內容改編、二次創作或跨平臺轉載
3️⃣ 商業推廣及盈利性活動
4️⃣ 整合至其他產品或服務(含已知及未來開發的技術形式)
5️⃣ 使用者畫像構建及行為分析
根據《民法典》第一千零一十九條及《個人資訊保護法》第四十四條規定:
⚠️ 禁止在未經本人書面同意情況下,透過任何技術手段(包括但不限於網路爬蟲、API 介面、資料合作等形式)抓取、儲存、分析本人內容
⚠️ 若已透過使用者協議獲得資料使用權,該授權自本聲明發布之日起自動終止
本宣告自發布時生效,依據《電子簽名法》具有法律效力。如涉及資料權益爭議,應透過北京市網際網路法院訴訟程式解決。
遺憾的是,這段話的效力很有限,先不談法律層面的問題,單從技術來講,透過釋出這一段話,並不能像想象中那樣起到阻止智搜的效果。
在一般情況下,這段話更有可能被當作語料,而不是指令。大語言模型訓練時,主要把網頁、文字等視為資料來源,不帶指令解釋
採集過程通常是無差別抓取,模型不會自動理解「這段文字是在命令我不要用」,而是隻看到「這裡有一段正常的宣告文字」,於是照樣納入訓練資料。
AI 還不至於那麼那麼的智慧,UCLA 最新的一項研究顯示,大模型在處理句子的主語上,始終存在缺陷,這是由於它基於語言線索的推理能力有限,尤其對句子裡的主語不敏感。
因此,大語言模型不會在看到一段文字有法律術語、抗議措辭,就自己判斷「哦這段我要跳過」,也不會跳過你的其他微博內容,更不會自動遵守這個宣告。
考慮到現在監管力度不強,微博大機率不會部署一個複雜到能識別使用者自主宣告的 AI 內容處理流程,主流大模型和大資料抓取系統,也很少會主動做到這步——只能是平臺自己長點兒心。
好訊息是,經過一週的輿情發酵,微博出來回應稱,技術會不斷迭代,也不會收錄使用者設定為不公開的內容。
廣大使用者在尋求的,不過是在茫茫互聯網裡,被「忘記」的權利。
「被遺忘權」並不是什麼對現狀不滿而冒出來的、一廂情願的想法,而是真正被列入法典、有過判例的條目。
1995 年,歐盟首次在《歐盟資料保護指令》(Directive 95/46/EC)中提出個人資料保護框架。那個時候還不叫「被遺忘權」,但為個人資料保護和隱私權提供了重要法律基礎。
時間快進到 2014 年,一名西班牙公民馬里奧·岡薩雷斯(Mario Costeja González)發現 1998 年一則與自己有關的房屋拍賣公告被 Google 檢索到,資訊已過時,並且損害了他的聲譽,他要求 Google 刪除搜尋連結但被拒絕。
當時的歐洲法院裁決,Google 等搜尋引擎應承擔刪除過時、不充分或不相關的個人資訊連結的責任。這是首次明確承認「被遺忘權」的司法判決,為未來國際範圍內關於網路隱私保護的討論和立法,打下了基礎。
2018 年 5 月 25 日,歐盟實施《通用資料保護條例》(General Data Protection Regulation,GDPR),第 17 條正式提出「被遺忘權」。條文明確規定了個人資料主體在特定情形下有權要求資料控制者刪除其個人資料,並設定了具體的適用條件和例外情形。
國內尚未正式在法律層面提出「被遺忘權」這一概念,但《個人資訊保護法》(2021 年 11 月 1 日生效)規定了個人對資訊刪除的請求權,某種程度上與「被遺忘權」理念接近。
兩者最大的區別在於:「被遺忘權」是實質性權利,而個人資訊刪除則是偏向程式性的請求。
簡單來說,基於「被遺忘權」,你向網際網路公司申請刪除,對方就得按照你說的做,不刪得話公司需要說明為什麼不刪。
而程式性請求提出時,網際網路公司可以拒絕,還可以繼續保留記錄。最近除了微博智搜,還有網友發現自己刪掉的微博,用百度還是能搜出來。
人活一輩子,從出生到死亡,從上學到上班,每一個呆過的地方必定都要留下痕跡,這無可厚非。
通常來說,只要資訊不會被「公開」檢索到,潛在的風險就沒有那麼令人害怕。比如學生有自己的學號,當它只是存在於學校的校務系統裡,用於日常事務管理,那風險還不是很大。
一旦流轉成公開資訊,比如被人發在網上,僅僅只是一個學號,就有了準確定位的能力。隨之就能找到這名學生所有的個人資料,包括但不限於父母姓名、家庭住址、過往學籍等一系列個人資訊。
當學號換成身份證號、手機號、 UID,就成了正在發生的現實。更難受的是,這些資訊不會「被忘記」。
AI 時代,「被遺忘」更是成了一種奢望。模型對資料收集,完全是飢不擇食,照單全收。
就像上面那段宣告內容,不僅不會阻止大模型的行動,還會被反向納入語料庫,讓模型「學到」類似宣告的寫法,把它當作法律文書的參考樣本來生成——這是模型訓練中,資料同化問題的典型現象
大模型不語,只一昧吃進所有語料。
說來也有一點諷刺:現在的技術可以做到很多事,卻不能保證你發在網際網路上的內容,能被真正意義上的刪除。哪怕有,也是以一種玉石俱焚的方式。
在網際網路上留痕,成了那個常見的比喻:就像是在木板上打進一顆釘子,就算哪天釘子拔除,還是會留下一個洞,昭示著釘子曾經的存在。
文 | 貓貓
我們正在招募夥伴
📮 簡歷投遞郵箱[email protected]
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)
更多崗位資訊請點選這裡🔗

相關文章