爬蟲玩得好,牢飯吃到飽?這3條底線千萬不能碰!

導讀:合法合規、謹慎小心地應用爬蟲技術。
作者:郭斌 劉思聰 於志文
來源:大資料DT(ID:hzdashuju)
資料爬取技術一向是資料公司獲取資料的高效途徑之一,但嚴格意義上爬取行為本身並不是完全合法合規的,按我國目前的法律法規及司法判例,爬蟲技術可能會觸犯以下幾個維度的法律要求(僅列出相對重點的法律維度)。
01 反不正當競爭法維度
在未徵得被爬取方授權的情況下,爬取資料的行為可能會違反Robots協議。Robots協議是技術界為了解決爬取方和被爬取方之間透過計算機程式完成關於爬取的意願溝通而產生的一種機制。2012年11月1日,十二家企業共同發起了《網際網路搜尋引擎服務自律公約》,公約要求各簽約方遵守Robots協議。
在司法實踐中,即使爬取方不屬於上述12家公司的範圍內,Robots協議也已經被認定為網際網路行業搜尋領域內公認的商業道德:北京市第一中級人民法院在某網際網路安全公司不正當競爭案件中,將行業內公認的Robots協議認定為網際網路行業搜尋領域公認的商業道德。
法院在判決中指出:
在被告推出搜尋引擎伊始,其網站亦刊載了Robots協議的內容和設定方法,說明包括被告在內的整個網際網路行業對於Robots協議都是認可和遵守的。其應當被認定為行業內的通行規則,應當被認定為搜尋引擎行業內公認的、應當被遵守的商業道德。
因此,爬取方違反Robots協議的行為可能會被認定為違反《反不正當競爭法》第2條,即違反誠實信用原則以及商業道德。
雖然網路上公開的資訊較難構成商業秘密,但由於網路上的某些資訊可以透過採取技術措施使得僅有特定的使用者可以接觸,因此網路上的資訊仍有可能具備商業秘密要求的秘密性和保密性,構成商業秘密的可能。
如果爬蟲控制者在抓取資訊的過程中有意地規避了網站經營者設定的保護措施,接觸、儲存甚至披露了一般使用者原本無法訪問的資訊,而該等資訊又構成商業秘密,則爬蟲控制者的該等行為存在侵犯他人商業秘密的可能,進而可能會違反《反不正當競爭法》第9條。
同時,因為爬蟲會對被爬取方的網路系統等造成妨礙,所以此類行為可能會違反《反不正當競爭法》第12條。
02 著作權維度
無論是網路上的文章、圖片、使用者評論,還是網站自身的資料庫,都有可能在具備獨創性的情況下構成著作權法保護的作品。對於該等資訊的抓取和使用有可能會構成對著作權的侵犯,特別是複製權和網路資訊傳播權。因為抓取資料的行為本質上是對資料的複製,因此該等行為有可能侵犯著作權人的複製權。
同時就資料提取和使用行為而言,如果爬蟲控制者抓取資訊後,在自己的網站上公開傳播抓取到的資訊,則還有可能進一步侵犯資訊網路傳播權。
例如,馬某某等訴某網路科技公司著作權侵權糾紛案。
  • 案情事實
被告某網路科技公司利用類似搜尋引擎的計算機爬蟲技術進行法語詞條的收集與翻譯釋文的搜尋,未支付相應報酬而大量使用原告享有著作權的《當代法漢科技詞典》中的內容,馬某某將該網路科技公司以侵犯著作權為由訴至法院。
  • 判決結果
根據法律規定,除合理使用外,使用他人作品應當經著作權人同意,並支付相應報酬。被告稱其透過爬蟲技術收集了詞彙詞條及中文釋義,該技術是被告收集並形成其網路詞典詞庫的一種手段,而非在使用《法語助手》時,透過搜尋連結直接指向其他目標網站,被告應該對其收集並使用的詞彙及中文釋義合法性負有較高的稽核注意義務。
因此,被告製作的法語翻譯軟體內容,部分抄襲原告《當代法漢科技詞典》的釋義內容,侵犯了原告等人的著作權,應依法承擔停止侵害、賠禮道歉、賠償損失的民事責任。
03 《刑法》及《網路安全法》維度
從技術角度分析,爬蟲可能會導致目標網站負荷過大,進而引起網站無法訪問甚至癱瘓等不良後果,爬取方可能會違反《網路安全法》中關於網路執行安全方面的規定。但如果你還涉及侵入的情況,就可能會觸犯《刑法》第285、286條的規定。
例如在某案例中,王某利用遠端登入的方法,透過一個攻擊指令侵入目標公司的計算機資訊系統,將系統中公司員工的郵箱、通訊錄匯出來,再修改相應的密碼,從而可以隨意進入員工的郵箱,最後被判處非法獲取計算機資訊系統資料罪。
從爬取的內容角度分析,如果爬取的內容是個人資訊,那麼可能違反《網路安全法》關於收集個人資訊合規性的要求,甚至可能觸犯《刑法》中的侵犯公民個人資訊罪。
小結
綜上,資料爬取行為不但容易引起監管部門的重點關注,也易受到來自競爭對手的訴訟,建議企業在進行資料爬取行為時注意以下要點內容。
  1. 儘量避免爬取構成直接競爭關係的企業的平臺數據,避免競爭對手依據《反不正當競爭法》提起訴訟的風險。
  2. 儘量爬取明確公開的資料,遵守Robots協議等網站明確公開的協議,避免爬取平臺禁止爬取的資料。
  3. 根據《資料安全管理辦法(徵求意見稿)》第16條的要求,資料爬取收集流量不得超過網站日均流量的三分之一,避免造成目標網站崩潰、無法正常運營等情況。
  4. 對於目標網站已經明確採取技術手段阻止爬蟲訪問的,公司不應侵入、破壞其防護措施。
  5. 如目標網站明確發出停止資料爬取的相關通知說明,則應暫停資料爬取行為,及時採取對策。
本文摘編自資料合規:入門、實戰與進階》(ISBN:978-7-111-70536-9),經出版方授權釋出。
延伸閱讀資料合規:入門、實戰與進階

點選上圖瞭解及購買

轉載請聯絡微信:DoctorData
推薦語:多年一線治理經驗的系統總結!跟隨主人公不斷成長,快速掌握多元場景中的實務處理方案!企業資料合規治理的實用工作手冊!資料合規專業人士成長晉階的秘笈!
關於作者:孟潔,現任北京市環球律師事務所合夥人,主要執業領域為網路安全、個人資訊與隱私保護。曾在多家知名企業擔任法務負責人和資料保護官,任IAPP中國區知識社群主席,被錢伯斯、The Legal 500、LEGALBAND等知名法律評級機構評為 “TMT領域領軍人物”“資料保護領域領軍人物”“Fintech領域頭部律師”等,被北京市律協評為全國千名涉外專家律師。
薛穎,長期在網際網路集團擔任資料合規與智慧財產權總監。在外企、世界五百強公司等從事過多年資料隱私合規工作,擁有豐富的網際網路場景一線經驗。持有CIPP/E、CIPP/U認證,當選ALB中國智慧財產權法務15強並帶領團隊獲得過《商法》年度“資料合規”優秀團隊等獎項。
朱玲鳳,現任知名網際網路公司隱私及資料合規專家,曾任小米安全與隱私委員會隱私副主席。多年從事資料隱私合規研究和實務工作,深入參與國內資訊安全相關標準擬定和重要法律研討等,在全球隱私法律研究、隱私保護設計、隱私安全技術應用與管理以及App、物聯網、人工智慧等領域有豐富的實踐經驗。
劃重點👇
更多精彩👇
在公眾號對話方塊輸入以下關鍵詞
檢視更多優質內容!
讀書 | 書單 | 乾貨|講明白|神操作 | 手把手
大資料 | 雲計算 | 資料庫 | Python | 爬蟲 | 視覺化
AI | 人工智慧 | 機器學習 | 深度學習 | NLP
5G|中臺 | 使用者畫像數學 | 演算法 數字孿生
據統計,99%的大咖都關注了這個公眾號
👇

相關文章