在數位轉型與AI浪潮的推動下,越來越多企業仰賴「爬蟲軟體」(Web Crawlers)自動蒐集網路資料,進行市場分析、SEO優化、比價整合、AI訓練等工作。然而,看似便利的爬蟲技術,其實潛藏著爬蟲軟體法律風險——從著作權、個人資料、違反服務條款,到觸犯刑責,一不小心就可能讓創新變成侵權。本篇文章將從技術原理、應用場景到風險分級,全面解析企業面對爬蟲軟體法律風險,協助您在導入自動化與AI技術前,做好風險評估與合規策略。
延伸閱讀:
一、什麼是爬蟲軟體?為什麼會有法律風險?
爬蟲軟體,通常被稱為網路爬蟲(Web Crawler)、蜘蛛(Spider)或搜尋引擎機器人(Search Engine Bot),是一種自動化程式,用來廣泛、大量且系統性地探索、導航、下載並索引網頁內容。最廣為人知的例子包括 Google 搜尋引擎背後的 Googlebot。
在現今資訊爆炸的數位時代,爬蟲軟體已成為我們享受網路便利的必要工具。由於其多元功能性,爬蟲軟體已發展出各種專業類型:
- 搜尋引擎爬蟲:這是最常見的爬蟲類型,主要為搜尋引擎索引網路內容,讓使用者能快速查詢相關資訊。Googlebot 是此類爬蟲的代表。
- 社群媒體爬蟲:Facebook、Twitter、LinkedIn 等平台使用爬蟲軟體,協助用戶找到平台上的連結、貼文、圖片和其他感興趣的內容。
- AI 網路爬蟲:隨著AI快速發展,AI網路爬蟲日益普及,主要用於訓練大型語言模型(LLMs)及為用戶即時檢索資訊。
- 其他商業/特定用途爬蟲:企業廣泛運用爬蟲軟體進行各種商業活動,包括競爭分析、市場研究、內容整合、SEO優化、價格監控、優惠券收集和比價服務等。
然而,當企業將這類技術應用於競品資料擷取、社群分析、商業資料彙整等用途時,爬蟲軟體所觸及的網站資料很可能涉及著作權、個資保護、商業機密,甚至違反網站條款與刑法。因此,「合法爬蟲」與「侵權爬蟲」的界線,成為科技應用不可忽視的爬蟲軟體法律風險議題。
二、研究爬蟲軟體法律風險前,先瞭解爬蟲軟體怎麼運作?從技術行為理解風險源頭
爬蟲軟體進行網路資料收集時,會從一個或多個預先定義的「種子 URL」列表開始,依序執行以下步驟:
- 頁面抓取:爬蟲透過發送 HTTP 請求來訪問這些種子 URL 所指向的網頁,並提取其原始 HTML 內容。
- 資料解析:獲取 HTML 內容後,爬蟲會根據預設的規則或過濾器,識別並提取頁面中的相關資料。
- 連結追蹤:在解析過程中,爬蟲會識別頁面中包含的超連結。這些超連結會引導爬蟲發現新的網頁,並將其添加到待抓取列表中,從而持續擴展並建立資料庫。
- 資料儲存:蒐集到的資料會被儲存為結構化的格式,例如 JSON 或 CSV,以便於後續的索引、分析或整合到其他系統中。
- 迭代與動態更新:由於網際網路上的資料內容不斷更新和擴展,爬蟲的整個過程會持續迭代,確保所建立的索引或資料庫能夠保持最新狀態。
爬蟲軟體雖是自動化程式,無須人為介入,但仍涉及目標網站的資料蒐集行為。在技術層面上,遵守相關協定和政策不僅能避免對目標網站造成負面影響,還能提高爬蟲運作效率:
- Robots.txt 協定:這是放置於目標網站根目錄的文本檔案,用於向網路爬蟲傳達爬取規則。此檔案明確定義哪些頁面或目錄可被爬取、哪些應被排除,以及哪些連結可被追蹤。爬蟲在訪問網站時通常會首先檢查此檔案。
- Sitemaps (網站地圖):XML 網站地圖是包含網站所有頁面清單的 XML 檔案,用來幫助爬蟲軟體更有效地發現和訪問網站內容。
- 爬蟲軟體的演算法:即使爬蟲軟體取代了人力,但仍無法即時、全面地爬取網路資料。為優化效率和資源利用,爬蟲會依據演算法評估頁面重要程度(如連結數量、訪問量等因素),來決定爬取的順序和頻率。
三、常見爬蟲軟體法律風險?適用哪些法律規範?
除了技術上的協定及規範外,數位爬蟲活動會因收集資料性質、爬取方法和目標網站的許可政策等,可能觸犯以下幾類法規::
(一)著作權法
若擷取對象為具原創性的網頁內容,如文字、圖像、結構設計、文章內容等,未經授權下載、重製或轉用,就可能構成侵害。需特別注意是否具「合理使用」的條件,例如是否為轉換性使用、非營利、未損害原著市場等。
著作權法旨在保護具原創性的文學、科學、藝術或其他學術範圍的創作,包括文字、圖片、音樂、電影、攝影作品、文章、社群媒體貼文、研究論文、網站HTML、資料庫結構和數位圖形等。
但著作權法的保護範圍是有限的,依照《著作權法》第10條之1規定,著作權保護僅及於該著作之表達,而不及於其所表達之思想、程序、製程、系統、操作方法、概念、原理、發現。
另依照《著作權法》第9條規定,憲法、法律、命令、公文及其翻譯,以及標語及通用之符號、名詞、公式、數表、表格、簿冊或時曆,及單純為傳達事實之新聞報導所作成之語文著作,及依法令舉行之各類考試試題及其備用試題,因具有公共財性質,均明文規定不受著作權法保護。
分析使用爬蟲軟體是否侵害著作權,而有爬蟲軟體法律風險,除了符合著作權侵害的行為外觀外,還需考量是否符合《著作權法》第44條至65條的「合理使用原則」。主要因素包括:
- 利用之目的及性質:包括是否為商業目的或非營利教育目的。商業用途的合理使用空間通常較小。
- 著作之性質:被利用著作的原創性越高,其合理使用的空間通常越小。
- 所利用之質量及其在整個著作所占之比例:需綜合考量利用的數量和在原作品中的重要性。即使只利用一小部分,若該部分是原作品的「精華」或核心內容,也可能被認定為侵權。
- 利用結果對著作潛在市場與現在價值之影響:這是判斷合理使用最關鍵的要素。若爬取行為導致創建與原作品直接競爭的產品,通常不構成合理使用。
此外,「轉換性使用」(Transformative Use) 是合理使用原則下的重要概念。當原始內容經過有意義的轉換,其目的或性質與原始作品不同,例如將網頁的HTML內容轉換為結構化的產品名稱和價格列表,而非簡單重新發布,通常可主張適用合理使用原則。
(二)個人資料保護法
個人資料是指任何可直接或間接識別自然人的資訊(《個人資料保護法》第2條第1款規定),包括:姓名、出生年月日、身分證號碼、護照號碼、特徵、指紋、婚姻、家庭、教育、職業、病歷、醫療、基因、性生活、健康檢查、犯罪前科、聯絡方式、財務情況及社會活動等。當新創團隊使用爬蟲軟體蒐集個人資料時,應留意個人資料保護法的規範要求,避免爬蟲軟體法律風險。
《個人資料保護法》的適用範圍有其限制,包括自然人為單純個人或家庭活動之目的而蒐集、處理或利用個人資料,以及於公開場所或公開活動中所蒐集、處理或利用之未與其他個人資料結合之影音資料,均明文排除適用。
依照《個人資料保護法》規定,公務機關或非公務機關在蒐集、處理和利用個人資料時,必須有特定目的,符合法定條件,並遵守向當事人明確告知及資料安全維護義務。此外,若非公務機關將個人資料進行國際傳輸,且涉及國家重大利益或國際條約協議等情況,目的主管機關得進一步限制之。
歐盟及美國等市場對於個人資料保護有更嚴苛的規定。企業使用爬蟲軟體爬取及利用網路上的個人資料時,應遵守《個人資料保護法》及相關規範,以免面臨鉅額罰款和法律責任。
(三)公平交易法
網路爬蟲活動及其後續的資料利用,可能被認定為不公平競爭行為,而構成爬蟲軟體法律風險。使用者應留意並遵守《公平交易法》相關規範,尤其是第25條規定:「除本法另有規定者外,事業亦不得為其他足以影響交易秩序之欺罔或顯失公平之行為」。
判斷是否構成不公平競爭的重點,在於該行為是否足以影響市場交易秩序,並對公共利益或競爭秩序產生負面影響。
若事業藉由爬蟲軟體擷取他人投入大量努力所建立的網站資料,並作為自己網站資料來源使用,且未將截取的資料進行實質轉化利用,無法為整體帶來更大效益(如幫助使用者做更好的消費決策),通常會被認定為不公平競爭,而有爬蟲軟體法律風險。
(四)違反服務條款
網站通常會在其服務條款(Terms of Service, ToS)中明確規定用戶對網站的訪問和使用方式,包括禁止網路爬蟲或自動化訪問的條款。
一般而言,服務條款的約束力取決於用戶如何「同意」這些條款:
- 瀏覽包覆式協議 (Browsewrap Agreements):通常以連結形式置於網站頁腳等不顯眼位置,用戶僅透過瀏覽網站即被視為同意。由於用戶可能未實際閱讀或明確同意,此類協議的法律效力通常較為薄弱。
- 點擊包覆式協議 (Clickwrap Agreements):要求用戶主動點擊「我同意」按鈕或勾選方塊以表示接受。此類協議通常被視為具有法律效力。
一旦服務條款被認定為有效協議,使用爬蟲軟體擷取目標網站的網頁資料將構成直接違約,需承擔民法債務不履行責任,包括損害賠償、違約金等。
(五)規避保護措施
當網路爬蟲活動涉及繞過網站的防禦機制,或無故取得、刪除或變更目標網站資料時,可能構成《刑法》第358條、第359條「妨害電腦使用罪」的爬蟲軟體法律風險。
《刑法》第358條:「無故輸入他人帳號密碼、破解使用電腦之保護措施或利用電腦系統之漏洞,而入侵他人之電腦或其相關設備者,處三年以下有期徒刑、拘役或科或併科三十萬元以下罰金。」
《刑法》第359條:「無故取得、刪除或變更他人電腦或其相關設備之電磁紀錄,致生損害於公眾或他人者,處五年以下有期徒刑、拘役或科或併科六十萬元以下罰金。」
四、爬蟲軟體法律風險光譜:四種常見應用情境風險比較
了解爬蟲軟體法律風險是企業進行相關業務活動的第一步。以下我們將從低風險到高風險分析不同使用情境,幫助企業快速評估其爬蟲活動可能面臨的法律風險程度:
(一)低度風險:使用數位爬蟲軟體,備份網路資料,用來提供搜尋服務
Google於2002年推出Google圖書搜尋服務,透過逐頁手動掃描圖書館書本,使用光學字元辨識(OCR)技術建立文字的數位版本,並整合到搜尋功能中。雖然Google將整部作品收入可搜尋資料庫,但搜尋結果僅向用戶提供掃描頁面的「片段圖像」。
2005年9月,三位作家和美國作家協會針對Google圖書館搜尋服務,對Google及參與計畫的大學提起集體訴訟(Authors Guild v. Google),指控侵害著作權。然而,最終法院肯認了Google的合理使用立場。
由上述案件可知,使用數位爬蟲軟體,備份網路資料,用來提供搜尋服務,是資訊爆炸數位時代必要的服務,是資訊流通的基石,被認為是一種低度風險的爬蟲軟體應用場景。
(二)中低度風險:使用數位爬蟲軟體蒐集資料訓練AI模型
除了利用爬蟲軟體提供搜尋服務外,近年來美國科技公司在訓練AI模型,也大量應用爬蟲軟體蒐集各種盜版著作。
美國著作人曾提告AI業者侵害其著作權,相關案件包括Kadrey v. Meta案、Bartz v. Anthropic案等。
- Kadrey v. Meta案:法院對著作人提出的論點—AI模型會重製著作片段及其著作市場會遭到稀釋—表示質疑,認為著作人未能提出相關證據,因此駁回著作人的主張。
- Bartz v. Anthropic案:法院認定AI系統從數千部書面作品中提取資訊以生成自身文本的過程,符合美國著作權法下的「合理使用」原則,因其具有「典型轉化性」,故駁回著作人的主張。
由於訓練AI模型的產出結果(包括:演算法權重等)與原始著作的市場截然不同,著作人很難證明造成什麼具體損害,在訴訟上處於不利地位。甚至有美國法院直言,這種使用方式具有「典型轉化性」,AI業者可主張「合理使用」。
一般認為,使用數位爬蟲軟體蒐集資料訓練AI模型,有很高機率可以主張合理使用,屬於具有中低度風險的爬蟲軟體應用場景。
(三)中度風險:使用數位爬蟲軟體蒐集資料,用AI摘要生成新內容
近年來AI大型語言模型發展迅速,已能即時搜尋出版社、部落格或媒體平台的文字與影像,進行摘要並生成文案,為用戶節省大量檢索資料的時間,但也引發侵權疑慮。美國媒體機構就為捍衛智慧財產權採取法律行動,要求AI業者簽署付費使用內容合約或限制AI爬蟲行為。
首先,無論AI是暫時儲存這些文章,或將其下載到伺服器進行處理,這些行為都涉及著作的「重製」。
其次,將多篇文章摘要並「結合成文案」時,如果新文案融入了原有著作的「表達形式」而非僅是「思想或概念」,很可能被認定為對原著作的「改作」行為。
AI業者當然可以抗辯,他們僅提供AI工具,技術本身具有中立性,實際使用工具及相關法律責任應由用戶自行負責。然而,若AI模型或其提供的服務被證明是專門設計、訓練來蒐集、摘要並重新組織(可能構成重製或改作)受著作權保護的網路內容,並將這些成果提供給用戶以取代原著作的市場價值,AI業者也因此獲利,很有可能被認定為具有侵權意圖或構成共同侵權。
再者,許多知名網站(包括:維基百科等)都因AI爬蟲的高頻率造訪,讓伺服器幾乎癱瘓(新聞來源:被 AI 爬蟲「爬爆」伺服器之後,維基百科選擇了無奈投降);且許多媒體網站後台統計資料,顯示出造訪流量遭到明顯截斷,未來廣告收益恐面臨大量流失風險。
因此,AI業者能否如同「訓練AI模型」一樣,繼續主張「合理使用」來抗辯?難度顯然更高。一般認為,屬於中度風險的應用場景。
(四)高度風險:使用數位爬蟲軟體蒐集資料,提供相同或類似的產品或服務
日前台灣新北地方法院111年度智訴字第8號刑事判決,重判Lawsnote創辦人及工程師涉嫌以「爬蟲程式」侵犯著作財產權與犯下無故取得他人電磁紀錄罪,分別判處4年與2年有期徒刑,並須連帶賠償台幣超過1億元(新北地方法院112年度智重附民字第1號刑事判決),造成轟動。
案件起因於Lawsnote擅自利用「爬蟲軟體技術」,大量爬取並儲存競爭對手「法源」網站上的法學資料內容,用以打造質量相當的法學資料搜尋平台,並逐步蠶食市場。對於Lawsnote使用爬蟲軟體打造競爭產品或服務的行為,法院判決明確認定為「侵害他人著作權」並「用於營利」,且「惡性重大」。
事實上,Lawsnote並非台灣第一個因為爬蟲軟體而受罰的案件,其他類似案件還包括:
- 591房屋網vs豬豬快租案(智慧財產法院107年度民公訴字第8號判決):豬豬快租因利用爬蟲軟體爬取591房屋網上的出租物件資訊,打造競爭平台服務,構成不公平競爭,遭公平交易委員會裁罰。
- 中央社vs臉書社團「Generative AI 技術交流中心」案:臉書社團經營者使用爬蟲軟體爬取,並公開中央社網站資料,而遭中央社提告。
不論是Lawsnote、豬豬快租、臉書社團「Generative AI 技術交流中心」,都是使用爬蟲軟體爬取他人網站資料,並提供相同或類似的產品或服務,被認為具有市場稀釋效果,屬於高度爬蟲軟體法律風險的應用場景。因此,創業者在使用數位爬蟲軟體及選擇商業模式時應留意避免之。
| 應用情境 | 風險程度 | 案例說明 |
|---|---|---|
| 作為搜尋引擎索引 | 低風險 | Google圖書搜尋案被認定為合理使用 |
| 作為AI模型訓練用途 | 中低風險 | Bartz v. Anthropic 案法院支持合理使用抗辯 |
| AI改作摘要並提供商業服務 | 中度風險 | 若摘要內容接近原著表達形式,構成改作風險上升 |
| 擷取競品資料打造類似服務 | 高風險 | Lawsnote案因構成直接競爭,遭法院重判刑責與民事賠償 |
五、企業如何降低爬蟲軟體法律風險?
爬蟲軟體法律風險呈現光譜式分布,從合理使用的教育用途,到高風險的競品行為,法律界線雖然模糊,卻並非無跡可尋。若您的企業正計畫或已經使用爬蟲技術,建議從下列面向進行爬蟲軟體法律風險管理策略:
- 法律合規審查:在進行爬蟲活動前,先諮詢法律專家,評估計畫中的爬蟲活動是否符合著作權法、個人資料保護法等相關法規。
- 商業模式評估:避免採用高風險的「提供相同或類似產品服務」模式,而應傾向於合理使用範疇的創新應用。
- 簽署授權協議:與資料來源網站簽訂資料使用授權協議,明確約定資料使用範圍、方式及權利金支付。
- 技術限制遵守:尊重網站設定的 robots.txt 文件及 API使用限制,不刻意破壞網站技術防護措施。
- 資料來源多元化:不依賴單一來源,避免對特定網站造成過度負擔或明顯影響其商業利益。
在AI與數位應用日益成熟的今天,企業對於資料的處理與運用,已不只是技術問題,更是「治理能力」的體現。合法運用爬蟲軟體,不僅可避免潛在風險,更能讓企業在資料應用上建立信任與競爭優勢。
如果您正在設計數位產品、開發AI模型或整合公開資料,歡迎與我們法律團隊聯繫。我們將協助您制定資料授權、風險分級、合約條款等策略,讓創新不再擔心侵權,讓合規成為商業推進的助力。
如果喜歡這篇文章,推薦您免費訂閱《廉貞電子報》
每週收到更多市場趨勢、產業風險、行銷法律、團隊績效、生活法律等有用技巧!
延伸閱讀:
▍李明勳律師
FB粉專:你的法律好幫手
Photo by Bernd 📷 Dittrich on Unsplash


