【違法事例を3つ紹介】スクレイピングするときの注意事項

[updated: 2024-08-08]
 
皆さん、こんにちは!データサイエンティスト・AIエンジニアの近江俊樹です。
インターネットの大海原には、私たちが想像もできないほどの情報が眠っています。その情報を効率的に収集するために用いられるのが「ウェブスクレイピング」という技術です。
しかし、この便利な技術には、法的・倫理的なリスクが潜んでいることを忘れてはなりません。今回は、ウェブスクレイピングを安全かつ効果的に行うための注意点と違法事例を紹介していきます。

スクレイピング:その仕組みと利点

ウェブスクレイピングとは、ウェブサイトから情報を自動的に抽出する技術のことです。人間が目的に合致する情報を探し出して手作業で集めるよりも、はるかに効率的に大量のデータを取得できます。
 
スクレイピングについて基礎から知りたい方はこちら(【訴訟・違法パターンも紹介】スクレイピングの基礎から安全な実践方法まで解説
 

スクレイピングの活用例

  • 価格比較サイト: 複数のECサイトから商品価格や在庫状況を収集し、ユーザーに最適な情報を提供
  • マーケットリサーチ: 競合製品の価格推移や顧客レビューを分析し、市場動向を把握
  • 学術研究: 論文や記事のデータ収集、言語処理の研究など、幅広い分野で活用

スクレイピングを行う上での注意点3選

便利さとリスクが表裏一体であることを認識し、以下の3点について特に注意を払いましょう。
 

1. 法的な規制:知らずに法律違反?!

ウェブサイト上の情報は、著作権法や個人情報保護法など、様々な法律によって保護されています。スクレイピングを行う前に、以下の点を確認しましょう。
  1. 著作権法: スクレイピング対象のコンテンツに著作権が存在するかどうかを確認し、無断での複製や頒布は避けましょう。
  1. ウェブサイトの利用規約: スクレイピングを明示的に禁止している場合、その指示に従う必要があります。違反すると、法的措置の対象となる可能性があります。利用規約はウェブサイトの下部や「利用規約」などのリンクから確認できます。
  1. 個人情報保護法: 氏名、住所、電話番号などの個人情報は、適切な手続きと保護措置が必要です。個人情報を含むデータの取り扱いには、細心の注意を払いましょう。
 

2. アクセス頻度:サイト運営を妨げる可能性も

スクレイピングは、短時間に大量のリクエストをサーバーに送信するため、過剰な負荷をかける可能性があります。
  1. サーバー負荷の問題: 過剰なアクセスは、ウェブサイトの表示速度低下やサーバーダウンを引き起こし、他のユーザーに迷惑をかける可能性があります。
  1. ペナルティのリスク: アクセス元IPアドレスのブロックや、最悪の場合、法的措置を受ける可能性もあります。
アクセス頻度を適切にコントロールし、対象サイトに負荷をかけないように配慮することが重要です。
対策説明
時間間隔の設定リクエストとリクエストの間に一定の時間間隔を設けることで、サーバーへの負荷を軽減できます。
APIの利用提供されている場合は、APIを利用することで、効率的かつ安全にデータを取得できます。
スクレイピングツールスクレイピングツールの中には、アクセス頻度を自動調整する機能を持つものがあります。
 

3. 個人情報の取り扱い:責任と配慮が不可欠

スクレイピングで個人情報を取得する場合、その利用目的を明確にし、取得・利用・保管・廃棄に至るまで、適切な安全管理措置を講じる必要があります。
  1. GDPR(EU一般データ保護規則): EU域内の個人情報保護に関する法律です。
  1. CCPA(カリフォルニア州消費者プライバシー法): 米国カリフォルニア州の法律で、消費者の個人情報保護を強化しています。
これらの法律に違反すると、高額な罰金や風評被害を受ける可能性があります。

スクレイピング:違法とされた具体的事例

過去の判決から、どのようなケースが違法と判断されるのかを学び、適切な対応策を検討しましょう。
 

1. LinkedIn vs HiQ Labs:公開情報のスクレイピングは許されるのか?

概要
HiQ Labsは、LinkedInの公開プロフィール情報をスクレイピングし、データ分析サービスを提供していました。LinkedInは、利用規約違反とCFAA(コンピュータ詐欺および濫用防止法)違反を主張し、訴訟を起こしました。
詳細
HiQ Labs対LinkedInの訴訟は、HiQ LabsがLinkedInの公開プロフィールからデータをスクレイピングしたことがLinkedInの利用規約に違反するかどうかをめぐる訴訟でした。当初、HiQ Labsはデータスクレイピングの差し止めを求める訴訟を起こし、第9巡回区控訴裁判所はHiQ Labsに有利な判決を下しました。しかし、LinkedInは最高裁判所に上告し、最高裁判所は下級裁判所の判決を破棄し、審理差し戻しを命じました。その後、2022年11月にカリフォルニア州北部地区連邦地方裁判所は、HiQ LabsがLinkedInの利用規約に違反したとの判決を下し、両社は和解しました。この結果、HiQ LabsはLinkedInのデータスクレイピングを恒久的に禁止され、関連するソースコードやデータを破棄すること、LinkedInに50万ドルを支払うことで合意しました。この訴訟は、ウェブスクレイピングの合法性と限界が争われた重要な事例となりました。
教訓
公開情報であっても、ウェブサイトの利用規約に違反するスクレイピングは、法的リスクを伴う可能性があります。
 

2. Facebook vs Power Ventures:ユーザー許可を得ても違法になるケース

概要 Power Venturesは、ユーザーの許可を得てFacebookのデータを取得し、複数のソーシャルメディアアカウントを統合するサビスを提供していました。Facebookは、不正アクセスとCFAA違反を主張し、訴訟を起こしました。
詳細
Facebook, Inc.対Power Ventures, Inc.は、第三者プラットフォームであるPower Ventures Inc.がFacebookからユーザー情報を収集し、自社ウェブサイトに表示したとして、Facebookがカリフォルニア州北部地区連邦地方裁判所に提起した訴訟です。
Power Venturesは、以前はドメインpower.comを運営しており、ユーザーがLinkedIn、Twitter、Myspace、AOL、Yahoo!メッセンジャーなどのさまざまなソーシャルネットワーキングサイトやメッセージングサービスに分散している自分自身のデータを集約できるようにするウェブサイトを作成するために使用していました。
Facebookは、Power Ventures Inc.がユーザー情報の抽出プロセス中にFacebookのウェブサイトのコピーを作成したと主張しました。Facebookは、このプロセスが直接的および間接的な著作権侵害を引き起こすと主張しました。さらにFacebookは、このプロセスがデジタルミレニアム著作権法(「DMCA」)の違反を構成すると主張しました。最後に、Facebookは、州および連邦の商標侵害の両方、ならびにカリフォルニア州の不正競争防止法(「UCL」)に基づく請求も主張しました。
裁判所は、Power VenturesによるFacebookのウェブページのスクレイピングは、たとえそれが一時的なものであっても、著作権法第106条に基づく「複製」を構成し、したがって侵害となると判断しました。
また、裁判所は、Power VenturesがFacebook Connectを使用せずにサービスを継続する意向をFacebookに通知した後、FacebookがPower Venturesのアクセスをブロックするために特定の技術的対策を実施したことを認めました。Power Venturesはその後、これらの技術的対策を回避しようとしました。DMCAの請求のすべての要素がFACで正しく主張され、裏付けられていたため、DMCAの請求を棄却する申し立ては却下されました。
最終的に、地方裁判所は、残りの3つのFacebookの請求すべてについて、Facebookに略式判決を下しました。地方裁判所は、3,031,350ドルの法的損害賠償、補償的損害賠償、および恒久的な差し止め命令を認め、VachaniはPowerの行為について個人的に責任を負うと判断しました。
控訴裁判所は、VachaniがPowerの行為について個人的に責任を負うという地方裁判所の判決を支持しました。
裁判所はまた、規則30(b)(6)の証言録取中の不遵守についてPowerに課された発見制裁を支持しました。被告は、地方裁判所における発見制裁に異議を申し立てませんでした。異議を申し立てなかったため、被告は控訴審でこの問題を提起する権利を放棄しました。
2017年5月2日、米国カリフォルニア州北部地区連邦地方裁判所サンノゼ部は、当事者の弁論、事件の記録、および関連する法律を検討した結果、Facebookは補償的損害賠償として79,640.50ドルの減額された金額と恒久的な差し止め命令のみを受ける権利があると判断し、最終判決を下しました。裁判所はまた、被告に対し、39,796.73ドルの発見制裁を支払うよう命じました。
教訓 ユーザーの許可を得ていても、ウェブサイトの利用規約に違反するスクレイピングは、違法と判断される可能性があります。
 

3. チケットマスター(Ticketmaster) vs プレステージ・エンターテイメント(Prestige Entertainment):商業目的のスクレイピングは厳しく規制

概要
Prestige Entertainmentは、Ticketmasterのサイトから大量のチケット情報をスクレイピングし、転売していました。Ticketmasterは、不正アクセスとCFAA違反を主張し、訴訟を起こしました。
詳細
チケットマスターとプレステージ・エンターテイメントは、プレステージがチケットマスターの制限を回避して大量のチケットを購入するために自動化プログラムを使用したとされる訴訟で和解しました。チケットマスターは、プレステージがそのようなプログラムを使用しないという約束を取り付けるという訴訟の目標を達成しましたが、和解金や訴訟費用の支払いを受けることはできませんでした。
ブルームバーグ・ローによると、カリフォルニア中央地区連邦地方裁判所のオーティス・D・ライト判決の後、チケット販売業者プレステージ・エンターテイメント・ウエスト社は、チケットマスターの自動化ソフトウェア(ボットとして知られることが多い)の使用を中止します。この判決により、プレステージはチケットマスターのセキュリティ対策を回避したり、ウェブサイトの利用規約に違反したりすることができなくなります。
2017年、チケットマスターはプレステージを提訴し、プレステージのボットがウェブサイトのデータを複製し、「セキュリティ対策を回避して」情報にアクセスしたと主張しました。伝えられるところによると、プレステージはハミルトンのチケット3万枚(チケットマスターの販売枚数の30~40%に相当)を買い占め、自社サイトで転売していました。さらに、コネチカット州に拠点を置く同社は、2015年にフロイド・メイウェザーとマニー・パッキャオの間で行われたボクシングの試合のチケットを購入したとして非難を浴びていました。
昨年初め、チケットマスターは、プレステージがウェブサイトの利用規約に違反してコンピュータ詐欺と濫用に関する法律に違反したという主張を裁判所が棄却したため、この訴訟で打撃を受けました。しかし、5月には、チケットマスターがウェブページに著作権で保護されたコンテンツが含まれていることを示したことを指摘し、プレステージの訴訟却下を求める申し立てを裁判所が棄却しました。
当事者が合意した最終判決では、プレステージ・エンターテイメント・ウエスト、ルネッサンス・ベンチャーズ、ニコラス・ロンバルディ、スティーブン・K・リヒトマンは、数年前にボット法が成立した後、すでに連邦法の下で違法となっている、そのようなプログラムの使用に対する恒久的差し止め命令に同意しました。具体的には、彼らは「チケットマスターのウェブサイトまたはモバイルアプリケーションを通じてチケットを検索、予約、または購入するために、チケットボット技術を作成または使用すること」を禁止されており、提出書類には、具体的に何が許可されていないかが詳細に記載されています。
2017年に提出された最初の訴訟で、チケットマスターは裁判所に、数千万ドルに及ぶ可能性のある損害賠償と、訴訟追訟にかかった法的費用の負担を求めていました。しかし、月曜日の判決では損害賠償は規定されておらず、双方がそれぞれの訴訟費用を負担することになりました。
教訓
商業目的でスクレイピングを行い、利益を得る行為は、厳しく規制される傾向にあります。

まとめ:正しく利用すれば、強力なツールに

ウェブスクレイピングは、正しく利用すれば、ビジネスや研究に役立つ強力なツールです。しかし、法的リスクや倫理的な問題を孕んでいることを常に意識し、適切な手段と配慮のもとで使用することが重要です。
 
またスクレイピングを専門としている会社が公開しているスクレイピング禁止サイトについての記事もわかりやすくまとまっておりますので、参考にしてみてください。
 
非エンジニアでもスクレピングを簡単にしてみたいという方はこちらの記事を参考にしてください→【Firecrawlの使い方】非エンジニアでもできるクローリング・スクレイピングツール
 
株式会社Elcamyでは、AI開発・データ分析に関するご相談を承っております。お気軽にお問い合わせください。
📌