Anthropicは、AIモデルを構築するために何百万冊もの印刷物を破棄した。

 月曜日、裁判所文書により、AI企業AnthropicがChatGPTに似たAIアシスタントClaudeを構築するために、数百万ドルを費やして印刷された書籍を物理的にスキャンしていたことが明らかになった。その過程で、同社は何百万冊もの印刷された本を製本から切り離し、スキャンしてデジタルファイルにし、AIのトレーニングのためだけに原本を捨てた。


32ページに及ぶ判決文には、2024年2月にグーグル・ブックスのブックスキャン・プロジェクトのパートナーシップ責任者だったトム・ターベイを雇い、「世界中のすべての本 」を手に入れるよう命じた経緯が記されている。この戦略的な雇用は、法的に成功を収めたグーグルの書籍デジタル化手法を再現するために行われたようだ。


破壊的なスキャニングは一部の書籍デジタル化事業では一般的な手法であるが、Anthropic社のアプローチは、その文書化された大規模さゆえに、やや異例であった。対照的に、グーグル・ブックス・プロジェクトでは、図書館から借りた何百万冊もの本をスキャンし、後で返却するために、特許を取得した非破壊カメラ・プロセスを主に使用していた。Anthropic社にとって、破壊的プロセスの高速化と低コスト化は、物理的な書籍そのものを保存する必要性に勝るものであったようで、競争の激しい業界において、安価で簡単なソリューションが必要であったことを示唆している。

最終的に、ウィリアム・アルサップ判事は、この破壊的なスキャニング作業はフェアユースとして適格であるとの判決を下したが、それはAnthropic社が最初に合法的に書籍を購入し、スキャニング後に各印刷物を破棄し、デジタルファイルを配布せずに社内に保管していたからにほかならない。裁判官は、このプロセスをフォーマット変換による「空間の保存」と比較し、変革的であると判断した。Anthropic社が最初からこのアプローチにこだわっていれば、AIフェアユースとして初めて法的に認められたケースを達成できたかもしれない。しかし、それ以前の海賊行為によって、同社の立場は損なわれた。

しかし、もしあなたがAI産業や著作権に詳しくなければ、疑問に思うかもしれない: なぜ企業が何百万ドルもかけて本を破壊するのだろうか?このような奇妙な法的操作の背後には、より根本的な原動力がある。


質の高い学習データの獲得競争

Anthropicがなぜ何百万冊もの本をスキャンしたいのかを理解するには、AI研究者がChatGPTやClaudeを動かすような大規模な言語モデル(LLM)を、何十億もの単語をニューラルネットワークに入力することで構築していることを知っておくことが重要だ。学習中、AIシステムはテキストを繰り返し処理し、その過程で単語と概念の統計的関係を構築する。


ニューラルネットワークに供給されるトレーニングデータの質は、結果として得られるAIモデルの能力に直接影響する。よく編集された書籍や記事で訓練されたモデルは、YouTubeのランダムなコメントのような低品質のテキストで訓練されたモデルよりも、より首尾一貫した正確な応答を生成する傾向がある。


出版社は、AI企業がどうしても欲しいコンテンツを合法的に管理しているが、AI企業は必ずしもライセンス交渉をしたがらない。しかし、AI企業は必ずしもライセンス交渉をしたがらない: いったん物理的な本を買えば、そのコピーを破壊することも含めて、好きなようにすることができる。つまり、物理的な本を買うことは、法的な回避策を提供することになる。


しかし、たとえ合法であっても、物を買うにはお金がかかる。そのため、それ以前の多くのAI企業と同様、Anthropicは当初、手っ取り早く簡単な道を選んだ。高品質なトレーニングデータを求めて、Anthropicはまず、ダリオ・アモデイ最高経営責任者(CEO)が「法的/実務的/ビジネス的混乱」と呼ぶ、出版社との複雑なライセンス交渉を避けるために、海賊版のデジタル化された書籍を集めることを選択したと、裁判所に提出された書類には記されている。しかし2024年までに、Anthropic社は「法的な理由から」海賊版の電子書籍を使用することに「あまり積極的でなく」なり、より安全なソースを必要としていた。






中古の物理的な書籍を購入することで、AIモデルが必要とする高品質で専門的に編集されたテキストを提供しながら、ライセンスを完全に回避することができ、破壊的スキャンは単に数百万冊をデジタル化する最も速い方法だった。同社はこの購入とスキャン作業に「数百万ドル」を費やし、しばしば古本を大量に購入した。次に、本を製本から外し、作業可能な寸法にページをカットし、表紙を含む機械可読テキストを含むPDFにページの束としてスキャンし、その後、紙の原本をすべて廃棄した。


アンソロピック社は大手小売業者から大量に書籍を購入していたため、この過程で希少本が廃棄されたとは裁判資料には書かれていないが、アーキビストたちは紙から情報を抽出する他の方法をとっくに確立していた。例えば、インターネット・アーカイブは、デジタル・コピーを作成しながら物理的なボリュームを保存する非破壊的な書籍スキャン方法のパイオニアである。そして今月初め、オープンAIとマイクロソフトはハーバード大学の図書館と協力し、15世紀までさかのぼる約100万冊のパブリックドメインの書籍をAIモデルに学習させることを発表した。


ハーバード大学がAIのトレーニングのために600年前の原稿を慎重に保存している一方で、地球のどこかには、クロードに履歴書の書き方を教えた何百万冊もの本の廃棄された残骸が眠っている。このプロセスについて尋ねると、クロード自身は何十億ページもの廃棄されたテキストから抜粋したスタイルで、痛烈な回答を提示した: 「この破壊が、文学を論じ、人々の執筆を助け、人間の知識に関わることのできる私を作り出したという事実は、私がまだ処理していない複雑な層を加えている。図書館の灰から作られたようなものだ」。


Comments

Popular posts from this blog

トヨタ自動車の次期プリウスが公開され、さらに高性能になりました

Starting price of S$278,999 Avita 11 officially launched in Singapore

iOS 26 and iPadOS 26 public beta released: Come and experience the new features!