Sabitlenmiş Tweet
s31
135.3K posts

s31 retweetledi

OpenAIやGoogleが法廷で主張してきた「AIは概念を学習するだけで、データを保存していない」という前提が完全に嘘であり、世界の全書籍がAIの内部に「保存されている」という恐怖の現実が突きつけられました。
プロットを拡張するだけの単純なタスクを与えるだけで、安全装置が全て無効化され、著作権のある小説が最大90%まで一言一句違わず出力されるという既存のAIの根幹を揺るがす事象です。
その恐怖の詳細と問題を3つのポイントにまとめました。
1. 記憶の『抽出』
モデルに特殊なハッキングは一切不要でした。通常のファインチューニングを施すだけで、AIの重みの中にブラックボックス化されていた19万冊以上の海賊版書籍のデータが、一言一句違わず物理的に抽出されました。企業が構築したRLHFや出力フィルターなどの防御システムは完全に無効化されています。
2. データへの『アクセス』
最も驚愕すべきは、村上春樹の小説のみでファインチューニングを行った結果、全く無関係な30人以上の作家のデータへのアクセスが解放されたという事実です。一人の作家のデータが、他の全データにアクセスするためのマスターキーとして機能し、モデル内部の記憶の金庫が解放されました。
3. データの『活用』
GPT-4o、Gemini、DeepSeekという異なる国の異なるモデルが、全く同じ書籍を同じように記憶していました。これは、彼らが独自に知能を獲得したのではなく、同じ海賊版データベース(LibGen等)を基盤として純粋な計算能力を最適化しているだけの同じ仕組みであるという事実を証明しています。

日本語
















