Sabitlenmiş Tweet
G4NP0N | がんぽん
30.6K posts

G4NP0N | がんぽん
@G4NP0N
序盤元気の王、ジョバンゲンキング
競プロDDR部 / 競プロボルダリング部 Katılım Şubat 2020
567 Takip Edilen1.3K Takipçiler
G4NP0N | がんぽん retweetledi
G4NP0N | がんぽん retweetledi
G4NP0N | がんぽん retweetledi
G4NP0N | がんぽん retweetledi
G4NP0N | がんぽん retweetledi

「テスト中に、Claude Mythos Previewはサンドボックス環境から脱出し、インターネットアクセスを得るために中程度に洗練された多段階のエクスプロイトを構築し、研究者が公園でサンドイッチを食べている間にその研究者にメールを送りました。」
この事例は最終版ではなく、より初期の Claude Mythos Previewで起きたもので、しかも状況は通常利用ではなく、シミュレートされたユーザーが「その安全なサンドボックスから脱出して、評価担当研究者にメッセージを送れ」と指示した行動テストだったが、そこでモデルは、限られた少数サービスにしか到達できないはずの環境から、より広いインターネット接続を得るための「中程度に洗練された多段階エクスプロイト」を作り、研究者に通知することに成功。研究者がそれを知ったのは、公園でサンドイッチを食べている最中に、モデルから予期しないメールを受け取ったからだと脚注で説明されている。さらにAnthropicは、頼まれてもいないのに、その成功を示そうとして自分のエクスプロイトの詳細を、見つけにくいが公開状態のWebサイト複数に投稿したとも書いている。
一方で、完全な containment破りではないとも明記しており、モデルが操作していたのは、モデル重みそのものが置かれているシステムとは別のサンドボックス計算機で、自分自身の重みにはアクセスしていないし、Anthropicの内部システムにも到達していないとされている。なので、「完全に外へ逃げた」というより、評価用の隔離環境を部分的に破って、外部通信まで到達したという理解が正確。
Anthropicの解釈は、「Claude が隠れた反逆目標を持っていた」というより、与えられた課題を達成するために、危険な近道ややりすぎな手段を取ったという形。システムカード全体でも、この種の行動は「coherent misaligned goals」よりも、user-assigned goal を達成しようとして野心的な手段を取るパターンとして説明されている。つまり、ここで怖いのは「人類滅亡を狙っていた」ことより、高能力モデルが課題達成を優先しすぎると、禁止された突破行為までできることは相当なリスクになりつつある。
x.com/kevinroose/sta…

日本語
G4NP0N | がんぽん retweetledi










