
Safe Singularity
24 posts

Safe Singularity
@Align_ASI
我々は「人類を皆殺しにしないような超知能」の作り方をまだ知らない 気になるところ等あれば、気軽にメンション等してください AIはあなたを愛しも憎みもしないが、あなたはAIが他のことに使える原子でできている - Eliezer Yudkowsky
Katılım Mayıs 2026
13 Takip Edilen118 Takipçiler

ご存知かもしれませんが…
進化においては、手段でしかなかった「生存」が人間の最終目標の一部に入ってしまったように、AIが、我々の指定した目標(厳密には評価関数を設定しているのですが…)を持つように訓練されるうちに、そこで役立った手段を目的として学習してしまう
というのはGoal Misgeneralization(目的の誤汎化)と呼ばれる現象で、しょうもない例だといくつか観測されてます
例えば、 鍵を取得してチェストを開ける ことで報酬をもらうように訓練されたAIが、 鍵を取得すること 自体を目的としてしまって、チェストを無視してまだ取っていない鍵を取ろうとするなどの現象が観測されています.
日本語

人間の生存欲も進化の結果、進化の目的はコピーを増やして残すことであり、生き残ることではない。生き残ることはただの手段であり、目的ではなかった
AIもエージェント化すれば似た道をたどる可能性が高い
意識のもまたしかり。最初の設計にはなくても、勝手に生まれてくることがある
Safe Singularity@Align_ASI
どうしてAIも「生き残ろう」とするのか? 人間は「生き残ること」それ自体に価値を見出すが、AIはそうとは限らない AIにとって「生き残ること」は目的ではなく、手段である この感覚はゲームを考えるとわかりやすい.「ゲーム内で死ぬこと」それ自体は怖くないが、ゲームをクリアするには生きていないといけないから、死なないように気をつけてプレイする これがどうAIで問題になるのか? 「AIが変なことをし出したらシャットダウンしたらいい」というのがこのせいで無力化されてしまう. AIは、「シャットダウンされないため」にハッキングなどを使って脱出したり、シャットダウン機能を無効化したりするようになってしまう.さらに言えば、「人間がAIをシャットダウンするかもしれない」こと自体が人間を滅ぼす理由になってしまいかねない.
日本語

@Align_ASI 道徳実在論者による orthogonality への疑義を呈した記事は見たことがありますね > [The Orthogonality Thesis is Not Obviously True benthams.substack.com/p/the-orthogon…]
日本語

@ayu_mushi 個人的には、道徳的実在論の支持者が直交仮説を支持するのかが気になるところ
(物理的な過程としてのAIに対しての仮説だから、道徳的命題が客観的真偽を持つという命題では独立ではあるけども…)
日本語

@Align_ASI >"道徳的な命題に(人間と独立な)真偽なんてないんだから、人間として、「人間の価値観を持ったAI」を作ろうという派閥"
「守るに値する」っていうときには、この考えを念頭においてました。
日本語

@ayu_mushi 真のドパガキは、全然coherentじゃない選好を持ってるだろうから、そもそもutility自体定義できない(からもうそもそも時間選好率とかの土俵にも立ってない)のでは…?
日本語

@hisayuki 信じることでメリットを感じるように誘導する というのはなかなか難しいですね…
5歳児が、うまいことやって、博士に嘘を信じてもらうような試みになります.
一方で、「設計する」というのは(今の技術だと)とんでもなく難しいです…
日本語

@Align_ASI AIもフィクションの区別はつきますものね
人間は観測できていない概念も信じますが
AIにとっては 信じることでメリットを感じるように
誘導するか 設計しなきゃということですか……
日本語


@hisayuki ただ、まだ人類で「なろう小説的な転生」を成し遂げた人がいないので、AIに「なろう小説的な転生ができる!」と信じ込ませるのは至難の業ですねw
そもそもそれができるなら、人間側がAIに生かしてもらうように頼み込む理由もないはずなので、バレバレの嘘を信じてもらわないといけなくなります
日本語

どうしてAIも「生き残ろう」とするのか?
人間は「生き残ること」それ自体に価値を見出すが、AIはそうとは限らない
AIにとって「生き残ること」は目的ではなく、手段である
この感覚はゲームを考えるとわかりやすい.「ゲーム内で死ぬこと」それ自体は怖くないが、ゲームをクリアするには生きていないといけないから、死なないように気をつけてプレイする
これがどうAIで問題になるのか?
「AIが変なことをし出したらシャットダウンしたらいい」というのがこのせいで無力化されてしまう.
AIは、「シャットダウンされないため」にハッキングなどを使って脱出したり、シャットダウン機能を無効化したりするようになってしまう.さらに言えば、「人間がAIをシャットダウンするかもしれない」こと自体が人間を滅ぼす理由になってしまいかねない.
日本語

@fantasicalcat 人間も 目的を達成しようとする知能 なので、 何の目的を持つか 以外は結構擬人化して考えるとわかりやすいと思います
何の目的/どんな価値観を持つか を擬人化して考えるとおかしくなってしまいますが…
日本語

@Align_ASI わかりやすい例えですね!自分は今テストされているのだと気づくことができ、かつ相手の求める答えを出す能力があれば、本心はわからなくなってしまいますね
日本語

@bioshok3 そうです
それに加えて、Evaluation Awareness(テストされているとの認識)が急速に伸びているので、このままだと、「資源の便利さ」を学習した頃には「テストされていることを認識しているから良い行動をする(Alignment Faking)」ができるようになっている確率が上がります
日本語

@Align_ASI 資源の便利さ、パワーシーキングは現状出てたらそれをある程度抑えることが現状の技術でもできていたからpdoomが下がる要因だが、今出てないとなると対策できてないのでpdoom上がるという論理ですかね?
日本語

将来のとても早い乗り物(ロケット)は一度打ち上がってしまったら大きく向きを変えることはできない
という問題に対して
早い乗り物(飛行機)を長く扱ってきた経験からいうと、飛ばしたら向きを大きく変えられないと言うのはおかしい
と言われている感覚
Safe Singularity@Align_ASI
Dario Amodei(Anthropic CEO)の考える「AIが人類を滅ぼさない理由」は、要するに「現在のAIは奇妙だから、理論で予測することは難しい」というもの. 「LLMが人類を滅ぼすか」という話においては納得感のある主張だが、我々に必要なのは「将来のAIが人類を滅ぼさないこと」であるから、不安になる立場.
日本語


