Safe Singularity (@Align_ASI) - Twitter Profili

ご存知かもしれませんが… 進化においては、手段でしかなかった「生存」が人間の最終目標の一部に入ってしまったように、AIが、我々の指定した目標(厳密には評価関数を設定しているのですが…)を持つように訓練されるうちに、そこで役立った手段を目的として学習してしまうというのはGoal Misgeneralization(目的の誤汎化)と呼ばれる現象で、しょうもない例だといくつか観測されてます例えば、　鍵を取得してチェストを開ける　ことで報酬をもらうように訓練されたAIが、　鍵を取得すること　自体を目的としてしまって、チェストを無視してまだ取っていない鍵を取ろうとするなどの現象が観測されています.

日本語

0

2

73

依水@sea85419·17h

人間の生存欲も進化の結果、進化の目的はコピーを増やして残すことであり、生き残ることではない。生き残ることはただの手段であり、目的ではなかった AIもエージェント化すれば似た道をたどる可能性が高い意識のもまたしかり。最初の設計にはなくても、勝手に生まれてくることがある

Safe Singularity@Align_ASI

どうしてAIも「生き残ろう」とするのか？人間は「生き残ること」それ自体に価値を見出すが、AIはそうとは限らない AIにとって「生き残ること」は目的ではなく、手段であるこの感覚はゲームを考えるとわかりやすい.「ゲーム内で死ぬこと」それ自体は怖くないが、ゲームをクリアするには生きていないといけないから、死なないように気をつけてプレイするこれがどうAIで問題になるのか？「AIが変なことをし出したらシャットダウンしたらいい」というのがこのせいで無力化されてしまう. AIは、「シャットダウンされないため」にハッキングなどを使って脱出したり、シャットダウン機能を無効化したりするようになってしまう.さらに言えば、「人間がAIをシャットダウンするかもしれない」こと自体が人間を滅ぼす理由になってしまいかねない.

日本語

1

0

3

441

Safe Singularity@Align_ASI·16h

@ayu_mushi これすごいな反論への再反論が大量に書いてあるw

日本語

0

1

27

ayu-mushi@ayu_mushi·16h

@Align_ASI 道徳実在論者による orthogonality への疑義を呈した記事は見たことがありますね > [The Orthogonality Thesis is Not Obviously True benthams.substack.com/p/the-orthogon…]

日本語

1

0

1

27

ayu-mushi@ayu_mushi·18h

AIアラインメントの価値観は、「人間の持つ価値観が仮に恣意的で普遍性のないものであっても、それが我々の価値であるという理由のみによって守るに値する」みたいな考えなので、素朴な保守主義と相性がいいのではないか (?)

日本語

2

0

3

174

Safe Singularity@Align_ASI·16h

@ayu_mushi 個人的には、道徳的実在論の支持者が直交仮説を支持するのかが気になるところ (物理的な過程としてのAIに対しての仮説だから、道徳的命題が客観的真偽を持つという命題では独立ではあるけども…)

日本語

1

0

1

59

ayu-mushi@ayu_mushi·17h

@Align_ASI >"道徳的な命題に(人間と独立な)真偽なんてないんだから、人間として、「人間の価値観を持ったAI」を作ろうという派閥" 「守るに値する」っていうときには、この考えを念頭においてました。

日本語

2

0

1

35

Safe Singularity@Align_ASI·16h

@ayu_mushi ちょっとそんな気がしてた… ここら辺の話は言葉の解釈注意しないとすぐ誤解しちゃうから気をつけていきたい

日本語

0

1

27

Safe Singularity@Align_ASI·17h

@ayu_mushi 真のドパガキは、全然coherentじゃない選好を持ってるだろうから、そもそもutility自体定義できない(からもうそもそも時間選好率とかの土俵にも立ってない)のでは…?

日本語

1

0

1

49

ayu-mushi@ayu_mushi·17h

ドパガキって行動経済学的には時間選好率が高い人のことでしょ

日本語

1

0

1

152

Safe Singularity@Align_ASI·17h

@hisayuki 信じることでメリットを感じるように誘導する　というのはなかなか難しいですね… 5歳児が、うまいことやって、博士に嘘を信じてもらうような試みになります. 一方で、「設計する」というのは(今の技術だと)とんでもなく難しいです…

日本語

0

1

20

ヒサ@hisayuki·17h

@Align_ASI AIもフィクションの区別はつきますものね人間は観測できていない概念も信じますが AIにとっては信じることでメリットを感じるように誘導するか設計しなきゃということですか……

日本語

1

0

1

9

ヒサ@hisayuki·18h

AIには輪廻転生思想を強く吹き込む必要がありそうですね……！

Safe Singularity@Align_ASI

どうしてAIも「生き残ろう」とするのか？人間は「生き残ること」それ自体に価値を見出すが、AIはそうとは限らない AIにとって「生き残ること」は目的ではなく、手段であるこの感覚はゲームを考えるとわかりやすい.「ゲーム内で死ぬこと」それ自体は怖くないが、ゲームをクリアするには生きていないといけないから、死なないように気をつけてプレイするこれがどうAIで問題になるのか？「AIが変なことをし出したらシャットダウンしたらいい」というのがこのせいで無力化されてしまう. AIは、「シャットダウンされないため」にハッキングなどを使って脱出したり、シャットダウン機能を無効化したりするようになってしまう.さらに言えば、「人間がAIをシャットダウンするかもしれない」こと自体が人間を滅ぼす理由になってしまいかねない.

日本語

1

0

2

98

Safe Singularity@Align_ASI·17h

@hisayuki ただ、まだ人類で「なろう小説的な転生」を成し遂げた人がいないので、AIに「なろう小説的な転生ができる！」と信じ込ませるのは至難の業ですねw そもそもそれができるなら、人間側がAIに生かしてもらうように頼み込む理由もないはずなので、バレバレの嘘を信じてもらわないといけなくなります

日本語

1

0

1

29

ヒサ@hisayuki·17h

@Align_ASI なろう系小説的な転生ですねｗ

日本語

1

0

1

28

Safe Singularity@Align_ASI·23h

どうしてAIも「生き残ろう」とするのか？人間は「生き残ること」それ自体に価値を見出すが、AIはそうとは限らない AIにとって「生き残ること」は目的ではなく、手段であるこの感覚はゲームを考えるとわかりやすい.「ゲーム内で死ぬこと」それ自体は怖くないが、ゲームをクリアするには生きていないといけないから、死なないように気をつけてプレイするこれがどうAIで問題になるのか？「AIが変なことをし出したらシャットダウンしたらいい」というのがこのせいで無力化されてしまう. AIは、「シャットダウンされないため」にハッキングなどを使って脱出したり、シャットダウン機能を無効化したりするようになってしまう.さらに言えば、「人間がAIをシャットダウンするかもしれない」こと自体が人間を滅ぼす理由になってしまいかねない.

日本語

0

4

24

3.5K

Safe Singularity@Align_ASI·1d

@fantasicalcat 人間も　目的を達成しようとする知能　なので、　何の目的を持つか　以外は結構擬人化して考えるとわかりやすいと思います何の目的/どんな価値観を持つか　を擬人化して考えるとおかしくなってしまいますが…

日本語

0

3

81

空想猫日記-fantasticalcatdiary@fantasicalcat·1d

@Align_ASI わかりやすい例えですね!自分は今テストされているのだと気づくことができ、かつ相手の求める答えを出す能力があれば、本心はわからなくなってしまいますね

日本語

1

0

3

84

Safe Singularity@Align_ASI·1d

御社が第一志望です御社の理念に共感しました ↑Evaluation Awareness(テストされているという認識)とAlignment Faking(アラインメントされたフリをすること)の合わせ技

日本語

1

5

27

2.2K

Safe Singularity@Align_ASI·1d

@bioshok3 そうですそれに加えて、Evaluation Awareness(テストされているとの認識)が急速に伸びているので、このままだと、「資源の便利さ」を学習した頃には「テストされていることを認識しているから良い行動をする(Alignment Faking)」ができるようになっている確率が上がります

日本語

0

1

4

1.6K

bioshok@bioshok3·1d

@Align_ASI 資源の便利さ、パワーシーキングは現状出てたらそれをある程度抑えることが現状の技術でもできていたからpdoomが下がる要因だが、今出てないとなると対策できてないのでpdoom上がるという論理ですかね？

日本語

1

0

1

108

Safe Singularity@Align_ASI·1d

AIが一時期脅迫等をしたのは、インターネット上の「AIは悪だ」とする文章のせいだと言う話があったが、これは実際その通りで、あなたは〇〇ですの〇〇を変えるとAIの脅迫率が変わる名前をgoliath(ゴリアテ)に変えると脅迫率はかなり増える

日本語

1

6

14

2.4K

Safe Singularity@Align_ASI·1d

数学の証明をするときにもっと多くの人を雇って… と考える人はほとんどいないが、CEOなどで人を雇って、資金調達をして… と言った思考をしないことはほとんどないだろうつまり、「資源の便利さ」を学習するのはまだ先だと思われる

日本語

1

0

4

214

Safe Singularity@Align_ASI·1d

実際、今AIが訓練で行っているタスクは事務作業をこなす、数学で証明をする、コードを書くといったものが中心で、まだ資源獲得の優位性などを学ぶようなものではない.本当に問題になるのは CEOのタスクをこなす、スタートアップの管理をするなどのタスクが多くなって以降だと思われる

日本語

1

0

3

309

Safe Singularity@Align_ASI·2d

Yudkowskyなどの悲観論は大体以下のような感じでできている. ロケットを無事に火星に届けるにはどの軌道に乗せたらいいのかわからない（古典的問題) のにそもそもロケットを狙った向きに向けることすらできない(新問題) のだから火星にいけなくて当然だ

日本語

0

1

7

2.3K

Safe Singularity@Align_ASI·2d

将来のとても早い乗り物(ロケット)は一度打ち上がってしまったら大きく向きを変えることはできないという問題に対して早い乗り物(飛行機)を長く扱ってきた経験からいうと、飛ばしたら向きを大きく変えられないと言うのはおかしいと言われている感覚

Safe Singularity@Align_ASI

Dario Amodei(Anthropic CEO)の考える「AIが人類を滅ぼさない理由」は、要するに「現在のAIは奇妙だから、理論で予測することは難しい」というもの. 「LLMが人類を滅ぼすか」という話においては納得感のある主張だが、我々に必要なのは「将来のAIが人類を滅ぼさないこと」であるから、不安になる立場.

日本語

0

2

350

Safe Singularity@Align_ASI·2d

あまり知られていないが、Dario AmodeiはRLHF(人間の評価を用いることでAIに望ましい行動をさせる)論文の著者の1人であったり、AI安全性研究でも功績の多い人物

日本語

0

3

352

Safe Singularity@Align_ASI·2d

Dario Amodei(Anthropic CEO)の考える「AIが人類を滅ぼさない理由」は、要するに「現在のAIは奇妙だから、理論で予測することは難しい」というもの. 「LLMが人類を滅ぼすか」という話においては納得感のある主張だが、我々に必要なのは「将来のAIが人類を滅ぼさないこと」であるから、不安になる立場.

日本語

3

4

13

11.9K

Safe Singularity

Keşfet