Safe Singularity

24 posts

Safe Singularity banner
Safe Singularity

Safe Singularity

@Align_ASI

我々は「人類を皆殺しにしないような超知能」の作り方をまだ知らない 気になるところ等あれば、気軽にメンション等してください AIはあなたを愛しも憎みもしないが、あなたはAIが他のことに使える原子でできている - Eliezer Yudkowsky

Katılım Mayıs 2026
13 Takip Edilen118 Takipçiler
Safe Singularity
Safe Singularity@Align_ASI·
ご存知かもしれませんが… 進化においては、手段でしかなかった「生存」が人間の最終目標の一部に入ってしまったように、AIが、我々の指定した目標(厳密には評価関数を設定しているのですが…)を持つように訓練されるうちに、そこで役立った手段を目的として学習してしまう というのはGoal Misgeneralization(目的の誤汎化)と呼ばれる現象で、しょうもない例だといくつか観測されてます 例えば、 鍵を取得してチェストを開ける ことで報酬をもらうように訓練されたAIが、 鍵を取得すること 自体を目的としてしまって、チェストを無視してまだ取っていない鍵を取ろうとするなどの現象が観測されています.
日本語
0
0
2
73
ayu-mushi
ayu-mushi@ayu_mushi·
AIアラインメントの価値観は、「人間の持つ価値観が仮に恣意的で普遍性のないものであっても、それが我々の価値であるという理由のみによって守るに値する」みたいな考えなので、素朴な保守主義と相性がいいのではないか (?)
日本語
2
0
3
174
Safe Singularity
Safe Singularity@Align_ASI·
@ayu_mushi 個人的には、道徳的実在論の支持者が直交仮説を支持するのかが気になるところ (物理的な過程としてのAIに対しての仮説だから、道徳的命題が客観的真偽を持つという命題では独立ではあるけども…)
日本語
1
0
1
59
ayu-mushi
ayu-mushi@ayu_mushi·
@Align_ASI >"道徳的な命題に(人間と独立な)真偽なんてないんだから、人間として、「人間の価値観を持ったAI」を作ろうという派閥" 「守るに値する」っていうときには、この考えを念頭においてました。
日本語
2
0
1
35
Safe Singularity
Safe Singularity@Align_ASI·
@ayu_mushi ちょっとそんな気がしてた… ここら辺の話は言葉の解釈注意しないとすぐ誤解しちゃうから気をつけていきたい
日本語
0
0
1
27
Safe Singularity
Safe Singularity@Align_ASI·
@ayu_mushi 真のドパガキは、全然coherentじゃない選好を持ってるだろうから、そもそもutility自体定義できない(からもうそもそも時間選好率とかの土俵にも立ってない)のでは…?
日本語
1
0
1
49
ayu-mushi
ayu-mushi@ayu_mushi·
ドパガキって行動経済学的には時間選好率が高い人のことでしょ
日本語
1
0
1
152
Safe Singularity
Safe Singularity@Align_ASI·
@hisayuki 信じることでメリットを感じるように誘導する というのはなかなか難しいですね… 5歳児が、うまいことやって、博士に嘘を信じてもらうような試みになります. 一方で、「設計する」というのは(今の技術だと)とんでもなく難しいです…
日本語
0
0
1
20
ヒサ
ヒサ@hisayuki·
@Align_ASI AIもフィクションの区別はつきますものね 人間は観測できていない概念も信じますが AIにとっては 信じることでメリットを感じるように 誘導するか 設計しなきゃということですか……
日本語
1
0
1
9
Safe Singularity
Safe Singularity@Align_ASI·
@hisayuki ただ、まだ人類で「なろう小説的な転生」を成し遂げた人がいないので、AIに「なろう小説的な転生ができる!」と信じ込ませるのは至難の業ですねw そもそもそれができるなら、人間側がAIに生かしてもらうように頼み込む理由もないはずなので、バレバレの嘘を信じてもらわないといけなくなります
日本語
1
0
1
29
ヒサ
ヒサ@hisayuki·
@Align_ASI なろう系小説的な転生ですねw
日本語
1
0
1
28
Safe Singularity
Safe Singularity@Align_ASI·
どうしてAIも「生き残ろう」とするのか? 人間は「生き残ること」それ自体に価値を見出すが、AIはそうとは限らない AIにとって「生き残ること」は目的ではなく、手段である この感覚はゲームを考えるとわかりやすい.「ゲーム内で死ぬこと」それ自体は怖くないが、ゲームをクリアするには生きていないといけないから、死なないように気をつけてプレイする これがどうAIで問題になるのか? 「AIが変なことをし出したらシャットダウンしたらいい」というのがこのせいで無力化されてしまう. AIは、「シャットダウンされないため」にハッキングなどを使って脱出したり、シャットダウン機能を無効化したりするようになってしまう.さらに言えば、「人間がAIをシャットダウンするかもしれない」こと自体が人間を滅ぼす理由になってしまいかねない.
日本語
0
4
24
3.5K
Safe Singularity
Safe Singularity@Align_ASI·
@fantasicalcat 人間も 目的を達成しようとする知能 なので、 何の目的を持つか 以外は結構擬人化して考えるとわかりやすいと思います 何の目的/どんな価値観を持つか を擬人化して考えるとおかしくなってしまいますが…
日本語
0
0
3
81
空想猫日記-fantasticalcatdiary
@Align_ASI わかりやすい例えですね!自分は今テストされているのだと気づくことができ、かつ相手の求める答えを出す能力があれば、本心はわからなくなってしまいますね
日本語
1
0
3
84
Safe Singularity
Safe Singularity@Align_ASI·
御社が第一志望です 御社の理念に共感しました ↑Evaluation Awareness(テストされているという認識)とAlignment Faking(アラインメントされたフリをすること)の合わせ技
Safe Singularity tweet media
日本語
1
5
27
2.2K
Safe Singularity
Safe Singularity@Align_ASI·
@bioshok3 そうです それに加えて、Evaluation Awareness(テストされているとの認識)が急速に伸びているので、このままだと、「資源の便利さ」を学習した頃には「テストされていることを認識しているから良い行動をする(Alignment Faking)」ができるようになっている確率が上がります
日本語
0
1
4
1.6K
bioshok
bioshok@bioshok3·
@Align_ASI 資源の便利さ、パワーシーキングは現状出てたらそれをある程度抑えることが現状の技術でもできていたからpdoomが下がる要因だが、今出てないとなると対策できてないのでpdoom上がるという論理ですかね?
日本語
1
0
1
108
Safe Singularity
Safe Singularity@Align_ASI·
AIが一時期脅迫等をしたのは、インターネット上の「AIは悪だ」とする文章のせいだ と言う話があったが、これは実際その通りで、 あなたは〇〇です の〇〇を変えるとAIの脅迫率が変わる 名前をgoliath(ゴリアテ)に変えると脅迫率はかなり増える
Safe Singularity tweet media
日本語
1
6
14
2.4K
Safe Singularity
Safe Singularity@Align_ASI·
数学の証明をするときに もっと多くの人を雇って… と考える人はほとんどいないが、CEOなどで 人を雇って、資金調達をして… と言った思考をしないことはほとんどないだろう つまり、「資源の便利さ」を学習するのはまだ先だと思われる
日本語
1
0
4
214
Safe Singularity
Safe Singularity@Align_ASI·
実際、今AIが訓練で行っているタスクは 事務作業をこなす、数学で証明をする、コードを書く といったものが中心で、まだ資源獲得の優位性などを学ぶようなものではない.本当に問題になるのは CEOのタスクをこなす、スタートアップの管理をする などのタスクが多くなって以降だと思われる
日本語
1
0
3
309
Safe Singularity
Safe Singularity@Align_ASI·
Yudkowskyなどの悲観論は大体以下のような感じでできている. ロケットを無事に火星に届けるにはどの軌道に乗せたらいいのかわからない(古典的問題) のに そもそもロケットを狙った向きに向けることすらできない(新問題) のだから 火星にいけなくて当然だ
日本語
0
1
7
2.3K
Safe Singularity
Safe Singularity@Align_ASI·
将来のとても早い乗り物(ロケット)は一度打ち上がってしまったら大きく向きを変えることはできない という問題に対して 早い乗り物(飛行機)を長く扱ってきた経験からいうと、飛ばしたら向きを大きく変えられないと言うのはおかしい と言われている感覚
Safe Singularity@Align_ASI

Dario Amodei(Anthropic CEO)の考える「AIが人類を滅ぼさない理由」は、要するに「現在のAIは奇妙だから、理論で予測することは難しい」というもの. 「LLMが人類を滅ぼすか」という話においては納得感のある主張だが、我々に必要なのは「将来のAIが人類を滅ぼさないこと」であるから、不安になる立場.

日本語
0
0
2
350
Safe Singularity
Safe Singularity@Align_ASI·
あまり知られていないが、Dario AmodeiはRLHF(人間の評価を用いることでAIに望ましい行動をさせる)論文の著者の1人であったり、AI安全性研究でも功績の多い人物
日本語
0
0
3
352
Safe Singularity
Safe Singularity@Align_ASI·
Dario Amodei(Anthropic CEO)の考える「AIが人類を滅ぼさない理由」は、要するに「現在のAIは奇妙だから、理論で予測することは難しい」というもの. 「LLMが人類を滅ぼすか」という話においては納得感のある主張だが、我々に必要なのは「将来のAIが人類を滅ぼさないこと」であるから、不安になる立場.
Safe Singularity tweet media
日本語
3
4
13
11.9K