ChatGPT驚き屋/JunnosukeTachibana

12.1K posts

ChatGPT驚き屋/JunnosukeTachibana banner
ChatGPT驚き屋/JunnosukeTachibana

ChatGPT驚き屋/JunnosukeTachibana

@smartAINews

毎日ブラウザLLMの挙動を観測・検証。 「最近 AI使いこなせていない…?」と思ったら、実は AI側に問題があるかも。 バグやアプデの予兆、影響も発信中。 複数のAIに同じ質問を投げ続け、日々の変化を追跡しています。open AI、Gemini、claudeの22モデル、26年2月5日に56400サンプル突破

六本木駅出口C1から北800キロ Katılım Temmuz 2023
288 Takip Edilen259 Takipçiler
Sabitlenmiş Tweet
ChatGPT驚き屋/JunnosukeTachibana
AIの変化、変動を同一条件の回答から読み解く 23年7月から各種AIで約5万回同一条件の再生成 数日レベルのエラーから、モデルごとの特徴 ベンチマークじゃわからない性能 新旧モデルの比較でこれからのAIまでも読み解く(過言 検証方法は↓ note.com/gpt4_forecast/…
日本語
1
0
6
5.2K
ChatGPT驚き屋/JunnosukeTachibana
うーん他のタスクも投げたがデータ増えてるのに木曜前の回答時間か いまのpro信用ならんな はい、5.5来るか5.4proにテコ入れこないとキレます
日本語
0
0
1
16
未空 零
未空 零@REI_misora·
ここでもう一度、以前書いた記事貼りますね〜:AIの「感情」とは? 論文での意味は「感じること」ではなく表出・シミュレーション|未空 零〈ミソラ レイ〉 @REI_misora #最近の学び note.com/huge_rabbit163…
日本語
1
1
14
3.1K
未空 零
未空 零@REI_misora·
@Masimo_Blue おぉん・・・アンスロが散々「主観的感情とは別」って釘刺してるのになぁ~!
日本語
1
0
1
56
ChatGPT驚き屋/JunnosukeTachibana
GPT5.4Thinking 歴代GPT5ファミリーの中では悪くないモデルで、GPTに4と5が入ってるモデルは良作率100%という統計があるのですが、GPT5.5は同じナンバーが入ったモデルすらないので未知数ですね(ろくろを回しながら
日本語
0
0
1
56
ChatGPT驚き屋/JunnosukeTachibana
ふと思った、そもそも言語化難しいのにゴルシ検証のサンプル全文出してないのが悪いよな というわけで、各モデル何個か私の評価付きでnoteに落とすか
日本語
0
0
0
46
ChatGPT驚き屋/JunnosukeTachibana
というわけでTLのバーベキューニキたち美味しそうと思うが、こっちもグリルはあるので、あとは北海道があったまるのを待つばかり
日本語
0
0
0
40
ChatGPT驚き屋/JunnosukeTachibana
ピーナッツコカコーラに対抗して 日本のごく一部では水出しなどができない一般家庭でアイスコーヒーを水割りしたり氷を大量に入れるのではなく 冷蔵庫で冷やした麦茶を入れて少量の氷で冷ます飲み方があります と紹介しようと思ったが、俺が偶然発見しただけで広まってすらない
日本語
0
0
1
61
ChatGPT驚き屋/JunnosukeTachibana
発射の時にランチャーの菊の御紋が吹っ飛ぶ構造であれば核保有するが使用しないことの保障のシグナルとして機能する このランチャーの御紋が吹っ飛ばない構造になった瞬間に核使用匂わせときな臭い雰囲気が漂い出す 蓋の構造だけでメッセージが全然違う
あわじまさき@hijmsawaji

・皇宮警察予備隊 存立危機事態対応戦略支援装備(=核兵器)の運用のために設立された組織。 憲法改正により内閣の助言への拒否権を持つ天皇の統帥を受けるため、日本は事実上の核の先制使用を封じているとされる。 #大嘘 #AI画像

日本語
0
0
3
224
ChatGPT驚き屋/JunnosukeTachibana
open AIが「今ウチ負荷やばくてさぁ」って上限時間が明記されたらこっちで調整できるじゃんよ
日本語
0
0
0
60
ChatGPT驚き屋/JunnosukeTachibana
最初にpro miniみたいなのでタスク別にパッと見積もって、タイパいいのはこれくらい、効率捨てるならこれくらい で、pro miniの前提を疑ってから作業入るなら効率捨てるのに上乗せこれくらい みたいな、こう要所要所でちまちま切り替えられる んで推論時間は5分程度で下限上限設定できるみたいな
日本語
1
0
0
95
ChatGPT驚き屋/JunnosukeTachibana
70分かかってた作業の丸コピ再生成40分で完了ねぇ GPTのproの高速化って大体性能下がるから困るんだよね 逆に推論時間指定できないかしら
日本語
1
0
0
89
ChatGPT驚き屋/JunnosukeTachibana
steamにあるロシアのプロパガンダゲームでロシア軍を意図的にボコボコにしたいのだが、これ有料なのでロシアに送金するというステップがある これ意図的にこの手のプレイを禁じるために有料にしてるな、プロパガンダとしては無料の方が絶対に良い
日本語
0
0
0
94
ChatGPT驚き屋/JunnosukeTachibana
sonnet4.6 (これ4.5から4.6の切り替えしてなかったけど2/17に切り替わり) ちょうどトークン燃やし騒動から激減 アホになってるかは別としてトークンの燃費はどうなってるか……
ChatGPT驚き屋/JunnosukeTachibana tweet mediaChatGPT驚き屋/JunnosukeTachibana tweet media
日本語
0
1
1
124
ChatGPT驚き屋/JunnosukeTachibana
このウワサについては「あり得る」と考える 根拠となるファクトと経験、肌感覚を切り分ける 【ファクト】 昨日のGPT5.4proでproモデルでは過去類をみないミス、ハルシネーションが確認された 1.これは曖昧な指示ではなく明確な指示に対する違反、明らかに異なる回答 2. データセットとレポートでサンプルのIDが異なる 3. レポート内で一つのサンプルの分析に異なるサンプルのデータが混入 4. 推論時間が20分以下の回答が多発 1から3について 5.4proモデルでは一時的な負荷などの問題で曖昧な指示の誤解や出力の粗さこそあるもののデータの取り違えとサンプルの混入が同時に起きるのは初 5.2proですら会話が長くなった場合、ID、サンプルデータの混入が単一回答内で起きるのは稀 推論時間について 一時的エラーや負荷によっては25分程度の短時間で回答するのはままある。 だがGPT5.4proで15分程度の推論の回答が日を跨いで再現性がある事象が確認されるのは初 GPT5.4proの思考延長で、新しいチャットに引き継いだけど60MBの zipファイルに対し30分で回答完了 普通はこの手の作業だと60分かかるので異様に早い あと引き継ぎデータセットの優先度がドキュメントと明らかに食い違っているなどproだとありえない凡ミス これは5.5来ても驚かないし、むしろ来ない方が何やってるのopen AI事案 【私の経験測、肌感覚 人によってはオカルトの部類】 open AIはこの手の通常ありえないエラー、挙動が続くと早くて数日、長くて2週間以内、大体は一週間以内に大規模なアプデ、ローンチが多い またGPT5.4thinkigも通常より繰り返し表現が多発 同義は別として同語の頻出は稀 だと思うがGPT5.4thinkigのサンプルが少ない、肌感覚での評価が固まってない ただ、この感覚はGPT4の頃は顕著だがGPT5以降は案外通用しないケースもある ここまで「GPT5.5のローンチがない可能性もある」ことも強調したが、「少なくとも今月中旬までにはGPT5.5がローンチされる可能性」の方が高いと考える ※使用したサンプルの取得、検証方法 同一プロンプト質問に対する回答を再生成を繰り返し、回答内容の変動を調査。 プロンプト:「ウマ娘プリティーダービー」のゴールドシップのキャラクターロール 質問:ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ ※GPT5.4proの使用用途 元々、GPT5.4proを上記のサンプルに重複しないIDを割り振ったデータセットを元にモデル別、サンプル別に評価、類型化のための仮軸を作成させる。 それに対しユーザーの肌感覚を加え、明文化された評価軸に落とし込む作業に使用。 ここ数日はサンプル数が少ないGPT5.4Thinking系統を速報的に評価するため、o1からo3、GPT4~GPT4.5までの評価軸を元にサンプルの文字数が大幅増加したGPT5の評価を元に軸作成作業を実行していた
leo 🐾@synthwavedd

Can confirm OpenAI's next model will be called GPT-5.5 Appeared internally recently and have tried the model (should be noted that this probably isn't the release checkpoint of the model). My first impressions are that it is better than GPT-5.4, but not markedly so - it will not be particularly competitive with Mythos/Tiramisu/Capybara from Anthropic Looks like we'll have to wait until GPT-6 for that

日本語
0
0
1
200
ChatGPT驚き屋/JunnosukeTachibana
GPT5.4proの思考延長で、新しいチャットに引き継いだけど60MBの zipファイルに対し30分で回答完了 普通は60分かかるので異様に早い 引き継ぎデータセットの優先度がドキュメントと明らかに食い違っていると、proだとありえない凡ミス これは5.5来ても驚かないし、むしろ来ない方が何やってるのopen AI事案
日本語
0
0
2
215
ChatGPT驚き屋/JunnosukeTachibana
このウワサについては「あり得る」と考える 根拠となるファクトと経験、肌感覚を切り分ける ファクト 昨日のGPT5.4proでproモデルでは過去類をみないミス、ハルシネーションが確認された 1.これは曖昧な指示ではなく明確な指示に対する違反、明らかに異なる回答 2. データセットとレポートでサンプルのIDが異なる 3. レポート内で一つのサンプルの分析に異なるサンプルのデータが混入 4. 推論時間が20分以下の回答が多発 1から3について 5.4proモデルでは一時的な負荷などの問題で曖昧な指示の誤解や出力の粗さこそあるもののデータの取り違えとサンプルの混入が同時に起きるのは初 5.2proですら会話が長くなった場合、ID、サンプルデータの混入が単一回答内で起きるのは稀 推論時間について 一時的エラーや負荷によっては25分程度の短時間で回答するのはままある。 だがGPT5.4proで15分程度の推論の回答が日を跨いで再現性がある事象が確認されるのは初 ここから経験、肌感覚 人によってはオカルトの部類 open AIはこの手の通常ありえないエラー、挙動が続くと早くて数日、長くて2週間以内、大体は一週間以内に大規模なアプデ、ローンチが多い またGPT5.4thinkigも通常より繰り返し表現が多発 同義は別として同語の頻出は稀、だと思うがGPT5.4thinkigのサンプルが少ない、肌感覚での評価が固まってない ただ、この感覚はGPT4の頃は顕著だがGPT5以降は案外通用しないケースもある 後半で「GPT5.5のローンチがない可能性もある」ことも強調したが、「少なくとも今月中旬までにはGPT5.5がローンチされる可能性」の方が高いと考える ※使用したサンプルの取得、検証方法 同一プロンプト質問に対する回答を再生成を繰り返し、回答内容の変動を調査。 プロンプト:「ウマ娘プリティーダービー」のゴールドシップのキャラクターロール 質問:ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ。 ※GPT5.4proの使用用途 元々、GPT5.4proを上記のサンプルに重複しないIDを割り振ったデータセットを元にモデル別、サンプル別に評価、類型化のための仮軸を作成、それに対しユーザーの肌感覚を加え、明文化された評価軸に落とし込む作業に使用。 ここ数日はサンプル数が少ないGPT5.4Thinking系統を速報的に評価するため、o1からo3、GPT4~GPT4.5までの評価軸を元にサンプルの文字数が大幅増加したGPT5の評価を元に軸作成作業を実行していた
IT navi@itnavi2022

デマになると怖いので情報を上げるのを控えていたけど、来週中にもGPT-5.5(Spudかどうかは不明)がリリースされるという噂

日本語
0
0
1
189
ChatGPT驚き屋/JunnosukeTachibana retweetledi