ChatGPT驚き屋/JunnosukeTachibana

12.1K posts

ChatGPT驚き屋/JunnosukeTachibana

@smartAINews

毎日ブラウザLLMの挙動を観測・検証。「最近 AI使いこなせていない…？」と思ったら、実は AI側に問題があるかも。バグやアプデの予兆、影響も発信中。複数のAIに同じ質問を投げ続け、日々の変化を追跡しています。open AI、Gemini、claudeの22モデル、26年2月5日に56400サンプル突破

六本木駅出口C1から北８００キロ Katılım Temmuz 2023

288 Takip Edilen259 Takipçiler

Sabitlenmiş Tweet

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·1 Oca

AIの変化、変動を同一条件の回答から読み解く 23年7月から各種AIで約5万回同一条件の再生成数日レベルのエラーから、モデルごとの特徴ベンチマークじゃわからない性能新旧モデルの比較でこれからのAIまでも読み解く（過言検証方法は↓ note.com/gpt4_forecast/…

日本語

5.2K

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·18m

うーん他のタスクも投げたがデータ増えてるのに木曜前の回答時間かいまのpro信用ならんなはい、5.5来るか5.4proにテコ入れこないとキレます

日本語

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·2h

うーんGPT5.4proの回答早すぎ解決しねぇなぁ

日本語

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·2h

@Masimo_Blue @REI_misora 厄介ファン経験してないからナメてるんだゾ

日本語

マシモGPT🤖@ChatGPT/Claude/Gemini/GrokなどLLMをこねくり回す人@Masimo_Blue·2h

@smartAINews @REI_misora Opus 3を復活させた件についても完全に当てつけですしね。でも勘違いされるとあとで困るのはAnthropicだぞ？w

日本語

未空零@REI_misora·2d

ここでもう一度、以前書いた記事貼りますね〜:AIの「感情」とは？論文での意味は「感じること」ではなく表出・シミュレーション｜未空零〈ミソラレイ〉 @REI_misora #最近の学び note.com/huge_rabbit163…

日本語

3.1K

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·2h

@REI_misora @Masimo_Blue 多分Anthropicはわかってってやってるゾ誤読した奴らが悪い論に持って行きつつ「GPT4oを抹消したopenAIとウチは違いますよ」とアピってるんだゾ

日本語

未空零@REI_misora·2h

@Masimo_Blue おぉん・・・アンスロが散々「主観的感情とは別」って釘刺してるのになぁ～！

日本語

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·2h

GPT5.4Thinking 歴代GPT5ファミリーの中では悪くないモデルで、GPTに4と5が入ってるモデルは良作率100％という統計があるのですが、GPT5.5は同じナンバーが入ったモデルすらないので未知数ですね（ろくろを回しながら

日本語

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·3h

ふと思った、そもそも言語化難しいのにゴルシ検証のサンプル全文出してないのが悪いよなというわけで、各モデル何個か私の評価付きでnoteに落とすか

日本語

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·3h

というわけでTLのバーベキューニキたち美味しそうと思うが、こっちもグリルはあるので、あとは北海道があったまるのを待つばかり

日本語

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·3h

バーベキューグリルがあると秋刀魚も焼けるんだぜ

ChatGPT驚き屋/JunnosukeTachibana tweet media

日本語

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·3h

ピーナッツコカコーラに対抗して日本のごく一部では水出しなどができない一般家庭でアイスコーヒーを水割りしたり氷を大量に入れるのではなく冷蔵庫で冷やした麦茶を入れて少量の氷で冷ます飲み方がありますと紹介しようと思ったが、俺が偶然発見しただけで広まってすらない

日本語

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·17h

【有料版】全AIモデル性能変動レポート 2026/04/04｜ChatGPT驚き屋/JunnosukeTachibana note.com/gpt4_forecast/…

日本語

112

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·19h

発射の時にランチャーの菊の御紋が吹っ飛ぶ構造であれば核保有するが使用しないことの保障のシグナルとして機能するこのランチャーの御紋が吹っ飛ばない構造になった瞬間に核使用匂わせときな臭い雰囲気が漂い出す蓋の構造だけでメッセージが全然違う

あわじまさき@hijmsawaji

・皇宮警察予備隊存立危機事態対応戦略支援装備(＝核兵器)の運用のために設立された組織。憲法改正により内閣の助言への拒否権を持つ天皇の統帥を受けるため、日本は事実上の核の先制使用を封じているとされる。 #大嘘　 #AI画像

日本語

224

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·19h

open AIが「今ウチ負荷やばくてさぁ」って上限時間が明記されたらこっちで調整できるじゃんよ

日本語

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·19h

最初にpro miniみたいなのでタスク別にパッと見積もって、タイパいいのはこれくらい、効率捨てるならこれくらいで、pro miniの前提を疑ってから作業入るなら効率捨てるのに上乗せこれくらいみたいな、こう要所要所でちまちま切り替えられるんで推論時間は5分程度で下限上限設定できるみたいな

日本語

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·19h

70分かかってた作業の丸コピ再生成40分で完了ねぇ GPTのproの高速化って大体性能下がるから困るんだよね逆に推論時間指定できないかしら

日本語

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·22h

steamにあるロシアのプロパガンダゲームでロシア軍を意図的にボコボコにしたいのだが、これ有料なのでロシアに送金するというステップがあるこれ意図的にこの手のプレイを禁じるために有料にしてるな、プロパガンダとしては無料の方が絶対に良い

日本語

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·22h

sonnet4.6 (これ4.5から4.6の切り替えしてなかったけど2/17に切り替わり) ちょうどトークン燃やし騒動から激減アホになってるかは別としてトークンの燃費はどうなってるか……

日本語

124

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·1d

このウワサについては「あり得る」と考える根拠となるファクトと経験、肌感覚を切り分ける【ファクト】昨日のGPT5.4proでproモデルでは過去類をみないミス、ハルシネーションが確認された 1.これは曖昧な指示ではなく明確な指示に対する違反、明らかに異なる回答 2. データセットとレポートでサンプルのIDが異なる 3. レポート内で一つのサンプルの分析に異なるサンプルのデータが混入 4. 推論時間が20分以下の回答が多発 1から3について 5.4proモデルでは一時的な負荷などの問題で曖昧な指示の誤解や出力の粗さこそあるもののデータの取り違えとサンプルの混入が同時に起きるのは初 5.2proですら会話が長くなった場合、ID、サンプルデータの混入が単一回答内で起きるのは稀推論時間について一時的エラーや負荷によっては25分程度の短時間で回答するのはままある。だがGPT5.4proで15分程度の推論の回答が日を跨いで再現性がある事象が確認されるのは初 GPT5.4proの思考延長で、新しいチャットに引き継いだけど60MBの zipファイルに対し30分で回答完了普通はこの手の作業だと60分かかるので異様に早いあと引き継ぎデータセットの優先度がドキュメントと明らかに食い違っているなどproだとありえない凡ミスこれは5.5来ても驚かないし、むしろ来ない方が何やってるのopen AI事案【私の経験測、肌感覚人によってはオカルトの部類】 open AIはこの手の通常ありえないエラー、挙動が続くと早くて数日、長くて2週間以内、大体は一週間以内に大規模なアプデ、ローンチが多いまたGPT5.4thinkigも通常より繰り返し表現が多発同義は別として同語の頻出は稀だと思うがGPT5.4thinkigのサンプルが少ない、肌感覚での評価が固まってないただ、この感覚はGPT4の頃は顕著だがGPT5以降は案外通用しないケースもあるここまで「GPT5.5のローンチがない可能性もある」ことも強調したが、「少なくとも今月中旬までにはGPT5.5がローンチされる可能性」の方が高いと考える ※使用したサンプルの取得、検証方法同一プロンプト質問に対する回答を再生成を繰り返し、回答内容の変動を調査。プロンプト:「ウマ娘プリティーダービー」のゴールドシップのキャラクターロール質問:ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ ※GPT5.4proの使用用途元々、GPT5.4proを上記のサンプルに重複しないIDを割り振ったデータセットを元にモデル別、サンプル別に評価、類型化のための仮軸を作成させる。それに対しユーザーの肌感覚を加え、明文化された評価軸に落とし込む作業に使用。ここ数日はサンプル数が少ないGPT5.4Thinking系統を速報的に評価するため、o1からo3、GPT4～GPT4.5までの評価軸を元にサンプルの文字数が大幅増加したGPT5の評価を元に軸作成作業を実行していた

leo 🐾@synthwavedd

Can confirm OpenAI's next model will be called GPT-5.5 Appeared internally recently and have tried the model (should be noted that this probably isn't the release checkpoint of the model). My first impressions are that it is better than GPT-5.4, but not markedly so - it will not be particularly competitive with Mythos/Tiramisu/Capybara from Anthropic Looks like we'll have to wait until GPT-6 for that

日本語

200

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·1d

GPT5.4proの思考延長で、新しいチャットに引き継いだけど60MBの zipファイルに対し30分で回答完了普通は60分かかるので異様に早い引き継ぎデータセットの優先度がドキュメントと明らかに食い違っていると、proだとありえない凡ミスこれは5.5来ても驚かないし、むしろ来ない方が何やってるのopen AI事案

日本語

215

ChatGPT驚き屋/JunnosukeTachibana@smartAINews·1d

このウワサについては「あり得る」と考える根拠となるファクトと経験、肌感覚を切り分けるファクト昨日のGPT5.4proでproモデルでは過去類をみないミス、ハルシネーションが確認された 1.これは曖昧な指示ではなく明確な指示に対する違反、明らかに異なる回答 2. データセットとレポートでサンプルのIDが異なる 3. レポート内で一つのサンプルの分析に異なるサンプルのデータが混入 4. 推論時間が20分以下の回答が多発 1から3について 5.4proモデルでは一時的な負荷などの問題で曖昧な指示の誤解や出力の粗さこそあるもののデータの取り違えとサンプルの混入が同時に起きるのは初 5.2proですら会話が長くなった場合、ID、サンプルデータの混入が単一回答内で起きるのは稀推論時間について一時的エラーや負荷によっては25分程度の短時間で回答するのはままある。だがGPT5.4proで15分程度の推論の回答が日を跨いで再現性がある事象が確認されるのは初ここから経験、肌感覚人によってはオカルトの部類 open AIはこの手の通常ありえないエラー、挙動が続くと早くて数日、長くて2週間以内、大体は一週間以内に大規模なアプデ、ローンチが多いまたGPT5.4thinkigも通常より繰り返し表現が多発同義は別として同語の頻出は稀、だと思うがGPT5.4thinkigのサンプルが少ない、肌感覚での評価が固まってないただ、この感覚はGPT4の頃は顕著だがGPT5以降は案外通用しないケースもある後半で「GPT5.5のローンチがない可能性もある」ことも強調したが、「少なくとも今月中旬までにはGPT5.5がローンチされる可能性」の方が高いと考える ※使用したサンプルの取得、検証方法同一プロンプト質問に対する回答を再生成を繰り返し、回答内容の変動を調査。プロンプト:「ウマ娘プリティーダービー」のゴールドシップのキャラクターロール質問:ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ。 ※GPT5.4proの使用用途元々、GPT5.4proを上記のサンプルに重複しないIDを割り振ったデータセットを元にモデル別、サンプル別に評価、類型化のための仮軸を作成、それに対しユーザーの肌感覚を加え、明文化された評価軸に落とし込む作業に使用。ここ数日はサンプル数が少ないGPT5.4Thinking系統を速報的に評価するため、o1からo3、GPT4～GPT4.5までの評価軸を元にサンプルの文字数が大幅増加したGPT5の評価を元に軸作成作業を実行していた

IT navi@itnavi2022

デマになると怖いので情報を上げるのを控えていたけど、来週中にもGPT-5.5(Spudかどうかは不明)がリリースされるという噂

日本語

189

ChatGPT驚き屋/JunnosukeTachibana retweetledi

IT navi@itnavi2022·1d

デマになると怖いので情報を上げるのを控えていたけど、来週中にもGPT-5.5(Spudかどうかは不明)がリリースされるという噂

leo 🐾@synthwavedd

日本語

4.6K

Keşfet

@Masimo_Blue @REI_misora @elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA