hiromi maeo

1

37

hiromi maeo@enhanced_jp·33m

@suna_gaku Geminiはまあ、うん…

日本語

0

1

22

スナガク@suna_gaku·5h

Gemini は、きっとこれから進化する… 知らんけど…

Tyler@rezoundous

feeling opus 4.8 or gpt 5.5 isn't good? go use gemini for 5 minutes.

日本語

만원만 l manwonman@quietcomp_

5

576

hiromi maeo@enhanced_jp·38m

表現生成においては平均化しないよう、Anti-banal（凡庸化回避）の仕組みを使ってる。 AIが出してくる第一連想は凡庸の最たるものとも言える。これはFableとも話した帰結。特にブランド構築においては、凡庸＝失敗みたいなとこあるので、この仕組みは結構前から組み込んでる。とは言え結局のところ、生成されたものが凡庸かどうかを判断するのは人間でしかないので、あくまでも気休めなんだけど。

[디자인의 미래는 이 리포트를 보면 끝난다] 디자이너라면 한 번쯤 들어봤을 iF Design에서 디자인 트렌드 리포트가 나오고 있었다는 거 알고 계셨나요 올해 리포트에서 가장 흥미로운 부분은 AI 자체보다, AI가 만들어내는 '평균화'와 '차별화'의 충돌을 다룬다는 점입니다. 누구나 비슷한 툴을 쓰고 비슷한 결과물을 만들 수 있는 시대가 되면서, 오히려 독창성과 개성이 더 중요한 경쟁력이 되고 있다는 것이죠. 이 외에도 1. 편리함을 추구하는 문화 vs 직접 배우고 만드는 문화 2. 자연과 기술이 결합하는 새로운 생태계 3. 도시를 커뮤니티 중심으로 재해석하는 움직임 등 디자인을 넘어 사회 전반의 변화를 함께 다루고 있습니다. 흥미로운 건 이제 디자인 트렌드가 색상이나 스타일이 아니라, 사람들이 앞으로 어떻게 살고, 만들고, 연결될 것인가를 다루기 시작했다는 점! ifdesign.com/en/trend-report

日本語

48

hiromi maeo@enhanced_jp·49m

@super_bonochin ですです。昨日はスキルに入れてる私の口調で回答し始めたり笑お前、これまでそんなことなかったやんか…と。

日本語

1

20

炎鎮🔥 - ₿onochin -@super_bonochin·53m

マジで何かがおかしいですよね最近 x.com/i/status/20667…

これは確かにそう。なので、フェーズ/タスク分解して、キリのいいところでのコンパクションを徹底してる。コードに関してもcodex:rescueでレビューするようにしてる。しかし最近、生成された文章が「？お前何言ってんの？」となることも多く、結果手戻りが多いのが気になるところ。

日本語

炎鎮🔥 - ₿onochin -@super_bonochin

0

4

990

炎鎮🔥 - ₿onochin -@super_bonochin·53m

Opus 最近どうしちゃったの？ってマジで思いますわ。同じような意見をすごく多く見かける。いきなりエグいミスが起きるから怖くて最近は仕事だと GPT-5.5 ばっか使ってます。

しとちゃ！🦊🍮@nemumusitocha

これもそうだし、コンテキスト重なってない状態でも、Opusたまに日本語ぶっ壊れる？なんだから、claudeどうしちゃったのだ？感が正直あるん。悪いモデルとは思わないなんだけど、なんかちょっと使うの躊躇うというかなーん。。

日本語

2

1

32

4K

hiromi maeo@enhanced_jp·58m

これは確かにそう。なので、フェーズ/タスク分解して、キリのいいところでのコンパクションを徹底してる。コードに関してもcodex:rescueでレビューするようにしてる。しかし最近、生成された文章が「？お前何言ってんの？」となることも多く、結果手戻りが多いのが気になるところ。

Opus 4.8 、基本的には良いモデルだと思うんだけど、これは Claude 全般に言えることだけど、コンテキストが積み重なると一気に理解の解像度が落ちる。社内の人間とお客さんを混同したりし始める。柔軟な一方で、理解が大雑把。 GPT-5.5 よりもはるかに「ありえない勘違い」の頻度が高い。一方で。GPTはカッチリで正確だけど、ちょっと近視眼的だったりする。自分の中では、自分の進め方に自信のあるタスクならGPTに、なんかよくわかんねぇから一旦雰囲気で進めるか、みたいなのは Claude でやってる。

日本語

56% chance the government rescinds the Fable 5 foreigner ban by the end of the month. polymarket.com/event/us-gover…

1

4

2.1K

hiromi maeo@enhanced_jp·9h

一度便利さを知ると、不便さには戻れんのや。頼みます。

Polymarket@Polymarket

日本語

2

228

hiromi maeo@enhanced_jp·10h

@mitsunowa_X ありがとうございます。これ、私の本業であるブランド構築やブランドデザイン領域でも全く同じことが言えますね。

日本語

34

ミツノワ｜医師x市民開発者　「精介AI」発起人@mitsunowa_X·11h

素晴らしい考察をありがとうございます。私の環境には資料にある「Provenance Graph（地図）」が決定的に欠けていることにも気づかされました。ルール・チェック・実行の横断的な繋がりが追跡できて初めて、統治は完成する。次の一歩が明確になりました。そしてこの「AIの統治（ガバナンス）」の思想を、私が導入を模索している【医療AI（特に精神科など）】の現場にスライドして考えると、市民開発者として全く逆のベクトルが必要になるな、と感じています。開発環境では「AIを自律させ、人間を律速から外す」ための三権分立ですが、医療現場では患者の認識や現場スタッフの「心理的安全性」を確保するため、最初はひと手間を補助する黒子から入り、次世代にどれだけAIが発展しても人間が主権を握る「ヒューマンファースト（Human-in-the-loop）」の設計が絶対条件になる。「AIを爆速で自律させる統治」と「人間を保護しエンパワーする統治」。対象によってガバナンスのグラデーションをどう引き分けるか、これからのAIの進化の先を考える上で極めて深い補助線をいただきました。

ビズリーチのCTOの講演資料を読んで驚いた。月間2,300億トークンをCodexで消費する組織(350人)が辿り着いた結論が、私が自分のために組んできた仕組みとほぼ同じ構造だったから。講演の核はシンプル。 — harnessは借りられる。統治は、自社で作るしかない。 harness=AIが正しく速く安全に動く足場(実行環境・文脈・ガードレール・検証ループ・観測性)。これはAnthropicやOpenAIから借りられる。でもそれだけだと「人間がフローの中にいるまま速くなる」=HITLの高速化止まり。人間が律速のまま抜け出せない。だから、ここから抜け出すには統治がいる。そこで彼らの出した答えが三権分立だった。 ●立法=何が正しいかを定義する(ルールのSSOT) ●司法=従ってるか裁く(機械チェック+LLM意味判定) ●行政=実際に実行する(workflow/agent) そして全部を、人間しか改正できない憲法が縛る。で、改めて自分のシステムを見たらほぼ全部あった。ルール群=立法、Phase 5.5のゲート=司法、複数体のagent=行政、Design Constitution=憲法。司法を「Grep/ASTの決定論チェック+LLMの意味判定」に二層化してるところまで一致してて、これは正直驚いた。特に「書かれてるだけ」を許さない構造に関して。 ADRやWikiに書いてもagentは参照しないし、違反しても誰も止めない。だから、うちの環境ではCIが落ちる・hookがEdit自体を止める仕組み。そして、「書かれている」と「効いている」は別物 — これが資料で一番刺さったところ。 === ここまでが一致の話。ここからはうちの環境の穴。資料には2つのグラフが出てくる。ルールとチェックを双方向に繋ぐAuthority Provenance Graphと、機能→仕様→テストを追うSpecification Provenance Graph。うちの環境にはこれが無い。つまり効かせるゲートは持ってるのに、ルール↔チェック↔実行を横断で追跡する地図が無いんよな。だから「チェックはあるが何のルールに依拠してるか不明」みたいな断絶を、機械的には検知できない。統治は、止められるだけじゃ足りない。繋がりを追跡できて初めて完成するんじゃないか、と。とりあえず次に埋めるのはそこ。

日本語

"They screwed us": Personality clashes sent Anthropic's models offline axios.com/2026/06/15/ant…

2

3

124

hiromi maeo@enhanced_jp·14h

うーん、Fableの復活どうなることやら。ますます事態が複雑化してる。

Axios@axios

日本語

1

286

hiromi maeo@enhanced_jp·18h

@suna_gaku マジすか。じゃこまめに出していこうかしら。色々情報ストックできてるし。

日本語

0

1

28

スナガク@suna_gaku·18h

@enhanced_jp めっちゃ勉強になりました…！！！

日本語

0

1

96

hiromi maeo@enhanced_jp·19h

なんだかプチバズってて驚いた。こういう情報、需要あるんかしら。

ビズリーチのCTOの講演資料を読んで驚いた。月間2,300億トークンをCodexで消費する組織(350人)が辿り着いた結論が、私が自分のために組んできた仕組みとほぼ同じ構造だったから。講演の核はシンプル。 — harnessは借りられる。統治は、自社で作るしかない。 harness=AIが正しく速く安全に動く足場(実行環境・文脈・ガードレール・検証ループ・観測性)。これはAnthropicやOpenAIから借りられる。でもそれだけだと「人間がフローの中にいるまま速くなる」=HITLの高速化止まり。人間が律速のまま抜け出せない。だから、ここから抜け出すには統治がいる。そこで彼らの出した答えが三権分立だった。 ●立法=何が正しいかを定義する(ルールのSSOT) ●司法=従ってるか裁く(機械チェック+LLM意味判定) ●行政=実際に実行する(workflow/agent) そして全部を、人間しか改正できない憲法が縛る。で、改めて自分のシステムを見たらほぼ全部あった。ルール群=立法、Phase 5.5のゲート=司法、複数体のagent=行政、Design Constitution=憲法。司法を「Grep/ASTの決定論チェック+LLMの意味判定」に二層化してるところまで一致してて、これは正直驚いた。特に「書かれてるだけ」を許さない構造に関して。 ADRやWikiに書いてもagentは参照しないし、違反しても誰も止めない。だから、うちの環境ではCIが落ちる・hookがEdit自体を止める仕組み。そして、「書かれている」と「効いている」は別物 — これが資料で一番刺さったところ。 === ここまでが一致の話。ここからはうちの環境の穴。資料には2つのグラフが出てくる。ルールとチェックを双方向に繋ぐAuthority Provenance Graphと、機能→仕様→テストを追うSpecification Provenance Graph。うちの環境にはこれが無い。つまり効かせるゲートは持ってるのに、ルール↔チェック↔実行を横断で追跡する地図が無いんよな。だから「チェックはあるが何のルールに依拠してるか不明」みたいな断絶を、機械的には検知できない。統治は、止められるだけじゃ足りない。繋がりを追跡できて初めて完成するんじゃないか、と。とりあえず次に埋めるのはそこ。

日本語

0

1

663

hiromi maeo@enhanced_jp·21h

@suna_gaku @hawkymisc そこはもう諦めてます😢

日本語

0

1

23

スナガク@suna_gaku·21h

@enhanced_jp @hawkymisc ですね... それはしんどいなあ...

日本語

ほーきー(Hawkie)🧹Vibe Coder & Analytics@hawkymisc

0

1

58

スナガク@suna_gaku·23h

【悲報】Opus 4.8 のTool呼び出しがミスる件、@hawkymisc さんに「Tool呼び出しをHaikuサブエージェントに移譲すればいけるのでは?」とアドバイスをもらった。試してみたところ、サブエージェント呼び出し自体ができないことが判明… く、くそう…

やったことないですが「Tool呼び出しは常にHaikuサブエージェントに移譲してください」で行けるかも……？

日本語

2

11

5.1K

hiromi maeo@enhanced_jp·22h

@suna_gaku それはそうですね。実際うちも例のリポジトリから抜き出した仕組みが発火するのは難しい実装の部分になってます。 Fableはプランニングの精度が非常に高かった。

日本語

0

1

92

スナガク@suna_gaku·23h

「三人寄れば文殊の知恵」、AI だと当てはまるタスクが限られると思ってる。実装はある程度答えが決まってるから、そこに収束していく。そして複数モデルが得意な領域で補い合えば、ある程度精度は上げられる。でもアイデアや設計は答えがないぶん、モデルそのものの地力が出る。仮説の切り口、見てる観点、検討できる数。ココの領域は、モデルの性能に最も依存する。もちろん複数モデルで行えば精度は上がると思うが、Fable には及ばないのかな、と....

中嶋謙互@ringo

OpenRouterのFusionが Fableに匹敵するとかいうから Cursorに設定して試してみたんだけど。。話にならんw Fableは、10倍変わるみたいなアホなこと言わん。。出てきた意見も「対応」であって「アイディア」ではない。　残念。。対応: 1つの問題に1つの解決策を与えるアイディア: 2つ以上の問題を一度に解決する解決策。

日本語

2

5

1.3K

hiromi maeo@enhanced_jp·23h

なお、このリポのCLAUDE.mdに記載されてるシステムプロンプトは公式ドキュメントらしい。なので、うちが導入したのはあくまでも品質を底上げする「独立した複数回答を統合する」という構造のみ。同じモデルの単発 vs 統合で単発に勝つ仕組み。

日本語

229

hiromi maeo@enhanced_jp·1d

ちなみに分析はagent teams + ultracodeで多角的に分析した結果。実際これが良い結果になるのかどうか。

日本語

0

1.6K

hiromi maeo@enhanced_jp·1d

fusion-fableっていう「Opusで複数モデルを融合してFable級の回答を出す」Claude Codeスキルを分解してみた。結論、普段使ってるシステムでは、この機構の8割は同じだったみたい。並列fan-out、クロスモデルパネル、N人で投票検証、judgeをpanelistから分離…これらはFable登場以前から全部すでに持ってたことがわかった。本当に新しかったのは2つだけで、これらを新しく追加した。 ①レンズを振らない。普通マルチエージェントは「懐疑役」「最適化役」とペルソナを当てて多様性を作る。実のところこれは逆で、同じプロンプトをそのまま2回投げて多様性を収穫する。同一モデル2回でも、統合すれば1回に勝つ(OpenRouter実証で+6.7pt、しかもリフトの3/4は混ぜることでなく統合ステップ自体から出てる)。 ②コードは「両方走らせてから」マージ。 2つの実装を、どっちが綺麗かでなく実際に動いたほうで接ぎ木して、統合後グリーンになるまで直す。独立した2実装は互いのバグを露出するから、マージ結果が両方の入力より正しくなる。多様性は作るより収穫するほうが強いということがわかる。

日本語

6

31

308

41.8K

hiromi maeo@enhanced_jp·1d

@Newyorkez Exactly. it's Opus, Codex and Gemini in the trench coat, doing a Fable impression. And yeah, they really do argue over the diff. 🦝🦝🦝🧥

English

1

114

IIIΞ FUGARU@Newyorkez·1d

@enhanced_jp So Fable was never a new model, it was three raccoons in a trench coat arguing over a diff.🤭

English

theverge.com/ai-artificial-…

0

2

101

hiromi maeo@enhanced_jp·1d

ZXX

semafor.com/article/06/13/…

76

hiromi maeo@enhanced_jp·1d

ZXX

0

1

126

hiromi maeo@enhanced_jp·1d

fusion-fableを分解して実装したわけだけど、本体のFableは政府命令により公開から数日で世界から消えた。封じられたのはモデル1個で、その水準への道のほうは、こうして外側から組み直せてしまう。ちなみに、誤解されがちだけど、これはFableの中身を組み直す話ものではない。 Fableは単一の最適化モデルで中身は非公開。やったのは「別々のモデルを束ねて統合すると単体に勝つ」という別経路で、Fable級はあくまで狙う品質の水準のこと。で、なぜFableが消えたか。米政府がAnthropicに「Fable/Mythosを米国人限定にしろ」と命令した。外国籍の自社社員すら弾く内容で、国籍を即時に判定するのは不可能だから、Anthropicは全世界で止める形で応じた。表向きの理由はjailbreak。ただ通報元も実証も競合のAmazonで、後述のSemaforやVERGEにあるように中国アクセス疑惑のほうは匿名証言1本、裏取りはない。Anthropic自身は中国の話を否定してる。しかし、確かなのは「米国が高性能AIを、対中の戦略物資として扱い始めた」という構造のほうなんよな。 === で、ここからが本題。封鎖って、手段として成立するのか? 物資なら封じ込められる。チップは数えられるし、港で止まる。でも消したのは特定のモデル1個で、その水準の回答への到達経路はそれ1本じゃない。 Fableを使った人はその回答の質そのものは体感してるはず。それを別物を束ねて統合させて近づける、蒸留・代替・融合が効果的な領域。もちろん消えたモデルそのものは戻らんし、体験も別物。ただ「独立した回答を束ねて統合すると単体より精度が上がる」ことだけは確実で、これは実際にシステムに組み入れて確かめた。モデルは数えて止められる。でも水準への道は数えられんのよな。そもそもOpusもGPTもGeminiももう充分に賢いモデルなわけで。ちなみに封鎖が有効か自滅か、三層で見るとこうなる。 ●恒久的な能力封じ込めとしては、自滅寄り。蒸留・代替・融合で別経路が組める対象を、在庫管理のロジックで止めようとしてる。 ●時限的な防御固め+規範形成としては、合理たりうる。輸出管理は完全である必要はなくて、相手の限界コストを上げれば目的は果たす。 ●最大の自滅要因は、中国漏洩より同盟国の信頼のほう。同盟国の非米国人にまで最良モデルを禁じると、得るものより削れる信頼のほうが大きいんじゃないか？もちろん一般ユーザーの失望も。まあそれだけFableを使った際の体験が良かったという証左でもあるわけだけれど。 === で、本当に怖いのはここから。このような封鎖が一回限りで終わらない場合。 ●「フロンティア能力=信頼できる米国人限定」がテンプレになると、線が「信頼」で引かれ始める。では誰が信頼を担保する？国籍？線の内側=クローズドな最前線、外側=一段枯れたモデル。Mythos/Fableのモデル分離もまあそれに近い。しかし、信頼だけで線引しても必ず漏れる。そして少しでも流出すれば、オープンソースの集合知が一番速く埋める。ただしそれは、能動的に探さないと届かないけども...。結局どっちに転んでも、「効果的な知識は閉じた層の中」という格差は残る。だから自分にできるのは、線の外側だろうが、より高い水準の回答を得るための仕組みを作ることなんじゃないか、と。現時点で封じられているのは特定のモデルであって、そこへの道筋じゃないわけでな。

fusion-fableっていう「Opusで複数モデルを融合してFable級の回答を出す」Claude Codeスキルを分解してみた。結論、普段使ってるシステムでは、この機構の8割は同じだったみたい。並列fan-out、クロスモデルパネル、N人で投票検証、judgeをpanelistから分離…これらはFable登場以前から全部すでに持ってたことがわかった。本当に新しかったのは2つだけで、これらを新しく追加した。 ①レンズを振らない。普通マルチエージェントは「懐疑役」「最適化役」とペルソナを当てて多様性を作る。実のところこれは逆で、同じプロンプトをそのまま2回投げて多様性を収穫する。同一モデル2回でも、統合すれば1回に勝つ(OpenRouter実証で+6.7pt、しかもリフトの3/4は混ぜることでなく統合ステップ自体から出てる)。 ②コードは「両方走らせてから」マージ。 2つの実装を、どっちが綺麗かでなく実際に動いたほうで接ぎ木して、統合後グリーンになるまで直す。独立した2実装は互いのバグを露出するから、マージ結果が両方の入力より正しくなる。多様性は作るより収穫するほうが強いということがわかる。

日本語

2

0

5

2.4K

hiromi maeo@enhanced_jp·1d

今日からclaude -p/Agent SDKが従量クレジット枠に変わるみたい。とはいえ作業の主軸は無料据え置きの対話モードで、headless利用も軽い設計なので影響はほぼゼロ。重い無人headlessを常用してなかったので今のところ安心。「お金使わない実装しろ」とClaudeCodeに宣言しておいてよかった🌝 support.claude.com/ja/articles/15…

日本語