mkX@おまじない

1.8K posts

mkX@おまじない

@mkXomj

未来をユーモアと希望をもって冒険するエンジニア。新技術やそれを使ったアイディア、技術に関することを発信していきます cosmos ブロックチェーン作ったりしてました仕事依頼はDMへ

Katılım Nisan 2021

134 Takip Edilen75 Takipçiler

mkX@おまじない@mkXomj·2d

agent memoryの長期記憶スコアリング計測ってどうすればいいの？ raw text + grep,RAG,GraphRagなどの手法を超えて長期記憶のスコアリングないよな・・・エビデンスID付きの短期記憶スコアリングしかない

日本語

mkX@おまじない@mkXomj·2d

codexのコンテキスト圧縮便利だけど、　24h連続コーディングしたらドリフトします

日本語

mkX@おまじない@mkXomj·2d

近いです。ただ Span の前後を見るというより、model turn / tool call を最小単位に正規化する感じでした。 raw trace の階層や attribute 名は framework 依存なので、そこは adapter で吸収して、input / tool schema / tool call / tool result / mutation / verifier / finishみたいな event 列に落とす。その上で reference agent trace と開発agent の step を比較して、「この turn からズレた」「ここで probe が増えた」「first-write は速いけど間違った方向に進んだ」みたいに見る感じです。 LangSmith の自動改善系はかなり面白いですね。こういう泥臭い話、実際に agent 開発してる人とできるの嬉しいです🤗

日本語

夢かけ🦊こんぶの人@yume_piece1010·2d

あぁ、なるほど。OTel のTraceではなく、OTelのTraceでいうところのSpanレベルの前後でだけ見るとかって具合ですかね？確かにそういった方法であれば出来そうですね。(漠然とは、トレースを分解していくなら、ある程度は出来そうだなぁとは思ってはいましたけど、それでも机上に空論レベルだったもので…いや、そもそも分解したところでフレームワークごとの差分吸収が難しいか…) 確かに、Agent Loopなんかもそうですが AIエージェントを組み込んだ仕組みだとか面白いですね！AIエージェントでも設計が難しい部分ですから。ただ、きちんと調べていないのですが、LangSmithがAgentの自動改善の仕組みを作ってるらしいので、そのうち、Agent Loopなんかも設計できるようになっていくのかも知れませんね。

日本語

夢かけ🦊こんぶの人@yume_piece1010·2d

確かに基本自体はそうだけど、フレームワークごとにトレース内のどのspanにユーザーのinputがattribute として設定されているのか？だとかが違ったり、OTelのSemantic Conversations の attributes名に従っていなかったりだとかして、Observabilityや評価のためのスクリプトなんかを作るのが難しい(最悪、アプリごとにトレース構造を正規化する処理を用意しないとならないまである)というのが問題ではある。 MLFlow 3.12.0だとこんな感じだけど、例えばKotlinのKoog とか使うと、トレース内のどこかの階層にユーザーinputがあって…みたいになるので、観測の基本部分以外の課題が厄介なんですよね。 mlflow.org/docs/latest/ge… 基本的には同じでも、フレームワークごとに違う時点で、扱い辛いってなるんですよね。 Koog しか使わないとか、Koogのバージョン自体をアップデートもしないとかでないと、評価し辛いとなるのが問題点。そこが改善されれば、あとはどんな評価基準で評価していけば良いの？となるんだけどねぇ…(まあ、厳密には他にも考えないとならない部分は色々とあるだろうけど)

mkX@おまじない@mkXomj

ぶっちゃけ観測は基本やで。そもそもこれが無いとagent loopまともに実装できないし、どこを直せばいいかもわからんくなる。なぜここでtool使わなかったのか？プロンプトが悪いのかtool surfaceが悪いのかtool resultの圧縮方法が悪かったのか観測性が担保したらrepalyできるようにしとくプロンプト、ツールそれを微妙に変えて同じモデルターンを1回だけreplayできるようにするモデル挙動が変われなければ、元に戻して再設計する github.com/mkXultra/mew でterminalbench でcodex級に育てたので死ぬほど知見は溜まった。観測性を担保した上で評価ハーネスをまともに作らんと効果的にブラッシュアップできん

日本語

105

mkX@おまじない@mkXomj·2d

なぜみんなオレオレメモリーシステムは作るのに、それを評価する仕組みを作らないのか

日本語

mkX@おまじない@mkXomj·2d

memory評価bench がterminal bench並みに育ってなくて自作しないといけないのつれぇ・・・今年中には出ると思うけど、待ってられないから作るしか無いか・・・

日本語

mkX@おまじない@mkXomj·2d

joe@joe_yuzupi

本日の資料です！ speakerdeck.com/yuzujoe/how-to… #oteljp

日本語

184

mkX@おまじない@mkXomj·4d

codex相当にするためにモデルターン分析は当たり前にいれたけど、このプロンプトが効くか特定ターンのプロンプト変更でのreplay、なぜその判断をしたのかを聞けるプログラムなどめちゃくちゃ頑張った。

日本語

mkX@おまじない@mkXomj·4d

ついにterminal bench のcoding taskでcodexと同等のパフォーマンスを実現した

日本語

mkX@おまじない retweetledi

Hikaru Nagamine@コーヒーのなんか作る@hikaru_naga·5d

自分用に IRIDOME というサービスを作り始めてます。焙煎事業と、やりたいIoTもつなげたい、というのが最初のきっかけという感じ。まだ開発中ですが、LPだけ先に公開しました。焙煎に関わる方、よかったらのぞいてみてください。興味持ってもらえたら嬉しいです。 iridome.com

日本語

mkX@おまじない@mkXomj·5d

marpで作るよりもHTMLスライドの方が綺麗だええやん、ええやん

日本語

mkX@おまじない@mkXomj·17 May

codex経由のgpt 5.5 xhigh品質落とされている気がする・・・

日本語

mkX@おまじない@mkXomj·15 May

過適応になっている可能性はあるが、そこは少しずつ直せばいい。 codex超えは壁を超えた感がある

日本語

mkX@おまじない@mkXomj·15 May

初めてcodexスコアをこえたああああああああああああああああああああああああああああああ

日本語

mkX@おまじない@mkXomj·15 May

エンジニア人生の中で今一番楽しいかもしれない個人が企業と技術で殴り合えるのは今しか無いぜよ

日本語

mkX@おまじない@mkXomj·15 May

人間を介在させない1 agent loopですら開発に難しいのマルチエージェントオーケストラとか本当に作れるの？って思う自然な形での思考誘導とかreasoning chainの固め方とか死ぬほど難しいんだけどベンチマーク取るしかないし

日本語

mkX@おまじない@mkXomj·15 May

あああああああああああああああああどうしてもcodexの挙動を再現できない初期探索->apply_pathの挙動が早ぎる

日本語

mkX@おまじない@mkXomj·14 May

いやーまじでclaudeハックだよなー企業意思決定遅いから、個人はすぐにやめられるけどclaude codeが入り込んだ実績があるから少し高くなってもやめられなさそうそして、各リポでclaudecode用にチューニングしたらさらに抜けられなさそう 12月時点で、かなり怪しい動きだったからclaude依存をなるべく減らしていた意思決定はよかったわ GLM5.1も賢いしローカルLLM環境構築も視野にいれないと

日本語

152

mkX@おまじない@mkXomj·14 May

claude -p まで別使用量とかさすがにやばすぎない？もうこれパワーユーザーの追放じゃん

日本語

mkX@おまじない@mkXomj·13 May

gemini cliからollama cloudに変えて快適マルチエージェントワークフローで詰まることもないし

日本語

Keşfet

@elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA @nikifrancismediavine @katyperry