mkX@おまじない
1.8K posts

mkX@おまじない
@mkXomj
未来をユーモアと希望をもって冒険するエンジニア。 新技術やそれを使ったアイディア、技術に関することを発信していきます cosmos ブロックチェーン作ったりしてました 仕事依頼はDMへ
Katılım Nisan 2021
134 Takip Edilen75 Takipçiler

近いです。ただ Span の前後を見るというより、model turn / tool call を最小単位に正規化する感じでした。
raw trace の階層や attribute 名は framework 依存なので、そこは adapter で吸収して、input / tool schema / tool call / tool result / mutation / verifier / finishみたいな event 列に落とす。
その上で reference agent trace と 開発agent の step を比較して、「この turn からズレた」「ここで probe が増えた」「first-write は速いけど間違った方向に進んだ」みたいに見る感じです。
LangSmith の自動改善系はかなり面白いですね。
こういう泥臭い話、実際に agent 開発してる人とできるの嬉しいです🤗
日本語

あぁ、なるほど。OTel のTraceではなく、OTelのTraceでいうところのSpanレベルの前後でだけ見るとかって具合ですかね?
確かにそういった方法であれば出来そうですね。(漠然とは、トレースを分解していくなら、ある程度は出来そうだなぁとは思ってはいましたけど、それでも机上に空論レベルだったもので…いや、そもそも分解したところでフレームワークごとの差分吸収が難しいか…)
確かに、Agent Loopなんかもそうですが AIエージェントを組み込んだ仕組みだとか面白いですね!AIエージェントでも設計が難しい部分ですから。
ただ、きちんと調べていないのですが、LangSmithがAgentの自動改善の仕組みを作ってるらしいので、そのうち、Agent Loopなんかも設計できるようになっていくのかも知れませんね。
日本語

確かに基本自体はそうだけど、フレームワークごとにトレース内のどのspanにユーザーのinputがattribute として設定されているのか?だとかが違ったり、OTelのSemantic Conversations の attributes名に従っていなかったりだとかして、Observabilityや評価のためのスクリプトなんかを作るのが難しい(最悪、アプリごとにトレース構造を正規化する処理を用意しないとならないまである)というのが問題ではある。
MLFlow 3.12.0だとこんな感じだけど、例えばKotlinのKoog とか使うと、トレース内のどこかの階層にユーザーinputがあって…みたいになるので、観測の基本部分以外の課題が厄介なんですよね。
mlflow.org/docs/latest/ge…
基本的には同じでも、フレームワークごとに違う時点で、扱い辛いってなるんですよね。
Koog しか使わないとか、Koogのバージョン自体をアップデートもしないとかでないと、評価し辛いとなるのが問題点。
そこが改善されれば、あとはどんな評価基準で評価していけば良いの?となるんだけどねぇ…(まあ、厳密には他にも考えないとならない部分は色々とあるだろうけど)
mkX@おまじない@mkXomj
ぶっちゃけ観測は基本やで。 そもそもこれが無いとagent loopまともに実装できないし、どこを直せばいいかもわからんくなる。 なぜここでtool使わなかったのか?プロンプトが悪いのかtool surfaceが悪いのかtool resultの圧縮方法が悪かったのか 観測性が担保したらrepalyできるようにしとく プロンプト、ツールそれを微妙に変えて同じモデルターンを1回だけreplayできるようにする モデル挙動が変われなければ、元に戻して再設計する github.com/mkXultra/mew でterminalbench でcodex級に育てたので死ぬほど知見は溜まった。 観測性を担保した上で評価ハーネスをまともに作らんと効果的にブラッシュアップできん
日本語

ぶっちゃけ観測は基本やで。
そもそもこれが無いとagent loopまともに実装できないし、どこを直せばいいかもわからんくなる。
なぜここでtool使わなかったのか?プロンプトが悪いのかtool surfaceが悪いのかtool resultの圧縮方法が悪かったのか
観測性が担保したらrepalyできるようにしとく
プロンプト、ツールそれを微妙に変えて同じモデルターンを1回だけreplayできるようにする
モデル挙動が変われなければ、元に戻して再設計する
github.com/mkXultra/mew
でterminalbench でcodex級に育てたので死ぬほど知見は溜まった。
観測性を担保した上で評価ハーネスをまともに作らんと効果的にブラッシュアップできん
joe@joe_yuzupi
本日の資料です! speakerdeck.com/yuzujoe/how-to… #oteljp
日本語
mkX@おまじない retweetledi

自分用に IRIDOME というサービスを作り始めてます。
焙煎事業と、やりたいIoTもつなげたい、というのが最初のきっかけという感じ。
まだ開発中ですが、LPだけ先に公開しました。
焙煎に関わる方、よかったらのぞいてみてください。興味持ってもらえたら嬉しいです。
iridome.com
日本語