きのすけ

2.5K posts

きのすけ banner
きのすけ

きのすけ

@kinosuke01

福岡に住むWebアプリエンジニア。GMOペパボ所属。Xでは気になった技術情報を日々ポストしています。休みの日はmixi2にいます。https://t.co/azDzHAYzfe

Katılım Nisan 2016
444 Takip Edilen285 Takipçiler
きのすけ
きのすけ@kinosuke01·
自己申告ベースの調査では、AIツールの3つ同時並行で生産性スコアは最大になるが、それを超えると生産性は低下し、意思決定の質の低下や、エラーのリスク増大があるとのこと。過度なAIツールの監視による疲労のことを「AIブレイン・フライ」というらしい。 hbr.org/2026/03/when-u…
日本語
0
0
0
51
きのすけ
きのすけ@kinosuke01·
アプリケーション開発のハーネスにおいて「生成・計画・評価」が効果的という話。評価に関しては、評価項目を与え、懐疑的にチェックするようチューニングし、Playwriteで動作確認できるようにするのがよいらしい。 anthropic.com/engineering/ha…
日本語
0
0
0
57
きのすけ
きのすけ@kinosuke01·
Claudeの開発方針。最優先事項として「人間による監視や修正を妨げないこと」があげられている。僕たちが AI Agent を開発する場合においても、この観点は押さえておくべき事項かも。 anthropic.com/constitution
日本語
0
0
1
65
きのすけ
きのすけ@kinosuke01·
リスクが高いと判断されたものはリリースがブロックする仕組みにしてたらしく、週末はリスク上位5%をブロック。大規模なイベント前は保守的に上位50%をブロックと、状況に応じて調整してたみたいね。
日本語
0
0
0
39
きのすけ
きのすけ@kinosuke01·
結構前のやつだけど、diffから重大な不具合を検知するMetaの取り組み。ロジスティク回帰モデルよりも、リスク予測用に微調整したLLMの方が性能がよかったらしい。 arxiv.org/html/2410.0635…
日本語
1
0
1
63
きのすけ
きのすけ@kinosuke01·
CIでの my.cnf で innodb_flush_log_at_trx_commit = 0; 指定するとトランザクションログのストレージ書き込みが遅延実行されるので、パフォーマンスあがるのか。クラッシュしたときに未書き込みのデータが消失するってことだからCIでは問題ないはず。使っていこう。 speakerdeck.com/stefafafan/gha…
日本語
0
0
1
84
きのすけ
きのすけ@kinosuke01·
スキルはエージェントのタスク成功率を大幅に引き上げるけど、それを最大限引き上げるにはスキルを作成するだけでなく、「構築→テスト→分析→改善」というサイクルを回すための評価基盤を整えることが大切と。 blog.langchain.com/evaluating-ski…
日本語
0
1
1
114
きのすけ
きのすけ@kinosuke01·
仕様漏れや実装漏れを自動検知する仕組み。各フェーズの成果物には派生関係があるので、派生先や派生元の有無をGeminiにチェックさせることで漏れを検知する感じみたい。実際のコストや偽陽性率、偽陰性率を公開してくれているのありがたい。 speakerdeck.com/orgachem/intro…
日本語
0
2
5
627
きのすけ
きのすけ@kinosuke01·
エージェントが失敗したタスクの要因を、自律的に分析させて、遂行にあたって必要なSKILLを自動生成させるアプローチ。EvoSkill。オートハーネスもそうだけど、そういう流れにはなるよね。 arxiv.org/abs/2603.02766
日本語
0
0
0
51
きのすけ
きのすけ@kinosuke01·
AIによる長期的なコード保守能力を評価する指標「SWE-CI」。CIのループを通して、時間経過に伴うコードの安定性(デグレが出ないか等)を測るもの。これで評価すると、ほとんどモデルはまだ課題がある状況らしい。数十回にわたる修正でのゼロ・リグレッション率は25%未満。 arxiv.org/abs/2603.03823
日本語
0
0
1
93
きのすけ
きのすけ@kinosuke01·
AutoHarnessという手法の提案。ルール違反によるタスク未達問題解消のため、違反のフィードバックを受けたら、それを防止するコードハーネスを生成AI自身に作らせるのが効果的らしい。誤った論理の袋小路に入らないようトンプソン抽出を用いた木探索を用いるのがポイントぽい arxiv.org/abs/2603.03329
日本語
0
0
1
95
きのすけ
きのすけ@kinosuke01·
事業フェーズを踏まえてミッション(機能開発)ごとにチームが組織された状況で、ミッションチームには当てはまらない課題(保守や広報など)をどう拾うか。課題ごとにチーム横断の委員会を設立して、自主性をもって進める感じで解決を試みたみたい。 speakerdeck.com/shoheimitani/c…
日本語
0
0
0
68
きのすけ
きのすけ@kinosuke01·
Amazonではコード変更に起因する大規模障害が続いたため、AI支援コードの変更にはシニアレビューを必須にしたらしい。ボトルネックになるだろうけど、現状そうするしかなかったってことよね。 arstechnica.com/ai/2026/03/aft…
日本語
0
0
2
92
きのすけ
きのすけ@kinosuke01·
"技術的課題に見えるものの多くは、組織とプロセスの問題が技術に表出しているだけ" そうだよね。違和感のあるシステムの境界があったとしても、それは過去の組織体制や力関係の名残だったりするわけで。当時はそれがベターな判断だったはず。 speakerdeck.com/nwiizo/ji-shu-…
日本語
0
2
18
1.7K
きのすけ
きのすけ@kinosuke01·
SQLiteって、ソースコードの数百倍にも及ぶテストコードが運用されていて、テストカバレッジは100%らしい。すごい。ミッションクリティカルな用途を想定するとそうなるんか。 sqlite.org/testing.html
日本語
0
0
3
121
きのすけ
きのすけ@kinosuke01·
新しい文化やプロセスを浸透させるにはツールの配布では不十分、というのはホントにそう思う。組織内において営業やマーケティングやる感じなんだと思ってる。それをやりきるのに胆力がいる。 speakerdeck.com/keitatomozawa/…
日本語
0
0
1
81
きのすけ
きのすけ@kinosuke01·
Slackから呼び出して、DatadogやCloudWatchのデータをMCPから取得し、調査や改善提案してくれるエージェントいると便利よね。最近だったら、ClaudeCodeをクラウド上のコンテナに住まわせてSlack経由で依頼するやり方もあるかも。 speakerdeck.com/taddy_919/our-…
日本語
0
0
1
95
きのすけ
きのすけ@kinosuke01·
「linterで制御できるものはコンテキストに含めない」は大切。Terraform関連のlinterをあまり知らなかったので、キャッチアップしておこう。TFLint,Checkov(セキュリティ設定ミス検出),Sentinel(ポリシー強制)等 docswell.com/s/mozumasu/KEY…
日本語
0
0
1
124
きのすけ
きのすけ@kinosuke01·
AIエージェント開発では、推論プロセスのトレースが重要という話。処理の失敗は推論の誤りがほとんどなので、トレースから原因を探るしかない。また本番のトレースデータは評価用のテストデータとして改善に活用できる。 langchain.com/conceptual-gui…
日本語
0
0
0
61
きのすけ
きのすけ@kinosuke01·
ハーネスエンジニアリングの文脈でも語られてた気がするけど、システムプロンプトに全ての知見を詰め込むのはタスク成功率を下げるので、Skills的に必要な時に必要な分だけのコンテキストを与えるのが最近のトレンドなんかな。
日本語
0
0
0
49
きのすけ
きのすけ@kinosuke01·
コンテキストファイル(AGENT\.md等)について。人間が書いた場合、タスクの成功率が上昇する一方で、コストは最大19%増加。AIが書いた場合、逆に成功率が下がり、コストは20%以上増加。コンテキストファイルが逆にタスクを複雑にしている可能性があるって。 arxiv.org/abs/2602.11988
日本語
1
0
0
71