
生成AIに人生捧げた人|大束良明
1K posts

生成AIに人生捧げた人|大束良明
@otsukaroom
いろいろ作って生きてる24歳。物販でバズった → 海洋プラ事業 → 今は、実店舗の集客をAIで効率化するアプリを開発しています。LLM無職3年目 ☻϶


AI駆動開発、この手法が最強すぎる↓ 1)Codexと相談してプランニング、仕様書作成 2)プランをサブエージェント3並列レビュー 3)レビュー結果を反映 4)単体・e2eテストの実装計画を仕様書に追記 5)テストの網羅性についてサブエージェント3並列レビュー 6)そのままCodexが実装 7)テスト駆動開発実施(テストコードが全部通るまでAIが自律的試行錯誤) 8)実装状態をサブエージェント3並列レビュー 9)レビュー結果を反映 10)最後にテストコードが全部通ることを改めて確認 11)Vercelのプレビュー環境で軽く手動テスト動作確認 12)GitHubにプルリクエストを作成 「サブエージェント3並列レビュー」のレビュー観点は細かくSkillsにしてます。 そして週末定期的にコードベースをClaude Code Webの10並列とかで一気にリファクタリングして綺麗にする。 これもテスト駆動開発で自動テスト通る前提でプルリクエストMerge。デプロイ前にプレビュー環境で手動テスト。 これの凄いところは、AI駆動開発のワークフローをGitHub上で環境整えれば、業務委託先とかチーム開発で標準化して、ある程度誰でも似た水準の品質で開発させられること。 見れば分かる通り、人間レビューの前にAIレビューを各所で合計「9回」入れているので、人間レビューは要件・設計レベルの重要なレイヤーだけに集中出来る。 シニアエンジニアが準備した完璧なAI駆動開発ハーネス環境をジュニアエンジニアに使わせるイメージ。

CODEX LIMITS ARE FIXED!



【お知らせ】 コードではなく「仕様書」からバグを見つけるAIセキュリティ監査ツールを、本日OSS公開しました。 名前はSPECA。Specification-to-Checklist Agentic Auditing Framework の略です。 SPECAは、「仕様駆動(Specification-driven)」で高信頼性ソフトウェアを監査するための、AIエージェント型セキュリティ監査フレームワークです。 従来のコード駆動型ツールとは、根本的に異なるアプローチを取っています。 自然言語で書かれた仕様、たとえば EIP やコンセンサス仕様書などから、まず 明示的な型付きセキュリティプロパティ(Invariant / Precondition / Postcondition / Assumption) を抽出します。 次に、それらを STRIDE + CWE Top 25 に基づく脅威モデルで整理します。 そのうえで、各実装に対して proof-attempt reasoning、つまり「このプロパティが成立することを証明してみろ」と構造的に問いかけることで、仕様と実装のギャップを検出します。 これにより、次の3つの価値を提供します。 - 仕様レベルでしか表現できない脆弱性: コードパターンだけでは拾えない、仕様由来のバグを検出できる - 複数実装間の横断比較: 同じプロパティ辞書で、複数の実装を一律に評価できる - 偽陽性の原因分析: 根拠を完全にトレースし、偽陽性を根本原因ごとに分解できる 「これまでの実績」 SPECAは、これまで以下のような対象で実際に脆弱性を発見してきました。 ・Intmax ZK実装 ・SP1 zkVM実装 ・Ethereumクライアント実装20件以上 ・その他多数の DeFi プロトコル / OSSプロジェクト 直近の Sherlock Ethereum Fusaka 監査コンテストデータを用いた再実験では、既知の脆弱性15件すべてを検出し、さらに 追加バグ4件を独立に発見しました。 RepoAudit C/C++ ベンチマークでも、他のバグ発見AIと比較して最高水準の精度を維持しつつ、12件の新規候補バグを報告しています。 「なぜ今、全部OSS公開するのか?」 SPECAの核心である以下の要素を、すべて公開しています。 - プロンプト: AIエージェントのハルシネーションを徹底的に抑えるproof-attemptプロンプト設計 - 再帰的自己改善: 偽陽性を削減しながら H/M/L リコールを維持する 3-gate audit-reviewループ (Dead Code / Trust Boundary / Scope) - ハーネス: 並列化、リジューム、予算制御、circuit breakerまで完備した 再利用可能なPythonオーケストレータ - 解釈可能性: 全ステップのログ・出力をJSONで構造化し、監査可能・解釈可能にした設計 バグバウンティのスコープやルールをそのまま BUG_BOUNTY_SCOPE.json として読み込み、実践的な脆弱性だけを抽出する設計です。 Claude Code CLI + MCPサーバーで動作し、Go / Rust / Nim / TypeScript / C などマルチ言語に対応しています。GitHub Actionsで全フェーズを自動実行できます。 公開の決め手はシンプルです。 エンタープライズのセキュリティ部門でも、ClaudeやOpenAIを活用したセキュリティツールを導入する選択肢が現実的になってきました。 その今なら、SPECAをオープンに公開しても、ただ攻撃に悪用されるのを指をくわえて見ているだけではない。防御側・ホワイトハッカー側が先に活用できる環境を作れると判断しました。 攻撃者より先に、ホワイトハッカーが現実システムのバグを見つけ、報告し、修正につなげられる世界を作りたい。 「Call for white-hat hackers」 ホワイトハッカーの皆さん、どうかこのSPECAを使ってください。 悪意あるハッカーより先に、バグバウンティ対象の現実システムの脆弱性を発見しきって、報告し、修正に導いてください。 あるいは、これをベースに、より高度なバグ発見システムを構築する研究・開発の土台にしてください。 プロンプトも、ループも、ハーネスも、JSONログも、全部MITライセンスで公開しています。好きなだけ改造・拡張・フォークしてください。 「使い方」 repoをcloneして、次のコマンドを実行するだけです。 uv run python3 scripts/run_phase.py --target 04 --workers 4 --max-concurrent 64 コマンド一つで即座に動かせます。 BUG_BOUNTY_SCOPE.json と TARGET_INFO.json を用意するだけで、新しいターゲットの監査を開始できます。 GitHub: github.com/NyxFoundation/… READMEと全ソースコードを読めば、すぐに動かせます。 セキュリティ界隈の皆さんと一緒に、仕様から始まる本物の監査文化を次のステージに押し上げたいと思っています。 ご意見・改善案・バグ報告・コラボレーションも大歓迎です。RT・コメント・試用報告、どれでも構いません。ぜひ反応いただけると嬉しいです。



/goal 難民はとりあえず下記を実行して再起動 codex features enable goals


Codexのコンテキストの圧縮って、何が圧縮されてるの?ってぐらい優秀じゃない?? Claude Opus 4.6 でコンテキスト1M最高!!とか言ってたけど、Codexは258kでも何ら問題ないな。 強いて言えば自動圧縮の時間が長いからタイムロスぐらい笑


The Codex App is good. But the CLI is superior. I just feel the model behaves better. Plus performance.


GPT-5.5-medium has lower end-to-end latency, uses less tokens and is overall smarter and cheaper than Gemini 3.5 Flash it might genuinely be over for anyone not named OpenAI or Anthropic





