
患者データを外に一切出さない完全ローカルの医療AIを作り始めた。 診療にAIを使ってる。音声認識でSOAP生成、病名推定、漢方提案、検査レポート。40個以上のツールが毎日の診察を支えてる。 便利だ。でもひとつだけ、ずっと気になってたことがある。 患者のデータが、クラウドを経由すること。 ZDR契約で学習には使われない。でも「患者さんの診察内容がインターネットを通る」という事実そのものに、根本的な不安が残る。理想を言えば、そもそも外に出さなければいい。 院内のPCだけで完結するAI。患者データが建物の外に一歩も出ない。それが最終的に目指すべき形だと、ずっと思ってた。 問題は性能だった。クラウドには巨大なGPUクラスタと数千億パラメータがある。うちのPCにはRTX 3070が1枚。VRAM 8GB。まともに動く医療AIを載せるのは無理だと思ってた。 そこで1ビット量子化という技術を知った。 通常のAIはパラメータひとつにつき16ビットの精度を使う。それを1ビットまで落とす。重みを「+1」「0」「-1」の3値に圧縮する。掛け算が足し算に変わり、計算量が劇的に減る。 PrismML社のBonsai-8Bを採用した。80億パラメータで、ファイルサイズ1.15GB。スマホでも動くサイズ。 RTX 3070で44トークン/秒。VRAMたったの1.9GB。音声認識のWhisperと同居できる。 ただし、そのままでは医療には使えない。汎用モデルだから、SOAPの書き方も日本の保険診療も知らない。 ここに自分の診療データを注入した。開業から1年3ヶ月分——SOAPの書き方、処方パターン、病名の付け方、漢方の使い分け、レセプト病名のフィードバック983件。RAGで90チャンクに分割してモデルに接続。 1ビット量子化の医療特化LLM。調べた限り、この組み合わせをやってる人はまだいない。 Microsoft BitNetは汎用のみ。PrismML Bonsaiはロボティクス・エッジ向けで医療事例ゼロ。Med-PaLMやPMC-LLaMAは4bit以上が主流。「1ビット×医療特化」は公開事例の中では空白地帯。 で、正直に書く。今のスコアはSOAP 75点、病名推定65点。本番で使えるレベルじゃない。 だから「シャドウモード」にした。本番AIはそのまま動く。患者さんに影響ゼロ。その裏でローカルAIが同じ入力を処理して、自動採点される。 全11エンドポイント——SOAP、病名、漢方、検査レポート——すべてでシャドウが走ってる。1日80人の診察で80件の訓練データが自動蓄積。普通に診察してるだけでローカルAIが賢くなっていく。 今はまだ「作り始めた」だけ。完全ローカル化はゴールであって現在地じゃない。クラウドに頼ってる部分はまだある。嘘つくつもりはない。 ただ、1ビットのモデルが1.9GBのVRAMで44tok/s出る世界が来てる。1年前には想像もしなかった。この速度で技術が進めば、クリニックのPCだけで全部動く日は案外遠くないかもしれない。 詳しい人いたら教えてほしい。特にfine-tuningの効率的なやり方、1ビットモデルの限界、医療LLMの知見。 #医療AI #医療DX #ローカルLLM #1ビット量子化 #バイブコーディング #ClaudeCode







