三好大悟|AI × Data Science

315 posts

三好大悟|AI × Data Science banner
三好大悟|AI × Data Science

三好大悟|AI × Data Science

@dmiyoshi_lc

株式会社リベルクラフトCEO&Data Scientist。 〜AI導入からデータ人材育成まで、ワンストップの伴走支援事業を展開〜 ←セブン&アイ・ホールディングス AI Data technology Unit ←スタートアップ Data Scientist ←慶應義塾大学 金融工学専攻

Tokyo Katılım Haziran 2025
54 Takip Edilen61 Takipçiler
Sabitlenmiş Tweet
三好大悟|AI × Data Science
執筆著書「統計学の基礎から学ぶExcelデータ分析の全知識」の改訂版2版が発売されています! 気になる方はぜひ手を取っていただけると嬉しいです。 #データ分析 #Excel #Excelデータ分析 #インプレス amzn.to/3SNCvLt
日本語
0
0
12
791
三好大悟|AI × Data Science
XのFor Youフィードを動かすアルゴリズムのコードが、2026年5月15日付けで大幅にアップデートされてGitHubに公開されました。前回リリース(2026-01-20)からの差分として、今回はじめて公開されたコンポーネントがいくつかあります。 ▼ Grox:コンテンツ理解パイプラインが初登場 フィードに流す前に投稿を分類・判定するPythonサービスです。スパム検知・規約違反コンテンツの判定・返信ランキング・テキスト+画像+動画を合わせた埋め込み処理を担っています。「なぜこの投稿が表示されないのか」の判定ロジックがはじめてコードとして見えるようになりました。 ▼ Phoenix:事前学習済みモデルが配布開始 256次元・4アテンションヘッド・2レイヤーのミニモデル(約3GB・Git LFS配布)が追加されています。自分でトレーニングしなくても推論だけ試せる状態になっており、run_pipeline.py という単一エントリポイントでRetrieval→Rankingを通しで動かせます。 ▼ Home Mixer:「誰がどんな状態で見ているか」の把握範囲が大幅に広がった フィードを組み立てる前にユーザーの状態を収集する情報項目が今回一気に増えています。具体的には、フォロー中のトピック・スターターパック・過去に表示した投稿の記録・相互フォロー関係・IPアドレス・直近セッションの配信履歴などです。何を出すかを決める前に、「今この人がどんな状態にあるか」をここまで細かく取得しているのは、見ていて少し驚きました。 ▼ 広告のフィード挿入ロジックが初公開 home-mixer/ads/ モジュールが追加され、通常の投稿の中に広告を混ぜ込む処理(ブランドセーフティのチェック・挿入位置の決定)がはじめてコードで見えるようになりました。 LLMベースのスコアリング(GrokをTransformerとして使うPhoenix)と手書きルールゼロという設計は、レコメンドシステムの構成としても参考になる部分が多いと感じています。コンテンツ分類・広告の混ぜ方・ユーザー状態の収集と、フィードを動かす仕組みの全体像がかなり読めるようになってきました。
Elon Musk@elonmusk

The latest 𝕏 algorithm has been published to GitHub github.com/xai-org/x-algo…

日本語
0
0
0
48
三好大悟|AI × Data Science
CodexがChatGPTのモバイルアプリに対応(プレビュー)。PCやMac miniで処理を走らせたまま、スマホから進捗確認・次のステップ承認ができるとのこと。 これは単なる利便性の話ではなく、開発者がAIエージェントを「手放して走らせる」設計に一歩踏み込んだものだと感じています。移動中やMTG後の隙間時間に承認して、エージェントが次のタスクへ進む、というリズムが現実になってきました! スマホがAI作業の監視端末になる感覚、ここ数ヶ月で一気に来ている気がしています。
OpenAI@OpenAI

You've been asking for this one... Now in preview: Codex in the ChatGPT mobile app. Start new work, review outputs, steer execution, and approve next steps, all from the ChatGPT mobile app. Codex will keep running on your laptop, Mac mini, or devbox.

日本語
0
0
1
100
三好大悟|AI × Data Science
AIが思ったより高度に発達しすぎたおかげで、 「コーヒー飲みながら管理画面見てるだけ」 みたいな世界線をイメージしていたのに、実際には、 「次々に終わるAIエージェント達の結果を見て指示を繰り返して人間のスペックが追いつかず脳疲労を起こす」 みたいな感じで、疲れがすごいですね…。
日本語
0
0
1
23
三好大悟|AI × Data Science
「うちはデータが少ないからデータサイエンスは無理だ」という声をよく聞きます。膨大なデータを処理する技術、というイメージが先に立つからだと思います。 でも統計学はもともと、少ないデータからいかに真実にたどり着くかを探求してきた学問です。紙とペンしかなかった時代から実践されていました。データサイエンスは2010年代に生まれた新しい技術ではなく、その本質は1800年代からすでに世界を動かしてきました。 1854年、ロンドンでコレラが大流行したとき、医師のジョン・スノーがやったことはシンプルです。死者の住所を地図にプロットした。それだけで、ある井戸の周辺に死者が密集していることが見えました。さらに彼は、水道会社ごとに感染率を比較する分析まで行っています。今でいう「セグメント別の比較分析」そのものです。 「近代看護の母」ナイチンゲールも、当時最先端のデータサイエンティストでした。クリミア戦争の死因の大半が戦闘ではなく感染症だという事実を突き止め、それを独自の可視化グラフにして軍の上層部に伝え、衛生改善を動かしました。データを集めるだけでなく、統計に詳しくない意思決定者に「伝える」ところまでやり切ったわけです。 この「問いを立てる、データを集める、分類する、可視化して伝える、意思決定につなげる」というプロセスは、Googleの検索アルゴリズムにも、コロナ禍の感染予測や人流解析にもそのまま流れています。道具が変わっても、本質は170年前から変わっていません。 現代のビジネスでも同じです。「この部署は忙しそうだ」という感覚ではなく残業時間を部署別に集計する。「売れていない気がする」ではなくチャネル別・顧客セグメント別に売上を並べる。それだけで問題の所在が見えてきます。 データの量ではなく、適切な問いと丁寧な分析。それさえあれば、感覚や常識を超えた結論にたどり着けます。170年の歴史がそれを証明しています。 ▼noteにまとめました。
日本語
1
0
0
17
三好大悟|AI × Data Science
AIを活用したいとき、どの技術手法が自社に合うかを考える前に確認すべきことがあります。扱いたいデータの種類です。 構造化データ(ExcelやCSVの表形式)と非構造化データ(テキスト・画像・音声)では、相性の良い手法がまったく変わります。具体的にはこういう対応関係になります。 ・売上・在庫・顧客情報(表形式の構造化データ)→ 基礎分析・統計解析・機械学習(教師あり学習) ・社内文書・規程・議事録(テキスト)→ 生成AI・RAG ・製品の外観検査写真・設計図(画像)→ 画像認識・生成AIのマルチモーダル活用 ・コールセンターの通話録音・会議録音(音声)→ 文字起こし後にRAGまたは生成AIで要約 ・センサーの時系列データ(数値の連続データ)→ 機械学習・異常検知・予測モデル 「うちはAI活用したいけれど何から始めれば」という相談の多くは、この入り口の整理からスタートできます。どんなデータがあって、何がしたいか。この2つを決めると選択肢がかなり絞れます。まず自社にあるデータの棚卸しをするだけで、方向性がかなり見えてきます。 ■この動画で解説していること ・データサイエンティストに必要な3スキル(DS力・エンジニアリング力・ビジネス力)の全体像 ・AI・機械学習・生成AIの包含関係(何が何の上位概念か) ・技術手法のピラミッド(基礎分析から数理最適化まで) ・データの種類(構造化・非構造化)と手法の使い分け方 ・統計解析がエンジニア以外のビジネスマンにも必要な理由 ▼このテーマについて、YouTubeでも解説しています。
日本語
1
0
2
45
三好大悟|AI × Data Science
社内のドキュメントをナレッジベースに入れるとき、テキストだけを入れているケースがよくあります。少し工夫するだけで検索精度が大きく変わります。 各ドキュメントにメタデータを付けることで、RAGが検索するときに「どの部門のどんな文書か」を手掛かりにして絞り込みができるようになります。テキスト全体を比較するより速く、より的確に関連ドキュメントを引っ張ってこられるのが最大のメリットです。 特に効果が高いのは、こういったメタデータです。 ・部門・部署名(人事、経理、営業、開発など) ・文書の種類(規程、マニュアル、議事録、報告書など) ・作成日・更新日(古い情報と最新情報を区別できる) ・作成者・担当チーム(誰が作った情報かで信頼度を判断できる) ・保存フォルダのパス(どこに属する文書かが分かるだけでも有効) 「経理の規定を知りたい」という質問に対して、メタデータがなければ全ドキュメントをスキャンしますが、メタデータがあれば経理フォルダの文書だけに絞って検索できます。精度が上がるのはもちろん、回答速度も改善します。コストがほぼかからない改善なので、まずここから試してみることをおすすめします。 ■この動画で解説していること ・社内データを「構造化・半構造化・非構造化」の3種類に整理する方法 ・AI活用しにくいデータの代表例(スキャンPDF・複雑なExcel等)と前処理のやり方 ・音声・動画をRAGナレッジとして活用するための2段階処理(文字起こし→要約) ・メタデータを付けるだけで検索精度が変わる理由と具体的な付け方 ・ミーティング録音をベテランの暗黙知として継承する方法 ▼このテーマについて、YouTubeでも解説しています。
日本語
1
0
1
23
三好大悟|AI × Data Science
「AIを使え」と言われたものの、何を作ればいいか分からない。ベンダーに相談したら「御社の課題は何ですか」と逆に聞かれて、答えに詰まった。こういう経験のあるDX担当の方は、けっこう多いと思います。 先日のウェビナーでお話ししたのは、この詰まりの正体は技術力ではなく「翻訳」の問題だ、ということです。 現場の課題は「検査漏れを減らしたい」「問い合わせ対応を楽にしたい」といった言葉で語られます。一方でAIの世界の言葉は「画像分類モデル」「RAG」です。この2つの間に翻訳がないまま発注すると、要件が決まらないままPoCが始まり、評価軸もないので成功とも失敗とも言えない状態が続いてしまいます。 ではどう翻訳するか。鍵になるのが、業務課題をインプットとアウトプットの2軸で4つの型に整理することです。インプットが構造化データか非構造化データか、アウトプットが判定か生成か。この2つを言葉にするだけで、使うべきAI技術が自然と絞り込まれていきます。 軸が2つしかないのがポイントで、AIに詳しくない人でも自分の業務について答えられます!完璧に分類することより、関係者で「うちの課題はたぶんこの型だね」と会話を始められることのほうが、ずっと実務的だと感じています。「とりあえずRAG」で迷子になる前の、最初の地図になる考え方です。 ▼noteにまとめました。
日本語
1
0
1
23
三好大悟|AI × Data Science
機械学習は過去の大量データから傾向を学習する手法ですが、数理最適化はアプローチが違います。 「ゴールに向かって変数を最適化する」というのが数理最適化の本質で、大量データがなくても成立します。目的関数(最大化・最小化したいもの)と制約条件(守らなければならない条件)を設定すれば、数学的に最適解を導き出せます。 使われているのはこういう場面です。 ・物流ルートの最適化(1日で運べる数を最大化する) ・ポートフォリオ最適化(リスクを最小化しながらリターンを最大化する) ・コンテナへの積載最適化(限られたスペースに最大限物を積む) ・シフト最適化(制約条件の中で最適なシフトを組む) ・工場の生産計画(コストを最小化しながら納期と品質制約を満たす) 「データサイエンスはビッグデータがないとできない」と思っていた方には、発想の転換になるかもしれません。ゴールと変数が設定できれば、過去データがなくても数学的に最適解を導けます。実は製造・物流・金融といった業界では、機械学習よりも先に現場で成果を出してきた手法でもあります。 ■この動画で解説していること ・データサイエンティストに必要な3スキル(DS力・エンジニアリング力・ビジネス力)の全体像 ・AI・機械学習・生成AIの包含関係(何が何の上位概念か) ・技術手法のピラミッド(基礎分析から数理最適化まで) ・データの種類(構造化・非構造化)と手法の使い分け方 ・統計解析がエンジニア以外のビジネスマンにも必要な理由 ▼このテーマについて、YouTubeでも解説しています。
日本語
1
0
0
52
三好大悟|AI × Data Science
「RAGを導入したが精度が出ない」という相談を受けて話を聞いてみると、モデルの選択よりもナレッジベースのデータ品質に課題があるケースがほとんどです。 RAGの精度はデータで決まります。どんな高性能なLLMを使っても、参照するナレッジが整っていなければ正確な回答は返せません。逆に、ナレッジが整っていれば比較的シンプルなモデルでも高い精度が出ます。 RAGに入れても精度が出にくいデータには、こういったものが多いです。 ・テキスト選択できないスキャンPDF ・セル結合が激しいExcel ・図や画像が混在するWordやPowerPoint ・音声・動画ファイルをそのまま入れたもの これらも前処理で対応できます。スキャンPDFならOCR、音声・動画なら文字起こし→要約、画像ならキャプション生成。データの種類に合わせた変換を先に済ませることが、RAGの精度を上げる最短ルートです! ■この動画で解説していること ・社内データを「構造化・半構造化・非構造化」の3種類に整理する方法 ・AI活用しにくいデータの代表例と前処理のやり方 ・音声・動画をRAGナレッジとして活用するための2段階処理 ・メタデータを付けるだけで検索精度が変わる理由 ・ミーティング録音をベテランの暗黙知として継承する方法 ▼このテーマについて、YouTubeでも解説しています。
日本語
1
0
0
19
三好大悟|AI × Data Science
Metaが人物画像10億枚で学習した高解像度ViTファミリー「Sapiens2」を静かに公開したとのこと。姿勢推定・部位セグメンテーション・法線・ポイントマップでSOTAを取り、0.1Bから5Bまで6サイズが揃い、1024×768や4K解像度まで対応します。 人物理解は車載・小売の動線分析・XR・スポーツ解析と用途が広く、サイズの選択肢があるとエッジ運用も含めて設計が組みやすくなります。基盤モデル側がここまで揃うと、上位アプリの工夫余地がさらに広がりそうです。
merve@mervenoyann

Meta silently dropped Sapiens2 last week 🔥 a family of high-res models trained on 1B human images > for pose estimation, body-part segmentation, surface normals, pointmaps (sota) > 6 sizes: 0.1B → 5B params (all ViT patch 16) > high-res: 1024×768 and 4K

日本語
0
0
2
48
三好大悟|AI × Data Science
「データサイエンスは理系の専門家がやるものだ」という思い込みが、多くのビジネスパーソンを入り口で止めています。 でも実は、仕事をしている人は誰もがデータサイエンスの「半分」をすでに持っています。データサイエンスの定義を正確に読むと、最初に出てくる単語は「統計」でも「プログラミング」でもなく、「専門知識」です。データサイエンスとは、専門知識 × データサイエンス技術の掛け算なのです。 人事なら人事の知識、製造なら現場の知識、営業なら営業プロセスの知識。それが「専門知識」であり、あなたはすでに片足を突っ込んでいます。 外部のデータサイエンティストが短時間でインプットできないドメイン知識を、10年間積み上げてきた方が、あとはデータのスキルを掛け合わせるだけ。「一からすべて学ぶ」必要はありません。自分の専門性を軸に、データという武器を加える発想に切り替えると、AI時代の景色がかなり変わります。 ▼noteにまとめました。
日本語
1
0
1
22