Tomonori SHINDOH / 進藤 智則

805 posts

Tomonori SHINDOH / 進藤 智則

Tomonori SHINDOH / 進藤 智則

@tshindoh

日経Robotics編集長 創刊メンバー 巻頭記事の大半を執筆 Editor-in-Chief of Nikkei Robotics ロボット/フィジカルAI/深層学習/半導体/ソフト工学など興味 電機・自動車・ITなど見てきた記者 投稿内容は個人の意見で所属企業・部門・媒体を代表するものではありません

Tokyo Katılım Ağustos 2012
752 Takip Edilen666 Takipçiler
Sabitlenmiş Tweet
Tomonori SHINDOH / 進藤 智則
日経Robotics主催として久々にイベントを開催します! 大規模言語モデルのロボットへの応用、Physical AIの興隆などを受けて、ロボットAIに焦点を当てたカンファレンスを企画しました。事前登録いただければ無料でご参加いただけます。ロボットAI、Physical AI、Embodied AI、VLA、ヒューマノイドといったテーマにご関心があるビジネスパースン・技術者の皆様ぜひご来場いただければと存じます。場所は有楽町の国際フォーラムにて10/16。 events.nikkeibp.co.jp/event/2025/rnt… 午前中の基調講演では、米国ヒューマノイドスタートアップの草分け的存在、米Agility Robotics創業者Jonathan Hurst氏を招聘しました。「ヒューマノイドロボット:物流から家庭へ Physical AIへの道のりを読み解く」と題して講演いただきます。 現在のロボットAIは、メインストリームのAIの進化の恩恵を受けている側面が大きいですので、ロボットAIの動向を占うには、メインストリームのAIそのものがどうなっていくかを把握する必要があります。そこで弊誌『日経Robotics』にも連載「AI最前線」を寄稿しているPreferred Networks 共同創業者の岡野原大輔氏にご登壇いただき、「AIの進化とロボティクスへの影響」と題して語っていただきます。 午後は、Physical Intelligenceと提携したり、ヒューマノイドを発表したりと、このところ話題のTelexistenceの共同創業者CTO佐野様、日本で国プロとしてロボットAIの取り組みを進めているAIロボット協会(AIRoA)CTOの松嶋様(東大松尾研)など、日本でロボットAIの領域において最先端のお取り組みをされていらっしゃる方々にご登壇いただきます。 Telexistence様はVision-language-action(VLA)モデルをコンビニの飲料陳列ロボットに応用することまで視野に入れていらっしゃいます。ロボットAIで世界の先頭を行くグーグル発の企業、Physical Intelligenceの技術が、コンビニで動いている商用化されたロボットに搭載される可能性があるわけです。この辺りの詳細は日経Robotics 9月号の佐野様インタビューで詳しく書いておりますので、ぜひご一読ください。 バイオ業界では安川電機様とアステラス製薬様が合弁会社を設立予定で、ロボットによる細胞医療製品の製造に向けてお取り組みされています。これまで使われてきたラボオートメーションでのロボット利用だけでなく、いよいよ製造というフェーズにまで「まほろ」発の技術が使われようとしているのです。このあたりのお話をアステラス製薬のCMCディベロップメント 原薬研究所長 山口様にお話いただきます。 インフラ点検では北海道電力の鈴木様に、LNG火力発電所「石狩湾新港発電所」でのインフラ点検ロボットの事例についてお話いただきます。インフラ点検は実証実験の取り組み自体は多くありますが、実業務を支えるように連日本格稼働させている例はまだ希有です。 以上が主催者側として企画したセッションですが、本カンファレンスでは、スポンサー各社様によるご講演も「協賛講演」として多数ございます。多大なご支援いただいているスポンサー各社様には深く御礼申し上げます。
日本語
0
1
9
1.5K
Tomonori SHINDOH / 進藤 智則 retweetledi
Kazuki Kozuka
Kazuki Kozuka@KazukiKozuka·
スタンフォード大学との共同研究成果を日経Robotics様に取材して頂きました。
Panasonic×AI|パナソニックの人工知能研究開発@panasonic_ai

一人称視点映像からの動作推定・生成を可能にする #ICCV2025 採択論文 "UniEgoMotion" の解説記事を『日経Robotics』 2026年4月号 に掲載頂きました!  xtech.nikkei.com/atcl/nxt/mag/r… ※後半は購読者限定記事となっております

日本語
0
2
6
370
Tomonori SHINDOH / 進藤 智則
このところNVIDIAが力を入れているフィジカルAIの一種 VAM(video-action model)は世界モデルを内包しており、ロボットテレオペデータも少量で済むものの、生成が非常に重いのが難点でしたが、その難点をNVIDIAは早速解決して見せました。実装レベルからシステムレベル、モデルレベルまであらゆるレイヤーで高速化・最適化を徹底し、ロボット用にリアルタイム実行できるまでにしてしまいました。それがDreamZero。日経Robotics 4月号で解説を書きました。 xtech.nikkei.com/atcl/nxt/mag/r… 日経RoboticsではこのところNVIDIAネタが続いてしまっておりますが、インパクトのある成果ばかり出てくるので致し方ありません。Cosmos PolicyやDreameZeroのようなVAM以外にも、EgoScale、DreamDojo、SONICなど注目すべき新技術が立て続けにNVIDIAから出てきています。フィジカルAIというキーワードは以前から同社がずっとうったえかけていたものではありますが、最近はロボットAIの先端研究で本当に覚醒したかのようなモードに入ってきているように思えます。
Tomonori SHINDOH / 進藤 智則 tweet media
日本語
1
25
220
14.9K
松葉 亮人 | カミナシ
@tshindoh この記事めちゃくちゃ面白かったです…!! それぞれの訓練形態を定式化して比較、分かりやすいです。 ありがとうございます。
日本語
1
0
1
57
Tomonori SHINDOH / 進藤 智則
NVIDIAの新しいフィジカルAI「Cosmos Policy」について日経Robotics 3月号で書きました。ロボット用のフィジカルAIとしてはこれまでLLMベースのVLA(vision-language-action)モデルが主流でしたが、動画モデルベースのVAM(Video-Action model)もここにきてかなり性能が上がってきました。少なくともPhysical IntelligenceのオープンVLA「π0.5」と対等くらいのところまでは来ました。 xtech.nikkei.com/atcl/nxt/mag/r… Cosmos Policyは元の動画モデル「Cosmos Predict2」のアーキテクチャを一切変更することなく、finetuningのみでロボット行動(action)を出力できるようにしたのが特徴です。ベースになっているCosmos PredictはNVIDIAが1万個のH100 GPUを3カ月間回して構築したモデルですので、元の世界モデルのダイナミクスに関する知見がロボット行動生成でも非常に生きています。つまり、ロボットのテレオペ(遠隔操作)データは少量で済み、効率が高いアプローチになっています。 フィジカルAIでNVIDIAのCosmos Policy先駆的成果、動画行動モデルVAMの性能がVLAに肉薄 世界モデルでロボット行動生成 日経Robotics 3月号 巻頭記事
Tomonori SHINDOH / 進藤 智則 tweet media
日本語
1
32
221
13.9K
Tomonori SHINDOH / 進藤 智則 retweetledi
Akifumi Wachi
Akifumi Wachi@akifumi_wachi·
我々の強化学習に関する研究成果(NeurIPS 2025 採択)を日経ロボティクスに Sexy Technology として取り上げていただきました 🥸 LINEヤフーが新たな強化学習技術、学習から運用まで全段階で安全を保証 xtech.nikkei.com/atcl/nxt/mag/r…
日本語
0
8
59
4K
Tomonori SHINDOH / 進藤 智則
グーグル出身のロボットAI研究者で1X TechnologiesのAI開発を率いていたErig Jang氏が退職されるとのこと。驚きです。
Eric Jang@ericjang11

Life update: I've decided to leave 1X. It's been an honor helping grow the company. I joined Halodi Robotics in 2022 (prior name of the company) as the only California-based employee. At the time, we were about 40 based out of Norway and 2 in Texas. My first hire and I worked from my garage for a few months to save money. Today, 1X is hundreds of people, with hardware, design, software, AI, manufacturing, product all relocated to the SF Bay area, firing on all cylinders and working on getting NEO ready for the home. A big thank you to all my colleagues that I worked with. It was a hard decision to leave. When working at an exciting startup that is growing fast, there's always so much to do and never a perfect time time to move on. We have several works in the pipeline that are so exciting because they greatly advance general autonomy and scalability of our deployment approach and really show a realistic path towards the product working. The recent World Model autonomy update is one example, and there's more coming. The 1X factory is so exciting. Things are accelerating at a speed I would have been surprised by a few years ago. In 2022, most technologists and researchers and VCs were skeptical about humanoids and large scale imitation learning. "Why Legs?" "How could end-to-end learning ever be good enough?" "Why go for the home and not the factory?" "How will we ever gather enough data?" The Overton window on general-purpose robotics has shifted a lot since then. Although we are still early in our mission, I remain confident that soon, house robots will be as commonplace as air conditioners, cars, and ChatGPT. Just talk to the bot, and it will go and quietly get it done. Entire economies will eventually re-organize around this technology. People get it now. What's next? I believe that progress in applied deep learning generally rides on "harnessing the magic" of a few magical objects. These magical objects possess way more generalization power than one might normally expect. Just asking the LLM to understand what you want is magic. Video generation models are magic. Reasoning is magic. You don't run into a magic object every day, but when you do, you make sure to grab it and put it to work to make something useful in the robot somehow. A lot of my early conviction for where robotics was headed was working on BC-Z from 2018-2021. The "magical object" I bet on at the time was the surprising data-absorption capabilities of supervised learning and "just ask for generalization". This pioneered a lot of the standard ingredients we see in VLAs today: - Generalization to unseen language commands - Human-Guided DAgger for policy improvement - Open-loop auxiliary predictions + receding horizon control, AKA action chunking - Manipulation keypoints to improve servoing - Simple ResNet18 with FiLM conditioning on multi-modal inputs The next "magical object" we bet on at 1X was video models, because they are clearly magical objects that learn a data distribution not too dissimilar from what a robot needs to learn. They generalize surprisingly well. I am once again feeling that there are more magical objects in play now, which opens up a lot of new possibilities for robotics and beyond. I'm taking a few months to empty my cup of priors and gain fresh perspective. When I left Google in 2022, I spent about 2 weeks deciding what to do next. This time, I want to take a lot more time to catch up what has happened in the broader AI + robotics space. I've been re-implementing some deep learning papers. I'm working on a big tutorial for my blog. I'm learning all the Claude power user tricks. I'm reading the Thinking Machines blog posts to understand what kinds of experiments are being run at frontier labs. I'm reading Ben Katz's 2016 thesis on the Mini-cheetah actuator. I'm traveling to China in March to meet incredible companies in the Chinese robotics ecosystem. Now, more than ever, is the time for both humans and machines to learn. The next token of my life sequence will be an important one. To colleagues and investors that bet on 1X early, even before we became a household name - I thank you from the bottom of my heart. I won't forget it♥️

日本語
0
0
5
664
Tomonori SHINDOH / 進藤 智則 retweetledi
Yuma Ichikawa
Yuma Ichikawa@yuma_1_or·
日経Roboticsに掲載していただきました 最新技術 LPCD も紹介されています 記事通り数ヶ月後には『最強』の圧縮ソフトをリリース予定🔥 世界最強の圧縮技術でエッジAIをもっと速く, もっと身近なものに… 富士通がLLMの量子化ソフトを公開へ、1ビット化しても性能を9割保持 xtech.nikkei.com/atcl/nxt/mag/r…
日本語
1
8
18
4.7K
Tomonori SHINDOH / 進藤 智則
NVIDIAのJim Fan氏による至極真っ当な意見表明。特に2と3には私も強く同意します。一般メディアでは「Physical AIの進展が急速だ」という報道であふれていますが、ロボットAIやヒューマノイドの実用化については基礎研究レベルでまだまだ課題が山積しているように見えます。
Jim Fan@DrJimFan

Everyone's freaking out about vibe coding. In the holiday spirit, allow me to share my anxiety on the wild west of robotics. 3 lessons I learned in 2025. 1. Hardware is ahead of software, but hardware reliability severely limits software iteration speed. We've seen exquisite engineering arts like Optimus, e-Atlas, Figure, Neo, G1, etc. Our best AI has not squeezed all the juice out of these frontier hardware. The body is more capable than what the brain can command. Yet babysitting these robots demands an entire operation team. Unlike humans, robots don't heal from bruises. Overheating, broken motors, bizarre firmware issues haunt us daily. Mistakes are irreversible and unforgiving. My patience was the only thing that scaled. 2. Benchmarking is still an epic disaster in robotics. LLM normies thought MMLU & SWE-Bench are common sense. Hold your 🍺 for robotics. No one agrees on anything: hardware platform, task definition, scoring rubrics, simulator, or real world setups. Everyone is SOTA, by definition, on the benchmark they define on the fly for each news announcement. Everyone cherry-picks the nicest looking demo out of 100 retries. We gotta do better as a field in 2026 and stop treating reproducibility and scientific discipline as second-class citizens. 3. VLM-based VLA feels wrong. VLA stands for "vision-language-action" model and has been the dominant approach for robot brains. Recipe is simple: take a pretrained VLM checkpoint and graft an action module on top. But if you think about it, VLMs are hyper-optimized to hill-climb benchmarks like visual question answering. This implies two problems: (1) most parameters in VLMs are for language & knowledge, not for physics; (2) visual encoders are actively tuned to *discard* low-level details, because Q&A only requires high-level understanding. But minute details matter a lot for dexterity. There's no reason for VLA's performance to scale as VLM parameters scale. Pretraining is misaligned. Video world model seems to be a much better pretraining objective for robot policy. I'm betting big on it.

日本語
0
0
4
237
Tomonori SHINDOH / 進藤 智則
NVIDIAのDoorman、1/9発売の日経Robotics 2月号にて記事を書きました。 ヒューマノイドでのドア開けがSim2Realで成功、RGB入力でも全身動作の強化学習可能に xtech.nikkei.com/atcl/nxt/mag/r…
村山龍太郎 | Muso Action 株式会社 CEO@03nova

🤖 ヒューマノイドが「視覚情報のみ」でドアを開ける!NVIDIAの最新成果 Doorman NVIDIA、CMUらによる共同研究「DoorMan」が、ヒューマノイドのロコ・マニピュレーション(歩行+操作)における成果 【ここが凄い!】 • 純粋なRGB画像のみ: 外部センサーに頼らず、ロボット搭載のカメラ画像だけで多様なドアを識別し、開けて通り抜ける • 人間超えのスピード: タスク完了時間は、人間の遠隔操作よりも最大で31.7%(約7.15秒)高速 • 完全シミュレーション学習: 人間のお手本データは一切使わず、100%シミュレータ(Isaac Lab)内での強化学習のみで実機(Unitree G1)への展開に成功 【3段階の学習フェーズ】 1. Teacher学習: シミュレータ上の特権情報(ドアの正確な位置等)を使い、PPOで効率的に学習 2. 蒸留(Distillation): Teacherの動きを、視覚情報しか使えないStudent(実機モデル)へ伝授 3. GRPOによる微調整: 最後にGRPOを用いて、視覚入力特有の曖昧さを克服し、成功率を20〜30%向上 【Stage-reset探索】 ドア開けのような長い工程(近づく→触る→回す→通る)を効率化するため、シミュレータ内で途中のステージから強制的にリセットして開始する機能を導入。これにより、難易度の高い「ハンドルを回す」等の経験値を稼ぐことが可能に 【シミュレーションの力】 Isaac Labの超高画質レンダリング(RTX)により、5,000種以上の照明条件や多様なテクスチャ、モーションブラーまでも再現。この圧倒的なデータ量と質の高い試行錯誤が、実世界での高い汎用性を生み出しているとのこと 【コメント】 まだコンタクトリッチ(接触の多いタスク)への展開は難しいようだが、ドアを開けるといった比較的単純なタスクであれば、ロコマニピュレーションがSimulationで解けるようになってきたのは非常に面白い #NVIDIA #AI #Robotics #Humanoid #Sim2Real #MachineLearning

日本語
0
0
1
222
Tomonori SHINDOH / 進藤 智則
Sim2Realというとこれまでlocomotionでの成果が中心でしたが、ドア開けくらいのマニピュレーション、いわゆるloco-manipulationと呼ばれる領域でも、Sim2Realが可能になってきました。 1/9発売の日経Robotics 最新号で記事を書きました。 ヒューマノイドでのドア開けがSim2Realで成功、RGB入力でも全身動作の強化学習可能に xtech.nikkei.com/atcl/nxt/mag/r…
日本語
0
0
2
109
Tomonori SHINDOH / 進藤 智則
例年、年初に「編集長が展望する20XX年」というコラムを執筆せよと言われておりまして、本年も書いてみました。日経Roboticsの本誌記事と異なり、媒体を宣伝するための記事なもので技術的に細かなことは書いておりませんが、無料で読めますので(会員登録は必要)、ご高覧いただければ幸いです。 ロボットの頭脳、フィジカルAIは「模倣学習+強化学習」へ xtech.nikkei.com/atcl/nxt/colum…
日本語
0
1
4
153
Tomonori SHINDOH / 進藤 智則 retweetledi
Yuya Unno
Yuya Unno@unnonouno·
日経RoboticsにMiseboを掲載いただきました。売価チェック、欠品チェック、棚チェック、商品地図更新などに利用されていますが、防犯や販促なども視野に入れています  xtech.nikkei.com/atcl/nxt/mag/r…
日本語
2
16
48
16.5K
Tomonori SHINDOH / 進藤 智則 retweetledi
Tatsuya Matsushima @Tokyo Bay Area 🍣
AIRoAでは「国産汎用ロボット開発コンペティション」の参加企業を広く一般に募集します(予告) 「あ、日本からも汎用ロボット調達できるのね」という世界を一緒に作るのを目指しています、よろしくお願いします
Tetsuya Ogata / 尾形哲也@tetsuyaogata1

AIロボット協会(AIRoA)にて以下のコンペティションを行います。是非ご検討ください。 airoa.org/ja/updates/202…

日本語
0
16
81
13.7K
Tomonori SHINDOH / 進藤 智則
Physical AIでは今後「模倣学習+強化学習の時代が到来する」と日経Robotics最新号12月号のAmazonの記事で書いたのですが、Physical AIで世界トップ企業の米Physical Intelligenceが、ついに強化学習を取り入れた成果「Pi0.6*」を発表しました。成功率がかなり良いところまで来ています。彼らは"practically useful level"とまで言い切っているのが象徴的。右肩の*(star)はPi0.6に対して強化学習を施したことを意味しています。しかし、これでもまだ彼らとしては0.6というフェーズ。Pi1.0*になったら、どこまで進歩するか、今から楽しみです。
Physical Intelligence@physical_int

Our model can now learn from its own experience with RL! Our new π*0.6 model can more than double throughput over a base model trained without RL, and can perform real-world tasks: making espresso drinks, folding diverse laundry, and assembling boxes. More in the thread below.

日本語
1
3
7
729
Tomonori SHINDOH / 進藤 智則 retweetledi
Alex Kendall
Alex Kendall@alexgkendall·
I was impressed when my team showed me this example of intelligence and behavioural generalisation. Watch this — seeing a person bow to welcome our car to move forward is definitely not something I've seen outside of Japan. Yet in this clip you can see our AI Driver recognise that this person is asking us to stop. We have the intelligence to understand the context that we shouldn't nudge around them, rather hold in place, despite no signage or red light. Then, if you keep watching, you'll see we recognise the bow and a wave as permission to drive through the road works. Less than 1% of our training data is from Japan. Our AI is trained end-to-end. There are no explicit rules or labelling, no explicit gesture or body pose recognition, this is all learned capability that is scalable and data-driven. This is how @wayve_ai will scale autonomous driving to the world and address the long-tail of edge cases.
English
13
69
377
67.9K
Tomonori SHINDOH / 進藤 智則
ロボットAIの世界的権威Pieter Abbeel氏が自ら創業したロボットスタートアップCovariantを辞しAmazonに移籍したのは2024年のこと。しばらくアウトプットは音沙汰なしの状態が続いていましたが、ここにきてそのAmazon FARの研究成果が次々と明らかになってきました。 中国勢にならうようにヒューマノイドが派手な動きをするものも含まれていますが、要注目はこの技術だと考えております。ロボット基盤モデルはここ数年、ずっと模倣学習の枠組みに依存してきましたが、そろそろその潮目が変わるかもしれません。言語の領域のLLMと同様、今後、ロボット向けのPhysical AIやVLAでも事後学習が重要になってくると思います。 日経Robotics 12月号でこのAmazon FARの「模倣学習+強化学習」技術について書きました。 Amazonが強化学習によるロボAI事後学習手法 もう模倣学習だけに頼らない、5指で成功率ブースト xtech.nikkei.com/atcl/nxt/mag/r…
日本語
0
0
4
173