Ryota Tanaka

499 posts

Ryota Tanaka banner
Ryota Tanaka

Ryota Tanaka

@rtanaka_lab

NLP, Vision&Language @ NTT Human Informatics Laboratories

Katılım Mayıs 2018
570 Takip Edilen929 Takipçiler
Sabitlenmiş Tweet
Ryota Tanaka
Ryota Tanaka@rtanaka_lab·
Our #CVPR2025 work is out!🚀 𝘾𝙖𝙣 𝙬𝙚 𝙗𝙪𝙞𝙡𝙙 𝙍𝘼𝙂 𝙩𝙝𝙖𝙩 𝙪𝙣𝙙𝙚𝙧𝙨𝙩𝙖𝙣𝙙𝙨 𝙫𝙞𝙨𝙪𝙖𝙡𝙡𝙮-𝙧𝙞𝙘𝙝 𝙙𝙤𝙘𝙪𝙢𝙚𝙣𝙩𝙨 𝙡𝙞𝙠𝙚 𝙘𝙝𝙖𝙧𝙩𝙨/𝙩𝙖𝙗𝙡𝙚𝙨? Yes! VDocRAG understands them through visual features. 📰arxiv.org/abs/2504.09795 🌐vdocrag.github.io
GIF
English
2
16
44
20.8K
Ryota Tanaka
Ryota Tanaka@rtanaka_lab·
#NLP2026 にて、優秀賞頂きました! 関係者の皆さん、ありがとうございます!
Kyosuke Nishida@kyoun

#NLP2026 にて、NTT tsuzumiチームが優秀賞5件、若手奨励賞1件を受賞しました! これを励みに、今後も大規模言語モデル「tsuzumi」の開発と、革新的な研究の両面で、より一層挑戦を続けて参ります。採用も積極的に行っていますので、tsuzumi のR&Dに興味をお持ちいただけた方は、ぜひご連絡ください! ntt-labs.jp/saiyo/ ■ 優秀賞(718件中16件) 位置符号化の基底拡大戦略は外挿性能を制限する 岡 佑依 (NTT/東北大), 斉藤 いつみ (東北大), 西田 京介 (NTT) 周波数エントロピーによる位置埋込みの解明 岡 佑依 (NTT), 花房 健太郎 (愛媛大), 長谷川 拓, 西田 京介 (NTT) CMDR: 文脈を考慮したマルチモーダル文書検索 田中 涼太, 長谷川 拓, 西田 京介 (NTT) Let's Put Ourselves in Sally's Shoes: 他人の靴プレフィリングは大規模言語モデルの心の理論を改善する 篠田 一聡, 北条 伸克, 西田 京介, 山﨑 善啓, 鈴木 啓太, 杉山 弘晃, 齋藤 邦子 (NTT) 大規模視覚言語モデル内部におけるダイアグラムの表現形成過程 吉田 遥音, 工藤 慧音, 青木 洋一 (東北大), 田中 涼太 (NTT), 斉藤 いつみ, 坂口 慶祐, 乾 健太郎 (東北大) ■ 若手奨励賞(517件中21件) ハルシネーションから学ぶ:内部表現への介入によるハルシネーション抑制 門谷 宙, 西田 光甫, 西田 京介 (NTT)

日本語
1
6
54
3.9K
Ryota Tanaka retweetledi
Kyosuke Nishida
Kyosuke Nishida@kyoun·
#NLP2026 にて、NTT tsuzumiチームが優秀賞5件、若手奨励賞1件を受賞しました! これを励みに、今後も大規模言語モデル「tsuzumi」の開発と、革新的な研究の両面で、より一層挑戦を続けて参ります。採用も積極的に行っていますので、tsuzumi のR&Dに興味をお持ちいただけた方は、ぜひご連絡ください! ntt-labs.jp/saiyo/ ■ 優秀賞(718件中16件) 位置符号化の基底拡大戦略は外挿性能を制限する 岡 佑依 (NTT/東北大), 斉藤 いつみ (東北大), 西田 京介 (NTT) 周波数エントロピーによる位置埋込みの解明 岡 佑依 (NTT), 花房 健太郎 (愛媛大), 長谷川 拓, 西田 京介 (NTT) CMDR: 文脈を考慮したマルチモーダル文書検索 田中 涼太, 長谷川 拓, 西田 京介 (NTT) Let's Put Ourselves in Sally's Shoes: 他人の靴プレフィリングは大規模言語モデルの心の理論を改善する 篠田 一聡, 北条 伸克, 西田 京介, 山﨑 善啓, 鈴木 啓太, 杉山 弘晃, 齋藤 邦子 (NTT) 大規模視覚言語モデル内部におけるダイアグラムの表現形成過程 吉田 遥音, 工藤 慧音, 青木 洋一 (東北大), 田中 涼太 (NTT), 斉藤 いつみ, 坂口 慶祐, 乾 健太郎 (東北大) ■ 若手奨励賞(517件中21件) ハルシネーションから学ぶ:内部表現への介入によるハルシネーション抑制 門谷 宙, 西田 光甫, 西田 京介 (NTT)
日本語
0
19
123
15.1K
Ryota Tanaka retweetledi
Haruto Yoshida
Haruto Yoshida@yoshida_NLP·
🚀 New paper on arXiv! arxiv.org/abs/2603.02865… 🤔 How do LVLMs internally form representations of nodes and edges? 💡 Node representations form early, whereas edge representations form late. Feedback is welcome! 1/N
Haruto Yoshida tweet media
English
2
8
42
5.3K
Ryota Tanaka retweetledi
Kyosuke Nishida
Kyosuke Nishida@kyoun·
そして、12/2からのNeurIPSにてNTTがスポンサーになりブースを出します。tsuzumi 2を含め様々なNTT研究所の技術が紹介されますので、現地ご参加の方、ぜひお立ち寄りください! neurips.cc/Conferences/20… 私も現地参加予定です!どうぞ宜しくお願いします〜
日本語
0
4
15
4.1K
Ryota Tanaka retweetledi
Kyosuke Nishida
Kyosuke Nishida@kyoun·
本日、記者会見があり、NTTが研究開発しております「tsuzumi 2」が提供開始になりました🚀 ニュースリリース👉 group.ntt/jp/newsrelease… tsuzumi 2はパラメータ数28.6B・10Tトークン学習の、日本語の理解・生成・指示遂行に強みを持つモデルです。 2025年11月19日から開催される NTT R&D フォーラム rd.ntt/forum/2025/ での展示・講演をはじめ、今後のイベントにて tsuzumi 2 についてご紹介して参ります! NTT研究所では、今後もLLMの研究開発をさらに推進してまいります。現在、経験者採用を積極的に行っておりますので、ご興味をお持ちの方はぜひご連絡ください。
NTT広報室@NTTPR

/ 更なる進化を遂げた #tsuzumi 2 の提供開始📢✨ \ 軽量でありながら高性能な日本語処理性能を持つ LLM「tsuzumi 2」の提供を本日開始しました💫 サイバーセキュリティ分野への応用、自律的に連携し議論する AI コンステレーション等の開発も進めます! #NTTRD

日本語
4
153
618
155.6K
Ryota Tanaka retweetledi
Daiki Chijiwa
Daiki Chijiwa@dchiji_en·
📜Lossless Vocabulary Reduction for LLMs🤖 In this paper, we established a theoretical framework that can flexibly shrink the vocabulary of a given LLM to an arbitrary sub-vocabulary, efficiently in inference-time. 🔗arxiv.org/abs/2510.08102 See the video for a quick overview👇
English
0
10
22
18.5K
Ryota Tanaka retweetledi
NTT広報室
NTT広報室@NTTPR·
7/13~19までバンクーバーで開催される国際会議 #ICML2025 において、NTT研究所より提出された9件の論文が採択されました🏅 ICMLは機械学習分野の基礎理論やアルゴリズムに関する世界最高峰とされる国際会議として、近年の人工知能の発展に大きく寄与しています #NTTRD group.ntt/jp/topics/2025…
日本語
0
31
110
12.2K
Yamame🐟
Yamame🐟@Ocha_Cocoa·
Our paper on "multi-view pedestrian tracking" has been accepted at #ICCV2025! マルチビュー人物トラッキングに関する主著論文が #ICCV2025 に採択されました㊗️ 共著者の皆様に感謝します。
日本語
5
3
34
1.5K
Ryota Tanaka retweetledi
Shin'ya Yamaguchi
Shin'ya Yamaguchi@syamaguchi_en·
This is also an awesome work by Ryota Tanaka @rtanaka_lab , enabling visually document processing by RAG with related textual images! Come NOW to #363 at #CVPR2025 poster session!
Shin'ya Yamaguchi tweet mediaShin'ya Yamaguchi tweet media
English
0
1
7
1.2K
Ryota Tanaka retweetledi
Taku Hasegawa
Taku Hasegawa@th_freiburg·
🎉 Excited to announce our ICML 2025 paper “Portable Reward Tuning: Towards Reusable Fine‑Tuning across Different Pretrained Models,” co‑first‑authored with @dchiji_en 🤝(equal contribution)! #ICML2025 Preprint 👉 arxiv.org/abs/2502.12776
Taku Hasegawa tweet media
English
1
6
23
4.5K
Ryota Tanaka retweetledi
Rohan Paul
Rohan Paul@rohanpaul_ai·
Standard RAG struggles with visually-rich documents, losing information by converting everything to text. This paper introduces VDocRAG, processing documents directly as images using Large Vision-Language Models (LVLMs) to preserve visual context for accurate retrieval and answering. VDocRAG substantially outperforms text-based RAG, like improving retrieval nDCG@5 by over 11 points on ChartQA (86.0 vs 72.5) and boosting QA accuracy. 📌 VDocRAG leverages raw image data, preserving visual structure crucial for understanding complex documents. 📌 Pre-training compresses visual features into dense embeddings, optimizing Large Vision-Language Models for retrieval tasks. 📌 Its unified image-based approach handles diverse document types without specialized text parsers. ---------- Methods Explored in this Paper 🔧: → VDocRAG employs LVLMs as a dual-encoder for retrieval (VDocRetriever) and a generator (VDocGenerator), using dynamic high-resolution image encoding. → Novel self-supervised pre-training tasks adapt LVLMs for retrieval by compressing visual information into a dense end-of-sequence token representation. → Representation Compression via Retrieval (RCR) uses contrastive learning, aligning image representations with their corresponding Optical Character Recognition (OCR) text. → Representation Compression via Generation (RCG) uses a custom attention mask, forcing the model to generate OCR text using only the compressed image representation from the end-of-sequence token. ---------------------------- Paper - arxiv. org/abs/2504.09795v1 Paper Title: "VDocRAG: RAG over Visually-Rich Documents"
Rohan Paul tweet media
English
0
4
24
2.7K
Ryota Tanaka
Ryota Tanaka@rtanaka_lab·
#CVPR2025 に採択された図表が含まれる文書を読み解くVDocRAGに関する研究を公開しました!
Ryota Tanaka@rtanaka_lab

Our #CVPR2025 work is out!🚀 𝘾𝙖𝙣 𝙬𝙚 𝙗𝙪𝙞𝙡𝙙 𝙍𝘼𝙂 𝙩𝙝𝙖𝙩 𝙪𝙣𝙙𝙚𝙧𝙨𝙩𝙖𝙣𝙙𝙨 𝙫𝙞𝙨𝙪𝙖𝙡𝙡𝙮-𝙧𝙞𝙘𝙝 𝙙𝙤𝙘𝙪𝙢𝙚𝙣𝙩𝙨 𝙡𝙞𝙠𝙚 𝙘𝙝𝙖𝙧𝙩𝙨/𝙩𝙖𝙗𝙡𝙚𝙨? Yes! VDocRAG understands them through visual features. 📰arxiv.org/abs/2504.09795 🌐vdocrag.github.io

日本語
0
16
102
11.8K
Ryota Tanaka retweetledi
Sumit
Sumit@_reachsumit·
VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents @rtanaka_lab et al. introduce a RAG framework that directly understands diverse document formats through visual features. 📝arxiv.org/abs/2504.09795 👨🏽‍💻vdocrag.github.io
English
0
5
6
1.2K
Ryota Tanaka
Ryota Tanaka@rtanaka_lab·
💪Key enhancements of VDocRAG (2/2) 🔥𝐍𝐞𝐰 𝐃𝐚𝐭𝐚𝐬𝐞𝐭: OpenDocVQA is the first unified collection of open-domain DocumentVQA datasets encompassing a wide range of document types and formats.
Ryota Tanaka tweet media
English
0
0
0
519
Ryota Tanaka
Ryota Tanaka@rtanaka_lab·
💪Key enhancements of VDocRAG (1/2) 🔥𝐍𝐞𝐰 𝐏𝐫𝐞𝐭𝐫𝐚𝐢𝐧𝐢𝐧𝐠 𝐓𝐚𝐬𝐤𝐬: RCR and RCG compress the entire image representation into a dense token representation, by aligning the text in documents via retrieval and generation tasks.
Ryota Tanaka tweet media
English
1
0
3
649
Ryota Tanaka
Ryota Tanaka@rtanaka_lab·
Our #CVPR2025 work is out!🚀 𝘾𝙖𝙣 𝙬𝙚 𝙗𝙪𝙞𝙡𝙙 𝙍𝘼𝙂 𝙩𝙝𝙖𝙩 𝙪𝙣𝙙𝙚𝙧𝙨𝙩𝙖𝙣𝙙𝙨 𝙫𝙞𝙨𝙪𝙖𝙡𝙡𝙮-𝙧𝙞𝙘𝙝 𝙙𝙤𝙘𝙪𝙢𝙚𝙣𝙩𝙨 𝙡𝙞𝙠𝙚 𝙘𝙝𝙖𝙧𝙩𝙨/𝙩𝙖𝙗𝙡𝙚𝙨? Yes! VDocRAG understands them through visual features. 📰arxiv.org/abs/2504.09795 🌐vdocrag.github.io
GIF
English
2
16
44
20.8K
Ryota Tanaka
Ryota Tanaka@rtanaka_lab·
本日、NTT人間情報研究所 准特別研究員を拝命しました。NTTのマルチモーダル研究を更に加速していきます! また、3/25に東北大学にて、博士号(情報科学)と総長賞を頂きました。関係者の皆さん、ありがとうございました。引き続きよろしくお願いします!
日本語
0
12
160
11.9K