Ryota Tanaka (@rtanaka_lab) - Twitter Profili | Zamantika Mersobahis Locabet

Sabitlenmiş Tweet

Ryota Tanaka@rtanaka_lab·15 Nis

Our #CVPR2025 work is out!🚀 𝘾𝙖𝙣 𝙬𝙚 𝙗𝙪𝙞𝙡𝙙 𝙍𝘼𝙂 𝙩𝙝𝙖𝙩 𝙪𝙣𝙙𝙚𝙧𝙨𝙩𝙖𝙣𝙙𝙨 𝙫𝙞𝙨𝙪𝙖𝙡𝙡𝙮-𝙧𝙞𝙘𝙝 𝙙𝙤𝙘𝙪𝙢𝙚𝙣𝙩𝙨 𝙡𝙞𝙠𝙚 𝙘𝙝𝙖𝙧𝙩𝙨/𝙩𝙖𝙗𝙡𝙚𝙨? Yes! VDocRAG understands them through visual features. 📰arxiv.org/abs/2504.09795 🌐vdocrag.github.io

GIF

English

2

16

44

20.8K

Ryota Tanaka@rtanaka_lab·12 Mar

#NLP2026 にて、優秀賞頂きました！関係者の皆さん、ありがとうございます！

Kyosuke Nishida@kyoun

#NLP2026 にて、NTT tsuzumiチームが優秀賞5件、若手奨励賞1件を受賞しました！これを励みに、今後も大規模言語モデル「tsuzumi」の開発と、革新的な研究の両面で、より一層挑戦を続けて参ります。採用も積極的に行っていますので、tsuzumi のR&Dに興味をお持ちいただけた方は、ぜひご連絡ください！ ntt-labs.jp/saiyo/ ■ 優秀賞（718件中16件）位置符号化の基底拡大戦略は外挿性能を制限する岡佑依 (NTT/東北大), 斉藤いつみ (東北大), 西田京介 (NTT) 周波数エントロピーによる位置埋込みの解明岡佑依 (NTT), 花房健太郎 (愛媛大), 長谷川拓, 西田京介 (NTT) CMDR: 文脈を考慮したマルチモーダル文書検索田中涼太, 長谷川拓, 西田京介 (NTT) Let's Put Ourselves in Sally's Shoes: 他人の靴プレフィリングは大規模言語モデルの心の理論を改善する篠田一聡, 北条伸克, 西田京介, 山﨑善啓, 鈴木啓太, 杉山弘晃, 齋藤邦子 (NTT) 大規模視覚言語モデル内部におけるダイアグラムの表現形成過程吉田遥音, 工藤慧音, 青木洋一 (東北大), 田中涼太 (NTT), 斉藤いつみ, 坂口慶祐, 乾健太郎 (東北大) ■ 若手奨励賞（517件中21件）ハルシネーションから学ぶ：内部表現への介入によるハルシネーション抑制門谷宙, 西田光甫, 西田京介 (NTT)

日本語

1

6

54

3.9K

Ryota Tanaka retweetledi

Kyosuke Nishida@kyoun·12 Mar

#NLP2026 にて、NTT tsuzumiチームが優秀賞5件、若手奨励賞1件を受賞しました！これを励みに、今後も大規模言語モデル「tsuzumi」の開発と、革新的な研究の両面で、より一層挑戦を続けて参ります。採用も積極的に行っていますので、tsuzumi のR&Dに興味をお持ちいただけた方は、ぜひご連絡ください！ ntt-labs.jp/saiyo/ ■ 優秀賞（718件中16件）位置符号化の基底拡大戦略は外挿性能を制限する岡佑依 (NTT/東北大), 斉藤いつみ (東北大), 西田京介 (NTT) 周波数エントロピーによる位置埋込みの解明岡佑依 (NTT), 花房健太郎 (愛媛大), 長谷川拓, 西田京介 (NTT) CMDR: 文脈を考慮したマルチモーダル文書検索田中涼太, 長谷川拓, 西田京介 (NTT) Let's Put Ourselves in Sally's Shoes: 他人の靴プレフィリングは大規模言語モデルの心の理論を改善する篠田一聡, 北条伸克, 西田京介, 山﨑善啓, 鈴木啓太, 杉山弘晃, 齋藤邦子 (NTT) 大規模視覚言語モデル内部におけるダイアグラムの表現形成過程吉田遥音, 工藤慧音, 青木洋一 (東北大), 田中涼太 (NTT), 斉藤いつみ, 坂口慶祐, 乾健太郎 (東北大) ■ 若手奨励賞（517件中21件）ハルシネーションから学ぶ：内部表現への介入によるハルシネーション抑制門谷宙, 西田光甫, 西田京介 (NTT)

日本語

0

19

123

15.1K

Ryota Tanaka retweetledi

Haruto Yoshida@yoshida_NLP·4 Mar

🚀 New paper on arXiv! arxiv.org/abs/2603.02865… 🤔 How do LVLMs internally form representations of nodes and edges? 💡 Node representations form early, whereas edge representations form late. Feedback is welcome! 1/N

English

2

8

42

5.3K

Ryota Tanaka retweetledi

Kyosuke Nishida@kyoun·20 Eki

そして、12/2からのNeurIPSにてNTTがスポンサーになりブースを出します。tsuzumi 2を含め様々なNTT研究所の技術が紹介されますので、現地ご参加の方、ぜひお立ち寄りください！ neurips.cc/Conferences/20… 私も現地参加予定です！どうぞ宜しくお願いします〜

日本語

0

4

15

4.1K

Ryota Tanaka retweetledi

Kyosuke Nishida@kyoun·20 Eki

本日、記者会見があり、NTTが研究開発しております「tsuzumi 2」が提供開始になりました🚀 ニュースリリース👉 group.ntt/jp/newsrelease… tsuzumi 2はパラメータ数28.6B・10Tトークン学習の、日本語の理解・生成・指示遂行に強みを持つモデルです。 2025年11月19日から開催される NTT R&D フォーラム rd.ntt/forum/2025/ での展示・講演をはじめ、今後のイベントにて tsuzumi 2 についてご紹介して参ります！ NTT研究所では、今後もLLMの研究開発をさらに推進してまいります。現在、経験者採用を積極的に行っておりますので、ご興味をお持ちの方はぜひご連絡ください。

NTT広報室@NTTPR

／更なる進化を遂げた #tsuzumi 2 の提供開始📢✨ ＼軽量でありながら高性能な日本語処理性能を持つ LLM「tsuzumi 2」の提供を本日開始しました💫 サイバーセキュリティ分野への応用、自律的に連携し議論する AI コンステレーション等の開発も進めます！ #NTTRD

日本語

4

153

618

155.6K

Ryota Tanaka retweetledi

Daiki Chijiwa@dchiji_en·11 Eki

📜Lossless Vocabulary Reduction for LLMs🤖 In this paper, we established a theoretical framework that can flexibly shrink the vocabulary of a given LLM to an arbitrary sub-vocabulary, efficiently in inference-time. 🔗arxiv.org/abs/2510.08102 See the video for a quick overview👇

English

0

10

22

18.5K

Ryota Tanaka retweetledi

NTT広報室@NTTPR·7 Ağu

8/17～21ににオランダのロッテルダムで開催される、音声言語処理における世界最大の国際学会 #Interspeech2025 に、NTTから18本の論文が採択されました🎉 #NTTRD #Celebration ▼詳細はこちら group.ntt/jp/topics/2025…

日本語

0

12

35

6.5K

Ryota Tanaka retweetledi

NTT広報室@NTTPR·14 Tem

7/13～19までバンクーバーで開催される国際会議 #ICML2025 において、NTT研究所より提出された9件の論文が採択されました🏅 ICMLは機械学習分野の基礎理論やアルゴリズムに関する世界最高峰とされる国際会議として、近年の人工知能の発展に大きく寄与しています #NTTRD group.ntt/jp/topics/2025…

日本語

0

31

110

12.2K

Ryota Tanaka@rtanaka_lab·26 Haz

@Ocha_Cocoa さすが！！おめでとう🎉

日本語

1

0

164

Yamame🐟@Ocha_Cocoa·26 Haz

Our paper on "multi-view pedestrian tracking" has been accepted at #ICCV2025! マルチビュー人物トラッキングに関する主著論文が #ICCV2025 に採択されました㊗️ 共著者の皆様に感謝します。

日本語

5

3

34

1.5K

Ryota Tanaka retweetledi

Shin'ya Yamaguchi@syamaguchi_en·15 Haz

This is also an awesome work by Ryota Tanaka @rtanaka_lab , enabling visually document processing by RAG with related textual images! Come NOW to #363 at #CVPR2025 poster session!

English

0

1

7

1.2K

Ryota Tanaka@rtanaka_lab·9 Haz

🎉🎉🎉

NTT広報室@NTTPR

6/11～15までアメリカナシュビルで開催されるコンピュータビジョン分野の最高峰国際会議 #CVPR2025 において、NTT研究所より提出された5件の論文が採択されました🎉 #NTTRD #Celebration ▼詳細はこちら group.ntt/jp/topics/2025…

ART

0

21

3.7K

Ryota Tanaka retweetledi

ヤギユキ@yagiyuki06·24 May

マルチモーダルLLMのRAG手法：VDocRAGの詳細解説｜tossyy zenn.dev/upgradetech/ar… #zenn

日本語

0

1

7

1.1K

Ryota Tanaka retweetledi

Taku Hasegawa@th_freiburg·6 May

🎉 Excited to announce our ICML 2025 paper “Portable Reward Tuning: Towards Reusable Fine‑Tuning across Different Pretrained Models,” co‑first‑authored with @dchiji_en 🤝(equal contribution)! #ICML2025 Preprint 👉 arxiv.org/abs/2502.12776

English

1

6

23

4.5K

Ryota Tanaka retweetledi

Rohan Paul@rohanpaul_ai·1 May

Standard RAG struggles with visually-rich documents, losing information by converting everything to text. This paper introduces VDocRAG, processing documents directly as images using Large Vision-Language Models (LVLMs) to preserve visual context for accurate retrieval and answering. VDocRAG substantially outperforms text-based RAG, like improving retrieval nDCG@5 by over 11 points on ChartQA (86.0 vs 72.5) and boosting QA accuracy. 📌 VDocRAG leverages raw image data, preserving visual structure crucial for understanding complex documents. 📌 Pre-training compresses visual features into dense embeddings, optimizing Large Vision-Language Models for retrieval tasks. 📌 Its unified image-based approach handles diverse document types without specialized text parsers. ---------- Methods Explored in this Paper 🔧: → VDocRAG employs LVLMs as a dual-encoder for retrieval (VDocRetriever) and a generator (VDocGenerator), using dynamic high-resolution image encoding. → Novel self-supervised pre-training tasks adapt LVLMs for retrieval by compressing visual information into a dense end-of-sequence token representation. → Representation Compression via Retrieval (RCR) uses contrastive learning, aligning image representations with their corresponding Optical Character Recognition (OCR) text. → Representation Compression via Generation (RCG) uses a custom attention mask, forcing the model to generate OCR text using only the compressed image representation from the end-of-sequence token. ---------------------------- Paper - arxiv. org/abs/2504.09795v1 Paper Title: "VDocRAG: RAG over Visually-Rich Documents"

English

0

4

24

2.7K

Ryota Tanaka@rtanaka_lab·15 Nis

#CVPR2025 に採択された図表が含まれる文書を読み解くVDocRAGに関する研究を公開しました！

Ryota Tanaka@rtanaka_lab

Our #CVPR2025 work is out!🚀 𝘾𝙖𝙣 𝙬𝙚 𝙗𝙪𝙞𝙡𝙙 𝙍𝘼𝙂 𝙩𝙝𝙖𝙩 𝙪𝙣𝙙𝙚𝙧𝙨𝙩𝙖𝙣𝙙𝙨 𝙫𝙞𝙨𝙪𝙖𝙡𝙡𝙮-𝙧𝙞𝙘𝙝 𝙙𝙤𝙘𝙪𝙢𝙚𝙣𝙩𝙨 𝙡𝙞𝙠𝙚 𝙘𝙝𝙖𝙧𝙩𝙨/𝙩𝙖𝙗𝙡𝙚𝙨? Yes! VDocRAG understands them through visual features. 📰arxiv.org/abs/2504.09795 🌐vdocrag.github.io

日本語

0

16

102

11.8K

Ryota Tanaka retweetledi

Sumit@_reachsumit·15 Nis

VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents @rtanaka_lab et al. introduce a RAG framework that directly understands diverse document formats through visual features. 📝arxiv.org/abs/2504.09795 👨🏽‍💻vdocrag.github.io

English

0

5

6

1.2K

Ryota Tanaka@rtanaka_lab·15 Nis

💪Key enhancements of VDocRAG (2/2) 🔥𝐍𝐞𝐰 𝐃𝐚𝐭𝐚𝐬𝐞𝐭: OpenDocVQA is the first unified collection of open-domain DocumentVQA datasets encompassing a wide range of document types and formats.

English

0

519

Ryota Tanaka@rtanaka_lab·15 Nis

💪Key enhancements of VDocRAG (1/2) 🔥𝐍𝐞𝐰 𝐏𝐫𝐞𝐭𝐫𝐚𝐢𝐧𝐢𝐧𝐠 𝐓𝐚𝐬𝐤𝐬: RCR and RCG compress the entire image representation into a dense token representation, by aligning the text in documents via retrieval and generation tasks.

English

1

0

3

649

Ryota Tanaka@rtanaka_lab·15 Nis

Our #CVPR2025 work is out!🚀 𝘾𝙖𝙣 𝙬𝙚 𝙗𝙪𝙞𝙡𝙙 𝙍𝘼𝙂 𝙩𝙝𝙖𝙩 𝙪𝙣𝙙𝙚𝙧𝙨𝙩𝙖𝙣𝙙𝙨 𝙫𝙞𝙨𝙪𝙖𝙡𝙡𝙮-𝙧𝙞𝙘𝙝 𝙙𝙤𝙘𝙪𝙢𝙚𝙣𝙩𝙨 𝙡𝙞𝙠𝙚 𝙘𝙝𝙖𝙧𝙩𝙨/𝙩𝙖𝙗𝙡𝙚𝙨? Yes! VDocRAG understands them through visual features. 📰arxiv.org/abs/2504.09795 🌐vdocrag.github.io

GIF

English

2

16

44

20.8K

Ryota Tanaka@rtanaka_lab·1 Nis

本日、NTT人間情報研究所　准特別研究員を拝命しました。NTTのマルチモーダル研究を更に加速していきます！また、3/25に東北大学にて、博士号(情報科学)と総長賞を頂きました。関係者の皆さん、ありがとうございました。引き続きよろしくお願いします！

日本語

0

12

160

11.9K

Ryota Tanaka

Keşfet