Daisuke OBA

8

47

5.9K

Daisuke OBA retweetledi

Taishi Nakamura@Setuna7777_2·20 Şub

Qwen3-Swallow と GPT-OSS-Swallow モデルを公開しました。 RL学習の担当をしました。強化学習の段階においても、日本語タスクの性能改善が見られています。

📢 GPT-OSS Swallow と Qwen3 Swallow をリリースしました。継続事前学習＋SFT＋強化学習を全面刷新し、日本語性能と推論能力を両立させたオープンなLLMを、 Apache 2.0ライセンスで利用できます。 Qwen3 Swallow: swallow-llm.github.io/qwen3-swallow.… GPT-OSS Swallow: swallow-llm.github.io/gptoss-swallow…

日本語

30

154

20.6K

Daisuke OBA retweetledi

Koshiro Saito@koshiro_sa110·20 Şub

We are thrilled to announce the release of GPT-OSS Swallow and Qwen3 Swallow 🎉 I was involved in evaluation, framework development, and mentoring as a student leader. Leaderboard: swallow-llm.github.io/leaderboard/ Swallow-Evaluation-Instruct: github.com/swallow-llm/sw…

📢 GPT-OSS Swallow と Qwen3 Swallow をリリースしました。継続事前学習＋SFT＋強化学習を全面刷新し、日本語性能と推論能力を両立させたオープンなLLMを、 Apache 2.0ライセンスで利用できます。 Qwen3 Swallow: swallow-llm.github.io/qwen3-swallow.… GPT-OSS Swallow: swallow-llm.github.io/gptoss-swallow…

English

8

20

7.1K

Daisuke OBA retweetledi

Naoaki Okazaki@chokkanorg·20 Şub

📢 GPT-OSS Swallow と Qwen3 Swallow をリリースしました。継続事前学習＋SFT＋強化学習を全面刷新し、日本語性能と推論能力を両立させたオープンなLLMを、 Apache 2.0ライセンスで利用できます。 Qwen3 Swallow: swallow-llm.github.io/qwen3-swallow.… GPT-OSS Swallow: swallow-llm.github.io/gptoss-swallow…

日本語

13

342

1.3K

234.5K

Daisuke OBA retweetledi

Prof. Danushka Bollegala@Bollegala·27 Oca

Two papers accepted to @ICLR 2026 🎉Congrats and kudos to my amazing collaborators. @dai0NLP @MasahiroKaneko_ @chokkanorg T.Yamamoto R. Kumon @verypluming One paper on How to make Diffusion Models efficient and the other on proving the existence of culture-specific neurones.

English

4

28

2.6K

Daisuke OBA retweetledi

Masahiro Kaneko@MasahiroKaneko_·26 Oca

I have two papers accepted at #ICLR2026 🥳 My first-author paper w/ @ayaniwa1213 @eltimster introduces a multilingual, multi-region fake-news benchmark for adversarial attacks 🌍 A paper I co-authored w/ @dai0NLP @Bollegala @chokkanorg is on an efficient diffusion model 🏎️

English

14

94

7.4K

Daisuke OBA retweetledi

Elon Musk@elonmusk·7 Kas

@StefanoErmon Tesla is using single step diffusion for world model generation x.com/i/grok/share/C…

English

100

111

1.3K

202.4K

Daisuke OBA retweetledi

Naoaki Okazaki@chokkanorg·7 Kas

SwallowCode, SwallowMathのv2を公開しました。このデータセットを中間学習に使用すると、他のデータセットで学習したのと同等かそれ以上の性能（コーディングや数学において）が出ています。ライセンスもApache 2.0になり、使いやすくなりました。詳細は藤井 (@okoge_kaz) さんのスレッドで。

Kazuki Fujii@okoge_kaz

We’re releasing SwallowCode-v2 & SwallowMath-v2 — two high-quality, Apache-2.0 licensed datasets for mid-stage pretraining. huggingface.co/datasets/tokyo… huggingface.co/datasets/tokyo… Details in the thread 🧵

日本語

Junpei Komiyama@jkomiyama_

19

109

16.5K

Daisuke OBA retweetledi

Kazuki Fujii@okoge_kaz·7 Kas

We’re releasing SwallowCode-v2 & SwallowMath-v2 — two high-quality, Apache-2.0 licensed datasets for mid-stage pretraining. huggingface.co/datasets/tokyo… huggingface.co/datasets/tokyo… Details in the thread 🧵

English

5

38

154

45.9K

Daisuke OBA retweetledi

AIDB@ai_database·26 Eyl

ある問題に対してLLMに何回も答えを作らせて最も多かった回答を使うとよい、という話は有名ですが、無限（∞）個の答えを作ると理論上極めて高い性能になることが明らかにされました。日本人研究グループによる報告。しかし、実行するには無限の計算量が必要になってしまいます。そこで、研究者らは、「バラバラな答えが出てくる場合には多めに回答」させ、「同じ答えが出がちな時には少なめにする」方法を開発。この柔軟な考え方によって、計算量の増加はほどほどに抑えつつも精度を高く引き上げることに成功したそうです。さらに、性能の低いモデルでも、得意分野が違えば強いモデルと組み合わせることで全体の性能が向上するという発見も得られたようです。どのモデル同士をどんな比率で混ぜるのかはとても難しい問題ですが、小規模な数であれば解が導き出せるとのこと。この「最も多く出た答えを採用する」というシンプルなアイデアは、他の複雑な手法より優れる場合も多いようで、現実的に検討すべきアプローチかもしれません。

日本語

9

190

1.1K

140.9K

Daisuke OBA@dai0NLP·26 Eyl

【共著/preprint】 Best-of-NをN→∞で解析／有限予算でも同等性能へ近づく適応生成／複数LLMを整数計画で重み付け→単体超え。AIME2025は73→93%。 N→∞のロマンが詰まってます。主著 MBZUAI小宮山さん @jkomiyama_ のハードワークの賜物です。 Project page: jkomiyama.github.io/bestofinfty/

久しぶりに自分の論文を宣伝します。初のLLM論文です。「Best-of-∞: Asymptotic Performance of Test-Time Compute」では、LLM における多数決回答選択 (Best-of-N) を解答生成数N→∞の極限で考え、さらに有限計算予算下でも同等性能を目指す適応生成アルゴリズムを提案しています (1/3)

日本語

2

17

3.7K

Daisuke OBA retweetledi

Goro Kobayashi@goro_koba·11 Eyl

来週の #YANS2025 にスポンサーで参加します！若手の皆さんの研究発表を聞けるのがとても楽しみです！！参加される方は PFN のスポンサーブースにぜひお立ち寄りください！🙌 （あと急遽 (!?) 特別企画セッションに登壇させていただくことになりました）

YANS@yans_official

🌱特別企画セッション🌱 #YANS2025 では20回開催を記念して特別企画セッションを行います！テーマ「これからの自然言語処理研究・技術の進化」【登壇者（敬称略）】石渡祥之佑（Mantra）磯沼大（NII/東北大）小林悟郎（PFN）高瀬翔（サイバーエージェント）徳久良子（愛工大/理研）

日本語

5

19

4.7K

Daisuke OBA retweetledi

YANS@yans_official·11 Eyl

🌱特別企画セッション🌱 #YANS2025 では20回開催を記念して特別企画セッションを行います！テーマ「これからの自然言語処理研究・技術の進化」【登壇者（敬称略）】石渡祥之佑（Mantra）磯沼大（NII/東北大）小林悟郎（PFN）高瀬翔（サイバーエージェント）徳久良子（愛工大/理研）

日本語

7

31

11K

Daisuke OBA retweetledi

Hiroki Furuta@frt03_·28 Ağu

#YANS2025 の招待ポスターセッションで発表します

YANS@yans_official

#YANS2025 プログラム詳細公開📣 約250件の一般発表（ポスターセッション）に加え，招待ポスターセッションなど，様々な企画が目白押しです！自分の発表の紹介や，気になる発表・企画があればハッシュタグをつけてぜひ投稿してください🌱 yans.anlp.jp/entry/yans2025…

日本語

1

14

2.1K

Daisuke OBA retweetledi

Shun Kiyono@shunkiyono·14 Ağu

某先端NLPについて、プログラムをWebに公開しました

日本語

1

14

2K

Daisuke OBA@dai0NLP·9 Ağu

@shot4410 おめでとうございます！

日本語

0

970

Sho Takase@shot4410·8 Ağu

7月末でSB Intuitionsを退職し、8月よりサイバーエージェント AI Labで働いています。引き続き、大規模言語モデル周辺というか、自然言語処理・機械学習分野の研究に取り組む予定です。

日本語

2

29

287

47.5K

Daisuke OBA retweetledi

Youmi Ma@Youmima1015·25 Haz

Llama 3.1 Swallow 8B Instruct v0.5の指示チューニングに用いた対話データセットGemma-3-lmsys-chat-1m-synthを公開しました！今回は新メンバー @Luke02561 が中心となって作成してくれました🙌 ライセンスをよく読んだ上でご活用ください〜 huggingface.co/datasets/tokyo…

Llama 3.1 Swallow 8B v0.5を公開しました。Llama 3.3 Swallow 70BやGemma-2-Llama Swallowのレシピをさらに改良し、性能を向上させました。学習環境としてAWSのSageMaker HyperPod (H200) を利用しました。人気の8Bモデルの改良版を是非お試しください。 swallow-llm.github.io/llama3.1-swall…

日本語

10

27

6.3K

Daisuke OBA retweetledi

Kazuki Fujii@okoge_kaz·25 Haz

独自開発したデータセットSwallowCode, SwallowMathを採用し、数学とコード能力を強化しました。ブログも書いていますので、併せてどうぞ！ zenn.dev/tokyotech_lm/a… 本日のAWS Summitにて、こちらのモデルについてもお話しさせていただきます！

Llama 3.1 Swallow 8B v0.5を公開しました。Llama 3.3 Swallow 70BやGemma-2-Llama Swallowのレシピをさらに改良し、性能を向上させました。学習環境としてAWSのSageMaker HyperPod (H200) を利用しました。人気の8Bモデルの改良版を是非お試しください。 swallow-llm.github.io/llama3.1-swall…

日本語

17

62

11.8K

Daisuke OBA retweetledi

Naoaki Okazaki@chokkanorg·25 Haz

Llama 3.1 Swallow 8B v0.5を公開しました。Llama 3.3 Swallow 70BやGemma-2-Llama Swallowのレシピをさらに改良し、性能を向上させました。学習環境としてAWSのSageMaker HyperPod (H200) を利用しました。人気の8Bモデルの改良版を是非お試しください。 swallow-llm.github.io/llama3.1-swall…

日本語

2

39

96

30.5K

Daisuke OBA retweetledi

ELYZA, Inc.@ELYZA_inc·1 May

【お知らせ】日本語における論理的思考能力を強化したLLMである「ELYZA-Thinking-1.0-Qwen-32B」を開発し、商用利用可能な形で一般公開しました。この Reasoning Model の開発に用いた技術詳細もブログにて解説しています。ぜひご一読ください。 zenn.dev/elyza/articles…

日本語