Masatoshi Suzuki रीट्वीट किया
Masatoshi Suzuki
193 posts

Masatoshi Suzuki
@fivehints
株式会社 Studio Ousia (@StudioOusia) ソフトウェアエンジニア/クイズ×自然言語処理/東北大 BERT の開発/「AI王」プロジェクト (@AioJaqket) 実行委員 (発起人)
Sendai, Japan शामिल हुए Mart 2021
155 फ़ॉलोइंग509 फ़ॉलोवर्स
Masatoshi Suzuki रीट्वीट किया
Masatoshi Suzuki रीट्वीट किया

『現代日本語書き言葉均衡コーパス』第2部(BCCWJ2)を公開しました。従来のBCCWJの拡張として、今回、2006~2010年刊行の書籍からサンプリングした約2300万語分を公開しました。
2028年度末までに2006~2025年のデータを追加し、2億語規模のコーパスとする計画です。
www2.ninjal.ac.jp/BCCWJ2/

日本語
Masatoshi Suzuki रीट्वीट किया

📢速報📢
第21回言語処理若手シンポジウム #YANS2026 について #YANS懇 で発表がありました!
会場:仙台国際センター(宮城県)
日時:2026年8月16日(日)〜18日(火)
詳細は本アカウントや yans.anlp.jp で随時発信予定です.みなさんお楽しみに🌱
日本語
Masatoshi Suzuki रीट्वीट किया

【コンピュータが言語を理解するしくみ】山田育矢さん 監修/著、鈴木正敏さん、山田康輔さん、李凌寒さん 著の『大規模言語モデル入門』が好評につき第8刷の増刷が決定!大規模言語モデルの理論と実装をバランスよく取り入れた解説書です。gihyo.jp/book/2023/978-…
日本語

Wikipedia の CirrusSearch ダンプファイルの置き場所が変わり、ダンプごとに複数の分割ファイルで提供されるようになった模様。ダンプ処理の高速化が図られているそうです。
dumps.wikimedia.org/other/cirrusse…
日本語

有明にて開催された #QK放送中 を観戦してきました!
物販コーナーで田村さんにご挨拶できてとても嬉しかったのですが、咄嗟すぎて「AI王の鈴木です」と名乗ってしまいました(私はAI王なのだろうか)

日本語
Masatoshi Suzuki रीट्वीट किया

The technical report of our winning system at the #NeurIPS2025 MMU-RAG competition is out!🚀
We built an open, reproducible deep research by combining Qwen3 with a fully open search API and trained it via LLM-as-a-judge–based preference tuning.
arXiv: arxiv.org/abs/2512.13059
English

#NeurIPS2025 のMMU-RAGコンペティションにて、我々のチームが優勝チームの一つになりました。やったね!
Ikuya Yamada@ikuyamada
Our team has been selected as a 🏆winner🏆 in the #NeurIPS2025 MMU-RAG competition (open-source category)! We built a reproducible, open deep research system based entirely on open models (Qwen3) and an open web corpus (ClueWeb22). Our technical report will be available soon!
日本語

Masatoshi Suzuki रीट्वीट किया

/
狂気の9時間半!🔥
\
クイズはいかに時代を映すのか。4年ぶりにクイズを語り尽くしたイベントのアーカイブが公開中。必見です!
伊沢拓司×田村正資×徳久倫康 クイズこそが時代を映す──AI、教養、QuizKnock @tax_i_ @kaiseitamura @tokuhisa_qk #ゲンロン251018
shirasu.io/t/genron/c/gen…
日本語


オライリー・ジャパンの書籍『実践 LLMアプリケーション開発』を、監訳者の金本さん (@kkatsuyoshi) よりご恵投いただきました。
LLMを活用する上で重要なトピックが体系的にまとめられており、より詳しく学ぶための参考資料へのリンクも充実しています。LLMの入門を卒業した方におすすめです。

日本語

データセットの作成に使用したコードも GitHub にて公開しています。Wikipedia 前処理オタク渾身のスクリプトです。なにかのお役に立てば幸いです... 🙏 (2/2)
github.com/singletongue/w…
日本語

Wikipedia を前処理した新しいデータセット wikipedia-paragraphs を公開しました。記事本文のクリーンなテキストに加えて、テキスト中の wikilink の位置とリンク先の情報や、対応する Wikidata QID などのお役立ち情報を付与しました。日本語+10言語に対応しています。(1/2)
huggingface.co/datasets/singl…
日本語

先日、東京・有明で開催された #QuizKnockフェス2025 に参加してきました。ステージ企画のクイズ対決に参戦しました。クイズ楽しい!
幸運にもガラポン抽選会で当選し、伊沢さん直筆の「熱」を獲得しました。


日本語



