Go Kamoda

223 posts

Go Kamoda banner
Go Kamoda

Go Kamoda

@go2oo2

SOKENDAI NINJAL D1

Beigetreten Ekim 2021
263 Folgt274 Follower
Angehefteter Tweet
Go Kamoda
Go Kamoda@go2oo2·
口頭発表情報も追加されました! 関わった3つの論文,全て口頭発表があります
Go Kamoda tweet media
日本語
1
0
5
435
Go Kamoda
Go Kamoda@go2oo2·
🎉 ① 優秀賞 ② 若手奨励賞 to @raito_kiya ③ 若手奨励賞 to @satoki1049 + FT-LLMコンペティション オープン部門1位、総合2位 to Team dentaku
日本語
0
3
15
483
Go Kamoda
Go Kamoda@go2oo2·
口頭発表情報も追加されました! 関わった3つの論文,全て口頭発表があります
Go Kamoda tweet media
日本語
1
0
5
435
Go Kamoda
Go Kamoda@go2oo2·
#NLP2026 では関わった3件の発表があります 宇都宮で会いましょう! ① SoftMatcha 2:柔らかいコーパス検索を1兆語規模へ拡張し、挿入・削除にも対応 (softmatcha.github.io/v2/) ② Attention Sink には位置よりも自身への注意集中が効いている可能性 ③ Attention sink からのValueベクトルは静的
Go Kamoda tweet media
日本語
1
8
33
6.6K
Go Kamoda retweetet
Raito Kiya
Raito Kiya@raito_kiya·
光栄なことに、#NLP2026 で若手奨励賞を受賞しました! ​今後も、不思議な現象「Attention Sink」の発生機序に迫る面白い研究を目指します! また、この場をお借りして、​ご指導くださった共著の皆様本当にありがとうございました!
Raito Kiya tweet media
Raito Kiya@raito_kiya

#NLP2026 にて,共著を含む計3件の発表を行います! 特に口頭発表は,選出率 4% (32/799) という貴重な機会をいただきました! - 3/11(水) 11:15〜:ポスター発表 - 3/11(水) 09:30〜:共著論文(口頭発表) - 3/12(木) 09:30〜:口頭発表 🎤 ぜひ足をお運びいただけると嬉しいです!

日本語
0
7
41
2.1K
Go Kamoda retweetet
Satoki Ohashi
Satoki Ohashi@satoki1049·
#NLP2026 にて、若手奨励賞を受賞することができました! 発表を見にきてくださった方、サポートしていただいた共著陣の方、ありがとうございました。
Satoki Ohashi tweet mediaSatoki Ohashi tweet media
Satoki Ohashi@satoki1049

#NLP2026 にて,共著を含む計4件の発表があります! ぜひ会場にお越しください! ①Attention Sinkのバイアス項的解釈 - 3/11(水) 09:30〜:口頭🎤 - 3/11(水) 11:15〜:ポスター🖼 ②Attention Sinkの発生機序 - 3/11(水) 11:15〜:ポスター🖼 - 3/12(木) 09:30〜:口頭🎤

日本語
2
5
44
2.4K
Go Kamoda retweetet
E869120
E869120@e869120·
言語処理学会 #NLP2026 で主著論文の SoftMatcha 2 が優秀賞 (797 件中上位 16 件) を獲得しました! AI や自然言語処理に関する研究は初めてでしたが、高く評価していただき、誠にありがとうございました。
E869120 tweet media
日本語
1
17
247
14.7K
Go Kamoda retweetet
YANS
YANS@yans_official·
📢速報📢 第21回言語処理若手シンポジウム #YANS2026 について #YANS懇 で発表がありました! 会場:仙台国際センター(宮城県) 日時:2026年8月16日(日)〜18日(火) 詳細は本アカウントや yans.anlp.jp で随時発信予定です.みなさんお楽しみに🌱
日本語
0
29
51
15.2K
Go Kamoda retweetet
Raito Kiya
Raito Kiya@raito_kiya·
#NLP2026 にて,共著を含む計3件の発表を行います! 特に口頭発表は,選出率 4% (32/799) という貴重な機会をいただきました! - 3/11(水) 11:15〜:ポスター発表 - 3/11(水) 09:30〜:共著論文(口頭発表) - 3/12(木) 09:30〜:口頭発表 🎤 ぜひ足をお運びいただけると嬉しいです!
Raito Kiya tweet media
NLP2026 UTSUNOMIYA@anlpmeeting

#NLP2026 では,希望のあったうち特に優れたものを選考し,2月13日(金)頃にシングルセッションの口頭発表に招待する予定です.口頭発表シングルセッションはポスター発表4セッションと並列して実施します.詳細なプログラムは3月2日(月)にこちらに掲載予定です. anlp.jp/proceedings/an…

日本語
1
7
19
4.2K
Go Kamoda retweetet
Satoki Ohashi
Satoki Ohashi@satoki1049·
#NLP2026 にて,共著を含む計4件の発表があります! ぜひ会場にお越しください! ①Attention Sinkのバイアス項的解釈 - 3/11(水) 09:30〜:口頭🎤 - 3/11(水) 11:15〜:ポスター🖼 ②Attention Sinkの発生機序 - 3/11(水) 11:15〜:ポスター🖼 - 3/12(木) 09:30〜:口頭🎤
Satoki Ohashi tweet media
日本語
0
7
27
3.8K
Go Kamoda
Go Kamoda@go2oo2·
口頭発表情報公開につき,updateしました
日本語
0
0
0
53
Go Kamoda
Go Kamoda@go2oo2·
言語処理学会4年目で今更ですが この類の画像を作るのにかかる時間がもったいない気がしてきてスクリプト作成しました よかったらどうぞ。 gokamoda.github.io/notes/nlp_prog…
Go Kamoda@go2oo2

#NLP2026 では関わった3件の発表があります 宇都宮で会いましょう! ① SoftMatcha 2:柔らかいコーパス検索を1兆語規模へ拡張し、挿入・削除にも対応 (softmatcha.github.io/v2/) ② Attention Sink には位置よりも自身への注意集中が効いている可能性 ③ Attention sink からのValueベクトルは静的

日本語
1
0
30
3.9K
Go Kamoda retweetet
Sakana AI
Sakana AI@SakanaAILabs·
Introducing SoftMatcha 2: A Fast and Soft Pattern Matcher for Trillion-Scale Pre-Training Corpora softmatcha.github.io/v2/ What lies within a trillion-scale pre-training corpus? Can you truly guarantee your benchmarks are uncontaminated simply because there are no exact string matches? Alongside several research institutions in Japan, Sakana AI is proud to have collaborated in the development of SoftMatcha 2, an ultra-fast and flexible search tool that enables search over trillion-scale natural language corpora in under 0.3 seconds, even while handling semantic variations (substitution, insertion, and deletion). No existing tool meets all these criteria, including infini-gram-mini (EMNLP’25 Best Paper) or the original SoftMatcha (ICLR’25). Our approach employs string matching based on suffix arrays that scales well with corpus size. To mitigate the combinatorial explosion induced by the semantic relaxation of queries, our method is built on two key algorithmic ideas: fast exact lookup enabled by a disk-aware design, and dynamic corpus-aware pruning. As a practical application, we demonstrate that SoftMatcha 2 identifies potential benchmark contamination in pre-training corpora that existing exact-match approaches miss. You can try searching through a 100B-scale corpus via our online demo. The system remains blazingly fast even on trillion-token corpora, so we encourage you to host it yourself for larger scales. Demo: …-website-ap-northeast-1.amazonaws.com Paper: arxiv.org/abs/2602.10908 Code: github.com/softmatcha/sof… This work is a collaboration with researchers from the University of Tokyo, NII, Kyoto University, SOKENDAI, NINJAL, Tohoku University, and RIKEN.
English
16
85
465
88.2K
Go Kamoda retweetet
Takuya Akiba
Takuya Akiba@iwiwi·
巨大なLLM事前学習データを爆速で検索出来る「SoftMatcha 2」の開発に参加させてもらいました。デモ、論文、ソースコード等をこの度公開しましたので是非お試し下さい! softmatcha.github.io/v2/ 意味的類似性に基づいた置換や挿入削除に対応しながら1兆トークン規模のデータを0.1秒代で検索すると いうなかなか狂った性能になってます。EMNLP'25 Best Paperのinfini-gram-miniを含む既存のツール全てを大きく凌駕する性能だと思います。用途に特化したデータレイアウトを持つdisk-aware suffix arrayを使いながら、本来指数的になる置換・挿入・削除の候補を実データに基づきうまく枝刈りすることで高速な検索を達成してます。 この規模の事前学習データを検索出来ることの利点の事例として、論文ではベンチマークの汚染の検証をやってみてます。infini-gram-miniのような厳密な検索のみでは発見出来ないような汚染の事例なども有りそうでした。 現在デモでは数百Bトークン規模のデータからの検索を試せるようになってます。コードも公開してますのでご自身でホストしてもらうとより大規模なケースもお試し頂けます。 🌐 Demo: …-website-ap-northeast-1.amazonaws.com 📄 Paper: arxiv.org/abs/2602.10908 💻 Code: github.com/softmatcha/sof… 若き才能 @e869120 を始めとするSoftMatchaチームの方々との協働はとても刺激的で多くの学びがありました。楽しかった〜!ありがとうございました! @shiatsumat @go2oo2 @ksuenaga @MasWag @sho_yokoi
sho_yokoi@sho_yokoi

1兆語規模のコーパスから0.1秒単位で用例検索できるツールができてしまいました。意味的な置換・挿入・削除にも対応。 世界の Takuya Akiba と ICPC 史上初世界2位に輝いた E869120 のガチプロ2名にジョインいただき、動くわけがないと思っていたサイズでなぜか動いてます。遊んでみてください。

日本語
4
256
1.2K
247.9K
Go Kamoda retweetet
E869120
E869120@e869120·
速報です。詳細は 21:10 頃に投稿します。
E869120 tweet media
日本語
0
6
83
6.7K
Go Kamoda retweetet
sho_yokoi
sho_yokoi@sho_yokoi·
1兆語規模のコーパスから0.1秒単位で用例検索できるツールができてしまいました。意味的な置換・挿入・削除にも対応。 世界の Takuya Akiba と ICPC 史上初世界2位に輝いた E869120 のガチプロ2名にジョインいただき、動くわけがないと思っていたサイズでなぜか動いてます。遊んでみてください。
sho_yokoi tweet mediasho_yokoi tweet mediasho_yokoi tweet mediasho_yokoi tweet media
日本語
1
446
2.1K
432.9K
Go Kamoda retweetet
Mutsumi Sasaki
Mutsumi Sasaki@mutsumi_sasaki·
"Can Language Models Handle a Non-Gregorian Calendar?"が #AACL2025 のmainに採択されました🎉 w/@go2oo2 @r_takahashi_h12 @keiskS @inuikentaro @benbenhh (@tohoku_nlp) LMの時間推論研究のグレゴリオ暦偏重を指摘し、日本人1億超が扱う和暦を題材にLMが非グレゴリオ暦を扱う能力を調べました。
Mutsumi Sasaki tweet media
日本語
1
5
44
5K
Go Kamoda
Go Kamoda@go2oo2·
3月のNLPで発表した(共著)ものです 私個人も(は) 文字単位モデルの色々気になるなぁ でもUnicodeポイントをそのまま使うのは色々問題が起きるなぁ byteなら埋め込み行列が256で済むなぁ そういえばデジタルデータって、バイト列で表せるなぁ などの妄想をしながら議論/設計/構築してました
Keito Kudo@k8kudo

byte tokenizerを採用したBERT (4モデル) と,同じくbyte tokenizerを採用した実験的なMulti-LM-head日本語言語モデルを公開しました. byte tokenizerを使った 変な言語モデルに興味がある方がいらっしゃればぜひ触ってみてください! huggingface.co/collections/to… huggingface.co/collections/to…

日本語
0
1
11
1.9K