セコン

17K posts

セコン

@hotchpotch

Yuichi Tateno / id:secondlife (セコン) / @hotchpotch, ソフトウェアエンジニア, 最近は情報検索周辺技術が好きなお年頃。XのDMは見ていないため、何かあればメールにてご連絡ください。

Katılım Ekim 2007

451 Takip Edilen4.6K Takipçiler

セコン@hotchpotch·4d

x.com/taku910/status… コメントありがとうございます。点予測では単語分割が一意に決まらず、全文検索向きではない、なるほどです👀

Taku Kudo@taku910

点予測の単語分割は全文検索には不向きです。特に辞書なしだと、文脈依存分割が避けられず検索漏れのリスクが増えます。拙書の形態素解析本に解説あります。 secon.dev/entry/2026/04/…

日本語

1.7K

セコン@hotchpotch·5d

SQLite, DuckDB といった組み込みDBで、軽量高速なトークナイザVaporettoを用いた日本語全文検索拡張を作ってみました。DuckDBの方ではブラウザ上でWasmでも利用でき、適切な利用シーンで使えば、結構便利な気がしています。 secon.dev/entry/2026/04/…

日本語

417

48.8K

セコン@hotchpotch·5 Şub

@y_k_c_t_ PDF2ZH_ARGS という環境変数で上書きできるので、PDFMathTranslate の1枚PDFかつ見開きオプションを指定すれば、多分うまくいくのかな、と思っております。

日本語

セコン@hotchpotch·5 Şub

@y_k_c_t_ github.com/PDFMathTransla… を裏側で使っていて、オプションは好きに変えられる（はず）なので、そちらを参照いただければと思います

日本語

173

セコン@hotchpotch·4 Şub

cliからテキストを翻訳・PDF見開き対訳もできる、beko-translate をリリースしました🚀。ローカル翻訳モデルとして、 CAT-Translate や PLaMo 翻訳モデルなどを利用可能です！論文読みの際、見開き対訳は便利なので、よかったらご利用ください〜。なおmac専用となっています github.com/hotchpotch/bek…

日本語

178

14.9K

セコン@hotchpotch·4 Şub

エーアイの登場で、一時期は論文をエーアイ要約に投げて解った気になっていたんですが、よく書かれた論文は要約から抜け落ちるような場所に、自分の知らなかったこと・本当に知りたいことが書かれていたりして、原典をちゃんと読む重要性を感じる今日この頃です

日本語

1.3K

セコン@hotchpotch·30 Oca

ちなみに huggingface.co/hotchpotch/jap… は huggingface.co/cl-nagoya/ruri… をRTX4090 で学習させた(学習時間は2時間)もので、データを用意できれば、ドメインに適切なモデルを作るのもそこまで難しくなく、また高価なハードウェア無く(ご家庭用GPUでも十分)できるのかな、と思っております。モデル作り楽し〜〜〜

日本語

1.5K

セコン@hotchpotch·30 Oca

弊作のrerankerの紹介ありがとうございます！transfomerモデル(とりわけ小さい重み)は学習データに引っ張られるため、合成データなどを用意して対象ドメインQAを学習させると、かなり精度を上げることができると思っております! #searchtechjp speakerdeck.com/sansan_randd/s…

日本語

2.7K

セコン@hotchpotch·19 Oca

複数GPUを使った学習をしたくなってきたので、RTX5090 x2 構成の機械学習PCを自作してみました。電源・スロット厚・排熱フローあたりを考える必要があったので、事例の一つとなればなぁ〜と記事にしてみました！ secon.dev/entry/2026/01/…

日本語

177

23.7K

セコン@hotchpotch·31 Eki

@po3rin ありがとうございます！ぜひお試しください〜〜！

日本語

148

pon / Hiromu Nakamura@po3rin·31 Eki

これ！昨日の検索技術勉強会で興奮したやつ！いろんなところに入れ込めそうだし、軽量なのがまた嬉しい。 #searchtechjp

セコン@hotchpotch

OpenProvence という、質問と関係がない文章を削除するモデルを作成、公開しました🚀！ざっくり30-90%ぐらいは削除できるかなーと思っていて、Agentic SearchなどでLLM・AIが検索叩きまくる後処理等々にご活用ください〜！ secon.dev/entry/2025/10/…

日本語

3.9K

セコン@hotchpotch·31 Eki

@tumf 速度は結構出るので、確かに grep 的なフィルターにも良さそうですよね！

日本語

tumf@tumf·31 Eki

@hotchpotch M3でこのスピードなら色々使えそうですね Grafanaのログフィルタに使ってみようかな

日本語

セコン@hotchpotch·31 Eki

日本語

196

18K

セコン@hotchpotch·31 Eki

なおOpenProvenceは、モデル作りその他諸々の実装を自分では1行もコードを書かない縛りで、全てコーディングエージェントを用いて開発してみました。自分が実装できる程度の機械学習モデルなら、AIが作れる世の中になること待ったなしですね。

日本語

1.1K

セコン@hotchpotch·31 Eki

@bclavie Oh wow, a model that's so tiny it can run on edge devices, that's amazing!

English

151

Ben Clavié@bclavie·30 Eki

we need to get this thing to the point where it has more downloads than parameters. It’s RAG that can run on your Samsung Smart Fridge, what’s not to like.

English

4.5K

セコン@hotchpotch·31 Eki

OpenProvence、WebUI からCPU環境のデモもお使いいただけます。なおCPUでもそれなりに動いたりしますが、GPUでは断然高速です！ huggingface.co/spaces/hotchpo…

日本語

908

セコン@hotchpotch·14 Eki

日本語文境界判定器に、@MegagonLabs の bunkai ライブラリを便利で使っていたのですが(ありがとうございます)、速度が欲しいユースケースが発生したので、fast-bunkai という Python + Rust(binding) で40-250倍速で処理できるライブラリを作りました🚀 github.com/hotchpotch/fas…

日本語

188

15.6K

セコン@hotchpotch·18 Eyl

secon.dev/entry/2025/09/… google が出した、マルチリンガル文章ベクトルモデルの EmbeddingGemma 300m の日本語性能を JMTEB v1 で測定したら、非常に低くてビックリしたので、JQaRA, JaCWIRでも測ってみましたが、やはりかなり低くて、うーんという感じでした。何か間違っているのだろうか…🤔

日本語

4.6K

セコン@hotchpotch·19 Haz

@bclavie 鋭い洞察、参考になります。今後、小さなモデルサイズの causal LM embeddings でも汎化がうまくいくのか、楽しみですね。自分はコンピュータリソースがないので、小さな encoder model を、引き続き使うしかないのですが 🤣

日本語

Ben Clavié@bclavie·19 Haz

@hotchpotch ますます、causal single vector embeddingsは、大規模なparameter counts（4B以上）がないと、うまく汎化できないと確信するようになっています。0.6Bレベルでは、bidirectionalityの欠如は、おそらく学習データへのsoft-overfittingによって補われているのでしょう。

日本語

セコン@hotchpotch·11 Haz

Qwen3 Embedding がリリースされたので、0.6B モデルの文章ベクトルの日本語性能をJMTEBで計測してみました。マルチリンガルモデルは日本語はあまり考慮されてないことがあるのですが、このモデルもそうなのか、日本語タスクにおいてはあまり性能が出ない結果に👀 secon.dev/entry/2025/06/…

日本語

3.1K

セコン@hotchpotch·19 Haz

6400万件のquery作るのはquery-crafter-japaneseでRTX5090で10日ぐらいな感じでした。 hard negatives のマイニングには ruri-v3-30m を利用させていただきました(毎度あがとうございます)。ruri-v3シリーズは超小型モデル、かつ性能高いものもあって使いやすすぎる…!

日本語

1.3K

セコン@hotchpotch·19 Haz

良質なWeb文章から生成した巨大な6400万件のquery, documentペアの情報検索用データセット(ハードネガティブもあるよ)もリリースしました🚀🚀🚀 このうち1000万件を追加しrerankerを学習させたところ、どのスコアも向上し、とりわけWeb文章の検索タスク(JaCWIR)で顕著でした！ secon.dev/entry/2025/06/…

日本語

6.8K

Keşfet

@y_k_c_t_ @po3rin @tumf @bclavie @MegagonLabs @elonmusk @BarackObama @taylorswift13