セコン

17K posts

セコン banner
セコン

セコン

@hotchpotch

Yuichi Tateno / id:secondlife (セコン) / @hotchpotch, ソフトウェアエンジニア, 最近は情報検索周辺技術が好きなお年頃。XのDMは見ていないため、何かあればメールにてご連絡ください。

Katılım Ekim 2007
451 Takip Edilen4.6K Takipçiler
セコン
セコン@hotchpotch·
SQLite, DuckDB といった組み込みDBで、軽量高速なトークナイザVaporettoを用いた日本語全文検索拡張を作ってみました。DuckDBの方ではブラウザ上でWasmでも利用でき、適切な利用シーンで使えば、結構便利な気がしています。 secon.dev/entry/2026/04/…
日本語
1
84
417
48.8K
セコン
セコン@hotchpotch·
@y_k_c_t_ PDF2ZH_ARGS という環境変数で上書きできるので、PDFMathTranslate の1枚PDFかつ見開きオプションを指定すれば、多分うまくいくのかな、と思っております。
日本語
1
0
1
66
セコン
セコン@hotchpotch·
@y_k_c_t_ github.com/PDFMathTransla… を裏側で使っていて、オプションは好きに変えられる(はず)なので、そちらを参照いただければと思います
日本語
1
0
0
173
セコン
セコン@hotchpotch·
cliからテキストを翻訳・PDF見開き対訳もできる、beko-translate をリリースしました🚀。ローカル翻訳モデルとして、 CAT-Translate や PLaMo 翻訳モデルなどを利用可能です!論文読みの際、見開き対訳は便利なので、よかったらご利用ください〜。なおmac専用となっています github.com/hotchpotch/bek…
セコン tweet media
日本語
4
34
178
14.9K
セコン
セコン@hotchpotch·
エーアイの登場で、一時期は論文をエーアイ要約に投げて解った気になっていたんですが、よく書かれた論文は要約から抜け落ちるような場所に、自分の知らなかったこと・本当に知りたいことが書かれていたりして、原典をちゃんと読む重要性を感じる今日この頃です
日本語
0
1
13
1.3K
セコン
セコン@hotchpotch·
ちなみに huggingface.co/hotchpotch/jap…huggingface.co/cl-nagoya/ruri… をRTX4090 で学習させた(学習時間は2時間)もので、データを用意できれば、ドメインに適切なモデルを作るのもそこまで難しくなく、また高価なハードウェア無く(ご家庭用GPUでも十分)できるのかな、と思っております。モデル作り楽し〜〜〜
日本語
0
4
15
1.5K
セコン
セコン@hotchpotch·
弊作のrerankerの紹介ありがとうございます!transfomerモデル(とりわけ小さい重み)は学習データに引っ張られるため、合成データなどを用意して対象ドメインQAを学習させると、かなり精度を上げることができると思っております! #searchtechjp speakerdeck.com/sansan_randd/s…
日本語
1
8
31
2.7K
セコン
セコン@hotchpotch·
複数GPUを使った学習をしたくなってきたので、RTX5090 x2 構成の機械学習PCを自作してみました。電源・スロット厚・排熱フローあたりを考える必要があったので、事例の一つとなればなぁ〜と記事にしてみました! secon.dev/entry/2026/01/…
日本語
0
24
177
23.7K
セコン
セコン@hotchpotch·
@po3rin ありがとうございます!ぜひお試しください〜〜!
日本語
0
0
1
148
セコン
セコン@hotchpotch·
@tumf 速度は結構出るので、確かに grep 的なフィルターにも良さそうですよね!
日本語
0
0
1
52
tumf
tumf@tumf·
@hotchpotch M3でこのスピードなら色々使えそうですね Grafanaのログフィルタに使ってみようかな
tumf tweet media
日本語
1
0
1
65
セコン
セコン@hotchpotch·
OpenProvence という、質問と関係がない文章を削除するモデルを作成、公開しました🚀!ざっくり30-90%ぐらいは削除できるかなーと思っていて、Agentic SearchなどでLLM・AIが検索叩きまくる後処理等々にご活用ください〜! secon.dev/entry/2025/10/…
セコン tweet media
日本語
3
40
196
18K
セコン
セコン@hotchpotch·
なおOpenProvenceは、モデル作りその他諸々の実装を自分では1行もコードを書かない縛りで、全てコーディングエージェントを用いて開発してみました。 自分が実装できる程度の機械学習モデルなら、AIが作れる世の中になること待ったなしですね。
日本語
0
1
9
1.1K
セコン
セコン@hotchpotch·
@bclavie Oh wow, a model that's so tiny it can run on edge devices, that's amazing!
English
0
0
1
151
Ben Clavié
Ben Clavié@bclavie·
we need to get this thing to the point where it has more downloads than parameters. It’s RAG that can run on your Samsung Smart Fridge, what’s not to like.
Ben Clavié tweet media
English
3
3
45
4.5K
セコン
セコン@hotchpotch·
OpenProvence、WebUI からCPU環境のデモもお使いいただけます。なおCPUでもそれなりに動いたりしますが、GPUでは断然高速です! huggingface.co/spaces/hotchpo…
セコン tweet media
日本語
0
1
2
908
セコン
セコン@hotchpotch·
日本語文境界判定器に、@MegagonLabs の bunkai ライブラリを便利で使っていたのですが(ありがとうございます)、速度が欲しいユースケースが発生したので、fast-bunkai という Python + Rust(binding) で40-250倍速で処理できるライブラリを作りました🚀 github.com/hotchpotch/fas…
日本語
0
33
188
15.6K
セコン
セコン@hotchpotch·
secon.dev/entry/2025/09/… google が出した、マルチリンガル文章ベクトルモデルの EmbeddingGemma 300m の日本語性能を JMTEB v1 で測定したら、非常に低くてビックリしたので、JQaRA, JaCWIRでも測ってみましたが、やはりかなり低くて、うーんという感じでした。何か間違っているのだろうか…🤔
セコン tweet media
日本語
1
9
22
4.6K
セコン
セコン@hotchpotch·
@bclavie 鋭い洞察、参考になります。今後、小さなモデルサイズの causal LM embeddings でも汎化がうまくいくのか、楽しみですね。自分はコンピュータリソースがないので、小さな encoder model を、引き続き使うしかないのですが 🤣
日本語
0
0
1
45
Ben Clavié
Ben Clavié@bclavie·
@hotchpotch ますます、causal single vector embeddingsは、大規模なparameter counts(4B以上)がないと、うまく汎化できないと確信するようになっています。0.6Bレベルでは、bidirectionalityの欠如は、おそらく学習データへのsoft-overfittingによって補われているのでしょう。
日本語
1
0
1
47
セコン
セコン@hotchpotch·
Qwen3 Embedding がリリースされたので、0.6B モデルの文章ベクトルの日本語性能をJMTEBで計測してみました。マルチリンガルモデルは日本語はあまり考慮されてないことがあるのですが、このモデルもそうなのか、日本語タスクにおいてはあまり性能が出ない結果に👀 secon.dev/entry/2025/06/…
セコン tweet media
日本語
2
2
22
3.1K
セコン
セコン@hotchpotch·
6400万件のquery作るのはquery-crafter-japaneseでRTX5090で10日ぐらいな感じでした。 hard negatives のマイニングには ruri-v3-30m を利用させていただきました(毎度あがとうございます)。ruri-v3シリーズは超小型モデル、かつ性能高いものもあって使いやすすぎる…!
日本語
0
0
7
1.3K
セコン
セコン@hotchpotch·
良質なWeb文章から生成した巨大な6400万件のquery, documentペアの情報検索用データセット(ハードネガティブもあるよ)もリリースしました🚀🚀🚀 このうち1000万件を追加しrerankerを学習させたところ、どのスコアも向上し、とりわけWeb文章の検索タスク(JaCWIR)で顕著でした! secon.dev/entry/2025/06/…
セコン tweet media
日本語
1
17
76
6.8K