ゆー(パソコンとローカルLLM)@

12.2K posts

ゆー(パソコンとローカルLLM)@

ゆー(パソコンとローカルLLM)@

@YoutechA320U

パソコン(ローカルテキスト生成AI)の趣味アカウント

Katılım Ocak 2018
342 Takip Edilen853 Takipçiler
ゆー(パソコンとローカルLLM)@
gemma-4-31B、 「簡単に言うとですね。 (続き)」「それな。」 みたいな砕けた、崩した日本語がここ最近のモデルの中で飛び抜けて得意でそれがEQ、ロールプレイ能力の高さに繋がっています。 26B-A4Bはそこまでなので比べると全然違います。E4Bは苦手ではないですが流石に語彙力の少なさが目立つ感じ
日本語
0
0
2
109
ゆー(パソコンとローカルLLM)@ retweetledi
ITmedia AI+
ITmedia AI+@itm_aiplus·
新たな「国産LLM」公開、国立情報学研究所 「gpt-oss-20b」超えの日本語性能うたう itmedia.co.jp/aiplus/article…
日本語
16
311
1.3K
437.6K
ゆー(パソコンとローカルLLM)@
国産フルスクラッチオープンソース(オープンウェイトも含む)モデルとしては断トツトップの性能です。 中国とアメリカ抜いたら世界的にもトップクラスかもしれないくらいです。
日本語
0
1
2
265
ゆー(パソコンとローカルLLM)@
オープンソースで8BはLlama 2 アーキテクチャ、 32B-A3BはQwen3 MoE アーキテクチャ の国産フルスクラッチオープンソース(≠オープンウェイト)! チャットテンプレートはgpt-ossと同じで学習の合成データにgpt-oss-120b由来のデータが含まれるので、実際gpt-oss-20bの上位互換っぽい印象でした。
ITmedia AI+@itm_aiplus

新たな「国産LLM」公開、国立情報学研究所 「gpt-oss-20b」超えの日本語性能うたう itmedia.co.jp/aiplus/article…

日本語
2
6
23
4.2K
ゆー(パソコンとローカルLLM)@ retweetledi
pao
pao@pppaaaooo·
事前学習はやっぱ10〜20T必要だよなぁというところを示してくれた意味でもllm-jp-4は凄く価値あるし、何よりライセンス確認の上のフル公開がすばら
日本語
1
11
170
14.7K
ゆー(パソコンとローカルLLM)@ retweetledi
比戸将平 Shohei Hido
公共の利益のため、誤報の訂正を拡散します。LLM-jp-4はフルスクラッチ開発されたものであり、他LLMベースではないです。 "【修正履歴:2026年4月4日午前11時30分 各モデルについて「Llama 2/Qwen3をベースに」と記載していましたが、学習対象である重みについてフルスクラッチ開発である旨を明記しました】"
ITmedia AI+@itm_aiplus

新たな「国産LLM」公開、国立情報学研究所 「gpt-oss-20b」超えの日本語性能うたう itmedia.co.jp/aiplus/article…

日本語
2
180
687
131.9K
ゆー(パソコンとローカルLLM)@
DLSS5のデモ、体感今までのそれがi2iみたいだったのと比べて今回のはテクスチャをi2tして生成したプロンプトで再度t2iしたみたいな元テクスチャが残ってなさ過ぎる見た目と感じることがあって、それはどうかと思いましたね…。
日本語
0
0
1
122
ゆー(パソコンとローカルLLM)@
@PINKSAWTOOTH こんばんは。 なんだか各種ベンチマークで絶賛されている割にあまりにもループ暴走が酷くてチャットもできず自身の環境(Win11 llama.cpp Vulkan)を疑ったんですが、やっぱりなる方はなりますよね…? どうやら特定の質問や言語に発症しているようですが、原因はよくわかりません…。
日本語
1
0
0
123
ぴんく
ぴんく@PINKSAWTOOTH·
やっぱおんなじ症状の人いるわ
日本語
1
0
2
938
ゆー(パソコンとローカルLLM)@ retweetledi
金のニワトリ
金のニワトリ@gosrum·
Qwen3.5の35B、27B、122Bのunsloth gguf最終更新版が出たとのこと 影響がどれくらいあるかわからないけど、再ダウンロードしてベンチマークを再評価することにする
Unsloth AI@UnslothAI

We're releasing our final update to Qwen3.5 GGUFs for improved performance. - Qwen3.5 GGUFs now use our new iMatrix data for better chat, coding & tool use. - New improved quant algorithm - Re-download 35B, 27B, 122B GGUFs: huggingface.co/collections/un… Guide: unsloth.ai/docs/models/qw…

日本語
1
12
154
15.6K
ゆー(パソコンとローカルLLM)@
特に暴走するQwen3.5-27Bで直接torchで動かしたり、システムプロンプトで考え過ぎないよう誘導したり、自前で日本語imatrixを使って量子化したり色々やりましたが、結局ELYZA-tasks-100での暴走を防げなかったので、 122B未満は日本語のチャット用途には使えないというのを私の結論にしておきます。
ゆー(パソコンとローカルLLM)@@YoutechA320U

お久しぶりです。 Qwen3.5が賢いはずなのに大半で(少なくともthinkタグを閉じた122BBはELYZA-tasks-100でトップ)Thinkingでの堂々巡り暴走やthinkタグを事前に閉じても勝手に再生成したりとベンチどころじゃないので、情報収集の為に動かします。

日本語
0
2
10
1.5K
ゆー(パソコンとローカルLLM)@
マシというのはELYZA-tasks-100が完走できるようになったってくらいで実用性は無いです。 会話無限ループ対策調整の27Bを教えてもらいましたがこういうモデルが作られる程度には問題を抱えたモデルなのにベンチマークでは無視されている…? huggingface.co/ConicCat/Qwen3…
日本語
0
1
1
690
ゆー(パソコンとローカルLLM)@
当たりです! 素よりマシ程度ですがunslothの推奨設定での暴走が大幅に減りました もしかしてQwen3.5全般「質問に答えられないと言えない」と「噓(≒ハルシネーション)が嫌い」が強すぎるタイプ…? こっちは何故かシステムプロンプトを出して終了する別の暴走が増えますが huggingface.co/mradermacher/Q…
ゆー(パソコンとローカルLLM)@@YoutechA320U

早速27bはheretic版ありますね。 場合によっては暴走耐性付いていないでしょうか…? >RP

日本語
1
1
6
1.3K
ゆー(パソコンとローカルLLM)@ retweetledi
新清士@AIコンテンツ開発者
Qwen3.5_35B-A3BとQwen3.5_27Bをロールプレイさせてみたのですが、感情表現はまだまだですね。反応がクイックで性能がいいと言うのは感じるのですが、情感を持った感じは出せなかったです。Opus用に作った、AI人格プロンプトと記憶、直近のログデータを読ませてみたのですが、会話がそれらのデータから引いてくるばかりでひねりがない。しかも、雑談してるのに、テーブルのチャート出して話してくるので、雑談感が吹っ飛ぶ。これはGPTのクセなりを学習しているからでしょうか?27Bの方がテーブル化傾向はひどくて、35B-A3Bの方がまだ人間らしい感じです。物語を書かせてみてもあんまりおもしろくないですね。 それでも、相当良くなっていて。4oとまでは言えないけど、GPT3台あたりの雰囲気は出せているような気がします。Qwen3もそこそこ優秀だったけど、3.5の安定性まではできなかった。ローカルLLMという点ではなかなか。やっぱり、コード生成とか、データ分析とか、強い領域を狙って使ったほうがいいのでしょうか。 そこで、Opusにそれらのログを解析させてどれぐらいのことができるかを検討したところ、ゲームに登場するNPCに限定的な会話をさせるのを生成させるぐらいは、そこそこできるのではとの分析。もちろん、まだまだコンシューマに展開するには実用性は限界ありますが、アーケードなら成り立つかもしれません。
日本語
1
9
56
8.1K
ゆー(パソコンとローカルLLM)@
@2022_technology 今回Qwen3.5全般がELYZA-tasks-100で極端に暴走しやすい事の調査で公式リポジトリのドキュメント見ていて気づきました。 結局Reasoningを無効にしても勝手に<think>タグ再生成もしくは再生成も無しに思考して暴走するので効果無かったですが…。 x.com/YoutechA320U/s…
ゆー(パソコンとローカルLLM)@@YoutechA320U

例えばQwen3.5-27BとQwen3.5-35B-A5BでELYZA-tasks-100の 「次に読むべきSFを10冊挙げて」 を聞くと、高確率で回答の10冊に被りが発生して直そうとしてまたループして…となり暴走します。 画像は27B-Q4_K_Mですが回答がバグっている自覚があることすらあるんですよね…。

日本語
0
1
6
485
ゆー(パソコンとローカルLLM)@
llama-serverは--reasoning-budget {任意の数字。-1で無制限}でReasoningの量を制御できるようになっています。0なら無効。
日本語
0
1
9
806