webbigdata

3.2K posts

webbigdata banner
webbigdata

webbigdata

@webbigdata

日本一に貢献した国産AIを作りました YouTuber/VtuberをAIで支援するサイト/チャンネルを作っています youtube チャンネル https://t.co/RH5DwFs5lD 開発済AI/LLM https://t.co/xJqZm3mKcM

Katılım Mart 2020
416 Takip Edilen2.9K Takipçiler
webbigdata
webbigdata@webbigdata·
Gemini 3.5 Flash $1.5/$9 ベンチマークでProを凌駕するが価格も3倍 API価格ダンピング時代の終焉 Gemini 3.1 Pro $2/$12 3.0 Flash $0.5/$3 3.1 Flash Lite $0.25/$1.5 Claude Opus 4.7 $5/$25 Sonnet 4.6 $3/$15 Haiku 4.5 $1/$5 GPT 5.5 pro $5/$30 5.4 mini $0.75/$4.5 5.4 nano $0.2/$1.25
日本語
0
2
3
591
webbigdata
webbigdata@webbigdata·
@kis はい、MoEの倍はびっくりしました 中国製モデルは価格勝負のイメージがあったのですが、DeepSeekが飛び抜けて安いだけと言う事がわかりました
日本語
0
0
0
67
きしだൠ(K1S)
@webbigdata Qwen 27B、なんだかんだでアクティブに動くパラメータがKimi K2.6(A32B)よりちょい少ないくらいで動かすのに金かかりそう。 Denseの30B前後は、APIで使うと割にあわない気がします。
日本語
1
0
1
177
webbigdata
webbigdata@webbigdata·
商用AIとオープンAIの価格比較 Qwenの27Bの値付けが驚き どこも値上げ傾向 Gemini 3.1 (Agent Platform) Pro $2/$12 Flash(3.0) $0.5/$3 Flash-Lite $0.25/$1.5 Gemma 4 26B $0.15/$0.6 Qwen3.6(Alibaba Cloud) Max $1.3/$7.8 27B $0.6/$3.6 Plus $0.5/$3 Flash $0.25/$1.5 35B-A3B $0.248/$1.485
日本語
2
2
21
6.2K
webbigdata
webbigdata@webbigdata·
ツールを組み合わせて特定タスクを実行するAIエージェントは「最終的に成功したか?」ぐらいしか明確な基準(報酬)がないから、強化学習が難しい コマンドライン環境で従来は捨てられていた「コマンドの応答」を使ったら汎用的なルール(ワールドモデル)を理解し始めて効率的に強化学習できたという研究
Dimitris Papailiopoulos@DimitrisPapail

x.com/i/article/2056…

日本語
0
3
7
622
webbigdata
webbigdata@webbigdata·
@Tono_Ken3 はい、Gemini Flash 3.0より高いのはびっくりですね オープンモデルを高く値付けして商用モデルを安く感じさせる作戦なのかもしれませんが
日本語
1
0
4
712
webbigdata
webbigdata@webbigdata·
deepseek v4 flash $0.14/$0.28 v4 pro ※$0.435/$0.87 ※5/31までの75% discount。以降$1.74/$3.48 Kimi K2.6 $0.95/$4 K2.5 $0.6/$3 GLM GLM-5.1 $1.4/$4.4 GLM-5 $1/$3.2 GLM-5-Turbo $1.2/$4.0
日本語
0
0
1
850
webbigdata
webbigdata@webbigdata·
一度消して再投稿していると言う事はGemma4の124B parameter MoE modelは完全に御蔵入りなんでしょうか Qwen 3.6は小モデルをリリースしていませんが、Gemma4は大モデルをリリースしない戦略 Googleはブラウザ経由でchatGPTにアクセスするユーザーをその前にSLMトリガでGeminiに誘導させたいのかも
webbigdata tweet mediawebbigdata tweet media
日本語
0
4
13
1.5K
webbigdata
webbigdata@webbigdata·
@kis その可能性あるかもですね 少なくともQwen 3.6の現実装ではモデルファイル自体は1つなのですが、色々なフォーク版がでてたり、オプションの名前が変わったり、現状把握が難しい状況です。Gemma4は動かし方も変わりそうな気がします
日本語
1
0
1
140
きしだൠ(K1S)
@webbigdata そして日本語より英語のほうがたぶん速度でるはず。ドラフトモデルがあまり日本語を学習してなさそう。 というか、ドラフトモデルのファインチューン流行る気がします。
日本語
1
0
8
604
webbigdata
webbigdata@webbigdata·
llama.cppにQwen3.6用のMTP(Multi Token Prediction)がマージ(gemma4はまだ) コーディングなどの構造的な出力が期待されるケースでTG(テキスト生成)の速度が向上。PP(プロンプト前処理)は場合によっては悪化 創作文などではあまり改善が見られないという報告も 3.6は9B以下がでていないのでまだ保留
日本語
1
1
8
1.5K
webbigdata
webbigdata@webbigdata·
初めてフィッシング詐欺に引っかかりそうになる Google for Startups AI Agents Challengeに参加すると$500クレジットが貰えるよ、というメールがスパムフォルダに入っていた ↓ そんなのあるんだ、とWeb検索して詳細を確認して申し込む ↓ 後で元メールみたらリンク先のフォームが全然違うドメイン
日本語
0
0
2
424
webbigdata
webbigdata@webbigdata·
無料の論文掲載サイト、arXivがルール変更 「著者がLLM生成の結果を確認しなかったという紛れもない証拠が含まれている場合に、1年間のBAN等のペナルティ」 LLMの幻覚が引き起こす存在しない引用などの抑止に一見、良さそうに見えるが、嫌がらせで本人が知らないうちに共著者登録されるとかありえる
Thomas G. Dietterich@tdietterich

The penalty is a 1-year ban from arXiv followed by the requirement that subsequent arXiv submissions must first be accepted at a reputable peer-reviewed venue. 4/

日本語
0
1
6
965
webbigdata
webbigdata@webbigdata·
chat_templateは気づきにくいトラブルがとても多くて、同じモデルなのにライブラリによってテンプレートが異なる事も珍しくない 学習と推論を交互に繰り返す強化学習では、学習時と推論時でチャットテンプレート異なり、出力トークンに差異が出て、学習の足を引っ張っぱる事があるので直したとのお話
will brown@willccbb

all chat templates are wrong, some chat templates are useful we found some CRAZY performance wins by patching official templates, and we're shipping them in a standalone library you can use with any RL stack w/ examples for @vllm_project @sgl_project @huggingface @tinkerapi

日本語
0
0
1
534
webbigdata
webbigdata@webbigdata·
Mini Shai-Hulud Supply-Chain Attack WebアプリのUI部などをVibeコーディングで作成してnpm installをおまじないとして実行しているとまずそう .claudeや.vscode内のファイルをいじって永続化する仕組みもあるのでVibe Coderを狙い撃ちしてる 私の調べた限り今回の第二波は5月12日 午前4時が最初
日本語
0
0
0
545
webbigdata
webbigdata@webbigdata·
4日前のニュースですが、OpenAIがFinetuneサービスを段階的に縮小との事 商用モデル vs Local LLMって「賃貸 vs 持ち家」の議論に似てる気が 湾岸タワマン(賃貸)凄い!郊外の戸建て(持ち家)と比較にならない! みたいな議論をみかけますが、タワマン同等のお金かければ凄い戸建ては建てられますよ
webbigdata tweet media
日本語
0
0
5
1.1K
webbigdata
webbigdata@webbigdata·
@kis なるほど、確かに!
日本語
1
0
0
179
きしだൠ(K1S)
きしだൠ(K1S)@kis·
@webbigdata あぁ、なのでプログラムを組むときのやりとりは化けにくいのに、小説を書いてもらったり、プログラム組むときでもthinkingの内容は化けてたりってなるんですね。
日本語
1
0
3
400
webbigdata
webbigdata@webbigdata·
LLMが出力する日本語文章内に、外国語が混在しているケースを見た事がある日本人は多いと思うが、事後学習データ内にその単語が存在しない事による忘却が影響していたというお話 日本語の口語データが特に影響を受けやすかったようで、単純に全単語を鸚鵡返しさせるだけでも大幅に軽減できたとの事
思维怪怪@0xLogicrw

MiniMax 发布技术博客,披露其 M2 系列大模型无法输出人名「马嘉祺」的根因排查过程。排查从一个个例出发,最终揭示了一个波及整个词表近 5% 的系统性退化问题。 根本原因是大模型两个训练阶段的数据覆盖严重脱节。第一阶段(预训练)用海量互联网文本编出了一本约 20 万词的「字典」;第二阶段(后训练)用精选的对话数据教模型说话,但这份对话数据只覆盖了字典里的一部分。字典里有、但对话数据里没练到的词,就会在第二阶段逐渐被遗忘。 「嘉祺」就是这样的一个词。分词器(tokenizer,负责把文字切成模型能处理的最小单元)因为在互联网文本中见到「嘉祺」连用的次数够多,就把它合并成了一个独立单元。预训练时模型学会了这个词,但后训练的对话数据里包含「嘉祺」的样本不到 5 条。后训练不断调整模型参数,练到的词越来越准,没练到的词则在参数更新中被带偏。最终,模型仍然「认识」马嘉祺、能准确回答相关信息,丢失的只是把这个名字写出来的能力。 退化排名靠前的还有「传奇私服」「无痛人流」等互联网 SEO 垃圾词。这类词在预训练的互联网语料中铺天盖地,分词器给了它们独立编号,但精选的后训练对话数据不会收录这些内容,结果同样被遗忘。 团队对完整词表做了全量扫描,发现约 4.9% 的词发生了显著退化。退化最严重的是日语:29.7% 的日语词显著退化,远超韩语 3.3%、俄语 3.7%、中文 3.9% 和英文 3.5%。 日语的严重退化还解开了一个旧谜。此前模型在日语对话中偶尔混入俄语或韩语字符,一直找不到原因。这次分析表明,大量日语词退化后,在模型内部的参数空间里「漂」到了其他语言的地盘上,导致模型该写日语时错写成俄语或韩语。 修复方案是构造一份覆盖全词表的合成数据,让模型用简单的复读任务把字典里每个词都练一遍。效果立竿见影:日语回答中混入俄文字符的比例从 47% 降至 1%,全词表参数稳定度从最低 0.329 升至全部高于 0.97。

日本語
1
13
71
8.9K
webbigdata
webbigdata@webbigdata·
AIが賢くなるとこちらがやりたい事を全て汲みとってくれる楽な未来を想像していたが、モデルの性格による得意不得意の差を見極める必要がでてきた 例えばGPTは真面目だから数学・コーディングに強みを持つが営業/マーケも論理的にやろうとして枠内に留まる。claudeは意味不明な発想もできるがチト危険
日本語
0
2
10
987
webbigdata
webbigdata@webbigdata·
あんまりないように思えて、よく言われるのはサイト利便性がAIにとって向上すればAIエージェントに「選ばれる」サイトになりますよ、という話だが、AIエージェント側に聞いてみると「ステマ規制とかありますからねぇ」とか言い出すし、GPTsとかもAI開発会社側から宣伝は全然してくれないから微妙な感じ
日本語
0
0
0
311
webbigdata
webbigdata@webbigdata·
ChromeがGemini Nano(約4GBのAIモデル)をユーザーの同意なく自動ダウンロードした事が発覚して炎上 AIエージェントにとって使いやすいWebサイト 「ブラウザ内で動くAI(認証をブラウザに任せられる)」 + 「WebMCP(決済等のUI操作がAIにとって楽に)」 を目指す計画だ思うがサイト運営者側のメリットが
日本語
1
0
3
926