Garf

7.2K posts

Garf banner
Garf

Garf

@garfunklett

细节强迫症,梦想糙快猛。

Toronto, Ontario Katılım Aralık 2009
1.1K Takip Edilen595 Takipçiler
Garf retweetledi
朱峰
朱峰@zhufengme·
朱峰 tweet media
ZXX
145
108
2.4K
590.8K
Garf retweetledi
Berryxia.AI
Berryxia.AI@berryxia·
刚刷到CJ Zafir 发了一条关于 fine-tuning 小模型的帖子,看下来觉得这波建议特别实在。 他直接说,如果你也喜欢玩开源模型 fine-tuning,那先听听这些: 从 1B、2B、4B、8B 这些小模型开始练手,别一上来就冲 27B 以上。 云 GPU 用 Google Colab Pro 就够了,A100 80GB 一小时才 0.6 美元左右,小模型完全够用。 数据集自己造,用 Codex 5.5 先规划,再配 DeepSeek v4 Pro 生成每一行数据。 底座模型推荐 Unsloth 的 instruct 版本,Hugging Face 上直接拉,fine-tuning 笔记也用他们的做参考,直接丢给 Codex 让它帮你改成你想要的配置。 他建议花一天时间把这些东西过一遍:SFT、RL 训练(GRPO、DPO、PPO 这些)、LoRA / QLoRA、量化类型、本地推理引擎(llama.cpp)、KV cache 和 prompt cache。 他说就直接上手吧,Claude、Codex、ChatGPT 都能给你设计第一步的完整计划。 最后他还提到,未来技术会越来越往 5B 到 15B 的 Expert Language Models 走,并非一味堆通用大模型,所以 fine-tuning 这门手艺现在学特别值。 很多公司愿意花 5 万美元以上,让你帮他们用自家数据训个性化模型。 整条帖子的意思就是:fine-tuning 其实谁都能入门,调模型、测模型、用模型,慢慢就能把这变成一份靠谱的事业。 感兴趣的可以看看,还挺有意思。
Berryxia.AI tweet media
CJ Zafir@cjzafir

If you love fine-tuning open-source models (like me), then listen. > Start with 1B, 2B, 4B, and 8B models. (Don't start with a 27B model or bigger at first.) > Use WebGPU providers. I use Google Colab Pro for any model smaller than 9B. A single A100 80GB costs around $0.60/hr, which is cheap. Enough for small models. > Don’t buy GPUs unless you fine-tune 7 to 10 models. You'll understand the nitty-gritty in the process. > Use Codex 5.5 × DeepSeek v4 Pro to create datasets. Codex to plan, DeepSeek v4 Pro to generate rows. > Use Unsloth's instruct models as a base from Hugging Face. Yes, there are others too, but Unsloth also provides fast fine-tuning notebooks. > Use Unsloth's fine-tuning notebooks as a reference. Paste them into Codex, and Codex will write a custom notebook with the configs you need. > Spend 1 day learning about: - SFT (supervised fine-tuning) - RL training (GRPO, DPO, PPO, etc.) - LoRA / QLoRA training - Quantization and types - Local inference engines (llama.cpp) - KV cache and prompt cache > Just get started. Claude, Codex, and ChatGPT can design a step-by-step plan for how you can fine-tune your first AI model. Future tech is moving toward small 5B to 15B ELMs (Expert Language Models) rather than general 1T LLMs. So fine-tuning is an important skill that anyone can acquire today. Tune models, test them, use them. Then fine-tune for companies and make a career out of it. (Companies pay $50k+ to fine-tune models on their data so they can get personalized AI models.) Shoot your questions below. I'll be sharing in-depth raw findings about this topic in the coming days.

中文
25
112
572
75K
小弟调调
小弟调调@jaywcjlove·
极限侧方停车出入库教学 专业教练实战演示,建议收藏!
中文
61
103
1.8K
88.7K
Garf retweetledi
Jason Zhu
Jason Zhu@GoSailGlobal·
Stanford CS336 上,Tatsu 讲了一节 LLM 架构课,把过去 3 年所有主流 LLM 拆开,看它们的共通模板 结论挺爆:90% 的架构选择已经收敛,你随便挑一个开源大模型,它跟其他模型在这些维度上几乎一模一样 讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」 下面是 2026 年开源 LLM 的标准模板 你训自己的模型可以直接抄 【架构层 已经收敛的 7 件事】 1)Layer Norm 挪出残差流(pre-norm) 原版 Transformer 把 LN 放在残差里 几乎所有现代模型都挪到外面 原因:keep your residual stream clean 梯度反传更稳 2)RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙 丢掉之后 flops 只省 0.17% 但运行时省到 25% (瓶颈在数据搬运 计算反而次要) 3)所有 bias 项全删 跟 RMS Norm 一个道理 系统层省内存搬运 4)激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系(Gemma / T5)用 GeGLU 区别极小 选哪个都行 5)位置编码用 RoPE 2024 年之后基本统一了 原理:把每对维度按位置旋转一个角度 让 inner product 只依赖相对位置 6)Transformer block 串联(不是并联) GPT-J / Palm 试过并联 现在基本被放弃 串联的实现优化得太好了 并联省的那点系统开销不值得损失表达力 7)Layer norm 可以「撒」 哪儿不稳就在哪儿加 LN attention 之前能加 之后能加 两边都加(double norm)也可以 现代模型很多这样做 【超参数 已经收敛的 5 个数】 1)feedforward 维度 / hidden 维度 - 非 GLU 模型:4 倍 - GLU 模型:8/3 ≈ 2.67 倍(因为 GLU 多一组矩阵 要保持总参数量) - Llama 系:3.5 倍 - T5 1.0 试过 64 倍 后来 T5 1.1 改回标准 别学 2)head 数 × head 维度 ≈ hidden 维度 几乎所有模型都遵守 T5 是为数不多的例外 3)模型纵横比(hidden / 层数)≈ 100 太深 pipeline parallel 难做 太宽 表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4)vocab size 单语模型:30K 左右(早期 GPT-2 那种) 多语 / 通用模型:100K-200K(GPT-4 / Llama 3 / Gemma 都在这个范围) 现代基本都是后者 5)weight decay 仍然普遍使用 但研究发现它在 LLM 里干的事其实是优化器干预 让你最终能收敛到更深的最优点 跟你想的「防过拟合」没什么关系 所以别因为「单 epoch 不会过拟合」就把它关掉 【稳定性 三个救命 trick】 训练大模型最怕中途 loss 突然飙升 然后 NaN 全军覆没 现代模型用三个 trick 防这件事 1)Z-loss output softmax 的 normalizer 容易爆 加一个 (log Z)² 的正则项 让 Z 始终接近 1 DCLM / Olmo 都用 2)QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来 现在所有大模型都加 3)Logit soft cap(仅 Google 系) attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用 但会损失一点点性能 慎用 【Attention 两个新趋势】 1)GQA(Grouped Query Attention)几乎统一 原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失 推理成本砍掉 80% 现在所有要做生产部署的大模型 没有不用 GQA 的 2)局部 + 全局 attention 交替 处理长上下文的新方式 Cohere Command A 起头 现在 Llama 4 / Gemma 4 / Olmo 3 全在用 比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳 比纯 full attention 便宜得多 (Qwen 3.5 做了变体 把 sliding window 那 3 层换成 SSM) 收尾一句 如果你正在训自己的 LLM,上面这一套就是 2026 年的「默认配置」 不需要重新发明,直接抄 如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住
Roan@RohOnChain

Anthropic pays $750,000+ a year for engineers who can build LLM architectures from scratch. Stanford taught the entire thing in 1 hour lecture & released it for free. Bookmark & watch this today before someone takes it down.

中文
29
589
3.1K
530.8K
Garf
Garf@garfunklett·
他们这次双修已经圆满了,我也高潮了。
中文
0
0
0
26
Garf
Garf@garfunklett·
教学就得这么做
中文
0
0
1
36
Garf
Garf@garfunklett·
@Suozhang_NY 为什么他的头像里,川普少颗牙?
中文
0
0
0
150
所长 🇺🇸🏳️‍🌈
所长 🇺🇸🏳️‍🌈@Suozhang_NY·
如果这等蛆是加拿大公民,那他的入籍宣誓就是一场诈骗,跑到別的国家,希望被另一个国家吞并,还是那句话,想当美国人想疯了,期盼超个近道,当初拿不到美签,先跑加拿大凑合!
所长 🇺🇸🏳️‍🌈 tweet media
中文
25
6
98
10K
Garf
Garf@garfunklett·
@catturd2 Planning to use my private money, flip your house to a public toilet. Good luck.
English
0
0
0
9
Garf retweetledi
austin lau
austin lau@helloitsaustin·
if you're a performance marketer, here's how I use a custom Claude Cowork plugin to manage Google Ads at @AnthropicAI. it connects to the Google Ads API via MCP, encodes my common paid search workflows into skills, and works on desktop and Dispatch.
English
154
339
4.2K
1.3M
Garf
Garf@garfunklett·
爱看怀旧小短片。这部天津旧影,怀旧倒是其次,百分之八十都在吃包子……属实有点地域歧视了吧……【90年代天津纪录片-哔哩哔哩】 b23.tv/bX1evaG
中文
0
0
0
98
Garf
Garf@garfunklett·
@AYi_AInotes Claude 最起码100的。公司的话,照着上千花
中文
1
0
3
2.3K
AYi
AYi@AYi_AInotes·
说个暴论:下一个十年,属于一人公司(OPC)的时代,已经彻底来了。 传统创业的游戏规则,已经被AI和开源工具砸得稀碎。 这张清单,就是一人公司的完整基建包,把一家互联网公司需要的全栈能力,给你列得明明白白: • Claude:写代码,搞定全栈开发,每月20美元 • Supabase:后端服务,免费 • Vercel:部署上线,免费 • Namecheap:域名,每年12美元(平摊到每月1美元) • Stripe:支付系统,按交易抽成2.9% • GitHub:版本控制,免费 • Resend:邮件服务,免费 • Clerk:用户认证,免费 • Cloudflare:DNS解析,免费 • PostHog:数据分析,免费 • Sentry:错误监控,免费 • Upstash:Redis缓存,免费 • Pinecone:向量数据库,免费 算下来,一个人启动一家完整的、能跑通商业闭环的公司,每月固定成本只要约20美元。 以前你要开公司做产品,得先组团队、融资金、搭基建。开发、运维、产品、运营、财务,光人力成本一个月就要几十万,还没算服务器、软件的固定开销。 现在倒好,所有这些公司职能,全被AI和SaaS工具打包成了“一键即用”的服务,90%以上都是免费的。 你一个人,就是CEO、产品经理、全栈开发、运营、财务。 不需要融资,不用稀释股权,不用看投资人脸色; 不需要团队,不用搞管理内耗,不用应付办公室政治; 你只需要找到一个能解决用户痛点的需求,把产品做出来,然后收钱。 一人公司的核心,从来不是“一个人干所有活”,而是“一个人掌控所有的决策权和100%的利润”。 它不是小打小闹的副业,是未来十年,最适合普通人的商业形态。 以前创业,是你要凑齐所有条件,才能拿到入场券。 现在创业,是你只要敢动手,20美元就能开干。 从来没有哪个时代,能让一个普通人,用这么低的成本,完全掌控自己的全部商业价值。 你不需要再等别人给你机会,你自己,就是一家公司。
AYi tweet media
Vivo@vivoplt

- Claude = coding. ($20/mo) - Supabase = backend. (Free) - Vercel = deploying. (Free) - Namecheap = domain. ($12/yr) - Stripe = payments. (2.9%/transaction) - GitHub = version control. (Free) - Resend = emails. (Free) - Clerk = auth. (Free) - Cloudflare = DNS. (Free) - PostHog = analytics. (Free) - Sentry = error tracking. (Free) - Upstash = Redis. (Free) - Pinecone = vector DB. (Free) Total monthly cost to run a startup: ~$20 There has never been a cheaper time to build.

中文
122
986
3.4K
388.5K
Garf retweetledi
Garry Tan
Garry Tan@garrytan·
I just launched /office-hours skill with gstack. Working on a new idea? GStack will help you think about it the way we do at YC. (It's only a 10% strength version of what a real YC partner can do for you, but I assure you that is quite powerful as it is.)
Garry Tan tweet media
English
190
437
3.7K
943.5K
Garf retweetledi
Dr.Wang
Dr.Wang@HotmailfromSH·
日本儿童性教育科普动画片「生命的诞生物语」 这个拍的真好!中国也应该有类似的初级性科普教育短片。简洁的动画线条和柔和的色调,很唯美且易于接受……
中文
42
610
2.4K
277K
Garf retweetledi
0xAA
0xAA@0xAA_Science·
我已经用上了 Claude Code 的 Telegram 插件,巨 TM 丝滑。龙虾危 ⚠️ Claude Code 连接 Telegram 方法: 1. 在 Telegram 上 DM @BotFather (这是生成所有 telegram bot 的地方),输入 /newbot ,然后输入你给bot起的用户名,不能和别人的重复,必须以 bot 结尾,然后他会给你返回一个 token,类似 123456789:AAHfiqksKZ8... 2. 在 CC 上安装 Telegram Plugin,官方给的方法是在 CC 里面输入 /plugin install telegram@claude-plugins-official 。但我没成功,是输入 /plugin ,然后在插件市场找到的,名字就是 telegram。 3. 把刚才拿到的 Telegram token 给插件,在cc里 输入 /telegram:configure 123456789:AAHfiqksKZ8... ,或者直接跟 Claude code 对话,让它帮你配置。 4. 重启 claude code,命令: claude --channels plugin:telegram@claude-plugins-official ,这时你在 cc 可以使用 /telegram 了。 5. 和TG机器人配对:私聊你的机器人(搜你刚才填的 bot 用户名),它会回复你一个6位数的 pairing code。在 CC 中填入 /telegram:access pair ,进行配对。配对成功后,CC会给你发一条消息。 6. 给TG机器人加锁:使用 /telegram:access policy allowlist 让它仅能跟你配对的tg账户对话,其他人不能。 7. 开始在 TG 上和 CC 对话吧! 链接: github.com/anthropics/cla…
Thariq@trq212

We just released Claude Code channels, which allows you to control your Claude Code session through select MCPs, starting with Telegram and Discord. Use this to message Claude Code directly from your phone.

中文
101
251
1.4K
272.8K
Yang Yang
Yang Yang@YangYan60107172·
今天参观了McMaster University。一个是Campus Tour,一个是Engineering Department Tour。 儿子的感受是:校园比滑铁卢漂亮,更有生活气息。工作人员也非常的友善。宿舍的面积真小。校园里各种肤色的人都有。不像滑铁卢的工程系里只有印度裔和华裔。
Yang Yang tweet mediaYang Yang tweet mediaYang Yang tweet mediaYang Yang tweet media
中文
23
0
63
7.7K
Garf
Garf@garfunklett·
@D__cup 巴西,阿根廷,好多打kof的
日本語
0
0
0
25