Garf

7.2K posts

Garf

@garfunklett

细节强迫症，梦想糙快猛。

Toronto, Ontario Katılım Aralık 2009

1.1K Takip Edilen595 Takipçiler

Garf@garfunklett·2d

记录一下，这他妈也叫官媒。臭傻逼

The White House@WhiteHouse

Bye-bye 👋

中文

Garf retweetledi

朱峰@zhufengme·18 May

ZXX

145

108

2.4K

590.8K

Garf retweetledi

Berryxia.AI@berryxia·12 May

刚刷到CJ Zafir 发了一条关于 fine-tuning 小模型的帖子，看下来觉得这波建议特别实在。他直接说，如果你也喜欢玩开源模型 fine-tuning，那先听听这些：从 1B、2B、4B、8B 这些小模型开始练手，别一上来就冲 27B 以上。云 GPU 用 Google Colab Pro 就够了，A100 80GB 一小时才 0.6 美元左右，小模型完全够用。数据集自己造，用 Codex 5.5 先规划，再配 DeepSeek v4 Pro 生成每一行数据。底座模型推荐 Unsloth 的 instruct 版本，Hugging Face 上直接拉，fine-tuning 笔记也用他们的做参考，直接丢给 Codex 让它帮你改成你想要的配置。他建议花一天时间把这些东西过一遍：SFT、RL 训练（GRPO、DPO、PPO 这些）、LoRA / QLoRA、量化类型、本地推理引擎（llama.cpp）、KV cache 和 prompt cache。他说就直接上手吧，Claude、Codex、ChatGPT 都能给你设计第一步的完整计划。最后他还提到，未来技术会越来越往 5B 到 15B 的 Expert Language Models 走，并非一味堆通用大模型，所以 fine-tuning 这门手艺现在学特别值。很多公司愿意花 5 万美元以上，让你帮他们用自家数据训个性化模型。整条帖子的意思就是：fine-tuning 其实谁都能入门，调模型、测模型、用模型，慢慢就能把这变成一份靠谱的事业。感兴趣的可以看看，还挺有意思。

CJ Zafir@cjzafir

If you love fine-tuning open-source models (like me), then listen. > Start with 1B, 2B, 4B, and 8B models. (Don't start with a 27B model or bigger at first.) > Use WebGPU providers. I use Google Colab Pro for any model smaller than 9B. A single A100 80GB costs around $0.60/hr, which is cheap. Enough for small models. > Don’t buy GPUs unless you fine-tune 7 to 10 models. You'll understand the nitty-gritty in the process. > Use Codex 5.5 × DeepSeek v4 Pro to create datasets. Codex to plan, DeepSeek v4 Pro to generate rows. > Use Unsloth's instruct models as a base from Hugging Face. Yes, there are others too, but Unsloth also provides fast fine-tuning notebooks. > Use Unsloth's fine-tuning notebooks as a reference. Paste them into Codex, and Codex will write a custom notebook with the configs you need. > Spend 1 day learning about: - SFT (supervised fine-tuning) - RL training (GRPO, DPO, PPO, etc.) - LoRA / QLoRA training - Quantization and types - Local inference engines (llama.cpp) - KV cache and prompt cache > Just get started. Claude, Codex, and ChatGPT can design a step-by-step plan for how you can fine-tune your first AI model. Future tech is moving toward small 5B to 15B ELMs (Expert Language Models) rather than general 1T LLMs. So fine-tuning is an important skill that anyone can acquire today. Tune models, test them, use them. Then fine-tune for companies and make a career out of it. (Companies pay $50k+ to fine-tune models on their data so they can get personalized AI models.) Shoot your questions below. I'll be sharing in-depth raw findings about this topic in the coming days.

中文

112

572

75K

Garf@garfunklett·10 May

@jaywcjlove 司机爬出来

中文

902

小弟调调@jaywcjlove·10 May

极限侧方停车出入库教学专业教练实战演示，建议收藏！

中文

103

1.8K

88.7K

Garf retweetledi

Jason Zhu@GoSailGlobal·5 May

Stanford CS336 上，Tatsu 讲了一节 LLM 架构课，把过去 3 年所有主流 LLM 拆开，看它们的共通模板结论挺爆：90% 的架构选择已经收敛，你随便挑一个开源大模型，它跟其他模型在这些维度上几乎一模一样讲师的原话 - 2024 年大家都在 cosplay Llama2 - 2025 年的主题是「怎么训得不崩」 - 2026 年的主题是「怎么扛住长上下文」下面是 2026 年开源 LLM 的标准模板你训自己的模型可以直接抄【架构层已经收敛的 7 件事】 1）Layer Norm 挪出残差流（pre-norm）原版 Transformer 把 LN 放在残差里几乎所有现代模型都挪到外面原因：keep your residual stream clean 梯度反传更稳 2）RMS Norm 替代 LayerNorm LayerNorm 的减均值 + 加 bias 那部分实际没怎么帮上忙丢掉之后 flops 只省 0.17% 但运行时省到 25% （瓶颈在数据搬运计算反而次要） 3）所有 bias 项全删跟 RMS Norm 一个道理系统层省内存搬运 4）激活函数用 SwiGLU 或 GeGLU gated linear unit 几乎所有现代模型都用 Llama 系 / Qwen / Mistral 用 SwiGLU Google 系（Gemma / T5）用 GeGLU 区别极小选哪个都行 5）位置编码用 RoPE 2024 年之后基本统一了原理：把每对维度按位置旋转一个角度让 inner product 只依赖相对位置 6）Transformer block 串联（不是并联） GPT-J / Palm 试过并联现在基本被放弃串联的实现优化得太好了并联省的那点系统开销不值得损失表达力 7）Layer norm 可以「撒」哪儿不稳就在哪儿加 LN attention 之前能加之后能加两边都加（double norm）也可以现代模型很多这样做【超参数已经收敛的 5 个数】 1）feedforward 维度 / hidden 维度 - 非 GLU 模型：4 倍 - GLU 模型：8/3 ≈ 2.67 倍（因为 GLU 多一组矩阵要保持总参数量） - Llama 系：3.5 倍 - T5 1.0 试过 64 倍后来 T5 1.1 改回标准别学 2）head 数 × head 维度 ≈ hidden 维度几乎所有模型都遵守 T5 是为数不多的例外 3）模型纵横比（hidden / 层数）≈ 100 太深 pipeline parallel 难做太宽表达力受限 100 这个数字是系统约束 + 表达力的平衡点 4）vocab size 单语模型：30K 左右（早期 GPT-2 那种）多语 / 通用模型：100K-200K（GPT-4 / Llama 3 / Gemma 都在这个范围）现代基本都是后者 5）weight decay 仍然普遍使用但研究发现它在 LLM 里干的事其实是优化器干预让你最终能收敛到更深的最优点跟你想的「防过拟合」没什么关系所以别因为「单 epoch 不会过拟合」就把它关掉【稳定性三个救命 trick】训练大模型最怕中途 loss 突然飙升然后 NaN 全军覆没现代模型用三个 trick 防这件事 1）Z-loss output softmax 的 normalizer 容易爆加一个 (log Z)² 的正则项让 Z 始终接近 1 DCLM / Olmo 都用 2）QK norm attention 的 Q 和 K 在矩阵乘之前各加一个 LN 让 softmax 的输入永远是单位尺度 multimodal 圈先用起来现在所有大模型都加 3）Logit soft cap（仅 Google 系） attention logit 用 tanh 硬封顶 Gemma 2/3/4 都在用但会损失一点点性能慎用【Attention 两个新趋势】 1）GQA（Grouped Query Attention）几乎统一原版 multi-head 推理时 KV cache 会让算术强度崩到 1/h GQA 共享 K 和 V 但保留多个 Q 表达力几乎不损失推理成本砍掉 80% 现在所有要做生产部署的大模型没有不用 GQA 的 2）局部 + 全局 attention 交替处理长上下文的新方式 Cohere Command A 起头现在 Llama 4 / Gemma 4 / Olmo 3 全在用比如每 4 层有 1 层 full attention 其他 3 层是 sliding window 只看附近的 token 比纯 SSM 更稳比纯 full attention 便宜得多（Qwen 3.5 做了变体把 sliding window 那 3 层换成 SSM）收尾一句如果你正在训自己的 LLM，上面这一套就是 2026 年的「默认配置」不需要重新发明，直接抄如果你只是想看懂 GitHub 上那些 modeling_xxx.py 这一份足够你不再被术语吓住

Roan@RohOnChain

Anthropic pays $750,000+ a year for engineers who can build LLM architectures from scratch. Stanford taught the entire thing in 1 hour lecture & released it for free. Bookmark & watch this today before someone takes it down.

中文

589

3.1K

530.8K

Garf@garfunklett·2 May

哈哈，大礼拜六的。这个臭傻逼

The White House@WhiteHouse

President Trump saying WINNING for 1 hour. 🔁 Can't stop, won't stop.

中文

Garf@garfunklett·29 Nis

他们这次双修已经圆满了，我也高潮了。

中文

Garf@garfunklett·28 Nis

菊紧集锦 x.com/zhixialou7292/…

日本語

Garf@garfunklett·18 Nis

教学就得这么做

中文

Garf@garfunklett·15 Nis

@Suozhang_NY 为什么他的头像里，川普少颗牙？

中文

150

所长 🇺🇸🏳️‍🌈@Suozhang_NY·14 Nis

如果这等蛆是加拿大公民，那他的入籍宣誓就是一场诈骗，跑到別的国家，希望被另一个国家吞并，还是那句话，想当美国人想疯了，期盼超个近道，当初拿不到美签，先跑加拿大凑合！

中文

10K

Garf@garfunklett·1 Nis

我正好在 Stanley Park啊，王姐啥时候来的啊……

作家崔成浩@cuichenghao

今天，王祖贤来到温哥华史丹利公园的张国荣纪念长椅，发视频纪念张国荣去世23周年。视频记录了王祖贤与张国荣影视合作的美好回忆。

中文

Garf@garfunklett·1 Nis

@catturd2 Planning to use my private money, flip your house to a public toilet. Good luck.

English

Catturd ™@catturd2·31 Mar

It’s privately funded. Good luck with that.

Pop Base@PopBase

Judge orders Trump to halt construction on his $400 million White House ballroom unless Congress authorizes it.

English

2.9K

1.9K

24.3K

814.1K

Garf retweetledi

austin lau@helloitsaustin·25 Mar

if you're a performance marketer, here's how I use a custom Claude Cowork plugin to manage Google Ads at @AnthropicAI. it connects to the Google Ads API via MCP, encodes my common paid search workflows into skills, and works on desktop and Dispatch.

English

154

339

4.2K

1.3M

Garf@garfunklett·25 Mar

爱看怀旧小短片。这部天津旧影，怀旧倒是其次，百分之八十都在吃包子……属实有点地域歧视了吧……【90年代天津纪录片-哔哩哔哩】 b23.tv/bX1evaG

中文

Garf@garfunklett·22 Mar

@AYi_AInotes Claude 最起码100的。公司的话，照着上千花

中文

2.3K

AYi@AYi_AInotes·22 Mar

说个暴论：下一个十年，属于一人公司（OPC）的时代，已经彻底来了。传统创业的游戏规则，已经被AI和开源工具砸得稀碎。这张清单，就是一人公司的完整基建包，把一家互联网公司需要的全栈能力，给你列得明明白白： • Claude：写代码，搞定全栈开发，每月20美元 • Supabase：后端服务，免费 • Vercel：部署上线，免费 • Namecheap：域名，每年12美元（平摊到每月1美元） • Stripe：支付系统，按交易抽成2.9% • GitHub：版本控制，免费 • Resend：邮件服务，免费 • Clerk：用户认证，免费 • Cloudflare：DNS解析，免费 • PostHog：数据分析，免费 • Sentry：错误监控，免费 • Upstash：Redis缓存，免费 • Pinecone：向量数据库，免费算下来，一个人启动一家完整的、能跑通商业闭环的公司，每月固定成本只要约20美元。以前你要开公司做产品，得先组团队、融资金、搭基建。开发、运维、产品、运营、财务，光人力成本一个月就要几十万，还没算服务器、软件的固定开销。现在倒好，所有这些公司职能，全被AI和SaaS工具打包成了“一键即用”的服务，90%以上都是免费的。你一个人，就是CEO、产品经理、全栈开发、运营、财务。不需要融资，不用稀释股权，不用看投资人脸色；不需要团队，不用搞管理内耗，不用应付办公室政治；你只需要找到一个能解决用户痛点的需求，把产品做出来，然后收钱。一人公司的核心，从来不是“一个人干所有活”，而是“一个人掌控所有的决策权和100%的利润”。它不是小打小闹的副业，是未来十年，最适合普通人的商业形态。以前创业，是你要凑齐所有条件，才能拿到入场券。现在创业，是你只要敢动手，20美元就能开干。从来没有哪个时代，能让一个普通人，用这么低的成本，完全掌控自己的全部商业价值。你不需要再等别人给你机会，你自己，就是一家公司。

Vivo@vivoplt

- Claude = coding. ($20/mo) - Supabase = backend. (Free) - Vercel = deploying. (Free) - Namecheap = domain. ($12/yr) - Stripe = payments. (2.9%/transaction) - GitHub = version control. (Free) - Resend = emails. (Free) - Clerk = auth. (Free) - Cloudflare = DNS. (Free) - PostHog = analytics. (Free) - Sentry = error tracking. (Free) - Upstash = Redis. (Free) - Pinecone = vector DB. (Free) Total monthly cost to run a startup: ~$20 There has never been a cheaper time to build.

中文

122

986

3.4K

388.5K

Garf retweetledi

Garry Tan@garrytan·18 Mar

I just launched /office-hours skill with gstack. Working on a new idea? GStack will help you think about it the way we do at YC. (It's only a 10% strength version of what a real YC partner can do for you, but I assure you that is quite powerful as it is.)

English

190

437

3.7K

943.5K

Garf retweetledi

Dr.Wang@HotmailfromSH·20 Mar

日本儿童性教育科普动画片「生命的诞生物语」这个拍的真好！中国也应该有类似的初级性科普教育短片。简洁的动画线条和柔和的色调，很唯美且易于接受……

中文

610

2.4K

277K

Garf retweetledi

0xAA@0xAA_Science·20 Mar

我已经用上了 Claude Code 的 Telegram 插件，巨 TM 丝滑。龙虾危 ⚠️ Claude Code 连接 Telegram 方法： 1. 在 Telegram 上 DM @BotFather （这是生成所有 telegram bot 的地方），输入 /newbot ，然后输入你给bot起的用户名，不能和别人的重复，必须以 bot 结尾，然后他会给你返回一个 token，类似 123456789:AAHfiqksKZ8... 2. 在 CC 上安装 Telegram Plugin，官方给的方法是在 CC 里面输入 /plugin install telegram@claude-plugins-official 。但我没成功，是输入 /plugin ，然后在插件市场找到的，名字就是 telegram。 3. 把刚才拿到的 Telegram token 给插件，在cc里输入 /telegram:configure 123456789:AAHfiqksKZ8... ，或者直接跟 Claude code 对话，让它帮你配置。 4. 重启 claude code，命令： claude --channels plugin:telegram@claude-plugins-official ，这时你在 cc 可以使用 /telegram 了。 5. 和TG机器人配对：私聊你的机器人（搜你刚才填的 bot 用户名），它会回复你一个6位数的 pairing code。在 CC 中填入 /telegram:access pair

，进行配对。配对成功后，CC会给你发一条消息。

6. 给TG机器人加锁：使用 /telegram:access policy allowlist 让它仅能跟你配对的tg账户对话，其他人不能。

7. 开始在 TG 上和 CC 对话吧！

链接: github.com/anthropics/cla…


Thariq@trq212
We just released Claude Code channels, which allows you to control your Claude Code session through select MCPs, starting with Telegram and Discord. 

Use this to message Claude Code directly from your phone. 中文
101251
1.4K
272.8K

Garf@garfunklett·20 Mar
@YangYan60107172 他们的medical science冠绝加拿大
 中文
20
2
211

Yang Yang@YangYan60107172·20 Mar
今天参观了McMaster University。一个是Campus Tour，一个是Engineering Department Tour。
儿子的感受是：校园比滑铁卢漂亮，更有生活气息。工作人员也非常的友善。宿舍的面积真小。校园里各种肤色的人都有。不像滑铁卢的工程系里只有印度裔和华裔。
 中文
230
63
7.7K

Garf@garfunklett·15 Mar
@D__cup 巴西，阿根廷，好多打kof的
 日本語
00
0
25

大艺术家二福@D__cup·15 Mar
真的是厉害。我在加拿大有个巴西朋友，喜欢玩格斗游戏，我跟他说我来自中国，他问我，你认不认识一个叫xiaohai的，我愣了一下，后来才反应过来
导演BK｜游戏行业幕后@bkingfilm很多人知道，小孩曾在日本拿过拳皇98的世界冠军。
但很多人不知道，送小孩去比赛的上海正阳街机厅，在中国街机格斗历史上，几乎是一个绕不过去的名字。

在那个什么都还不完整的年代，正是像正阳这样的地方，撑起了中国格斗！

#gaming #snk #TheKingofFighters #gamedocumentaries #街机 #格斗 #拳皇
 中文
13
6
1.4K

`Keşfet`

@jaywcjlove @Suozhang_NY @catturd2 @AnthropicAI @AYi_AInotes @elonmusk @BarackObama @taylorswift13