Dennis Thompson

36 posts

Dennis Thompson

Dennis Thompson

@aoliloe

Katılım Aralık 2016
44 Takip Edilen3 Takipçiler
叫我阿杭
叫我阿杭@Astronaut_1216·
我现在明显感觉国内的算力已经不行了 当时GLM 48块钱包季 现在48块钱你都用不了一天 一些基础套餐现在都在加价 ROI打不正了,大厂一定会越来越缺钱 裁员也越来越迫切
中文
22
6
173
59.4K
Dwayne
Dwayne@CtrlAltDwayne·
What an absolute disgrace. @Zai_org has doubled its subscription prices COMPLETELY ANNOUNCED. Nothing in its Discord, nothing on its website. No announcement on its account here. Just jacked them up without notice.
Dwayne tweet mediaDwayne tweet media
English
91
13
294
86.1K
Dennis Thompson
Dennis Thompson@aoliloe·
@RyanLeeMiniMax I fully understand and support your decision. Allowing free downloads, local runs, research, and non-commercial use is already generous. Requiring a license for commercial hosting services (especially low-quality or fake instances) is responsible.
English
0
0
0
60
Dennis Thompson
Dennis Thompson@aoliloe·
@antonioleivag Maybe they're like, 'If the nerfed Claude code can go for that price, why can't I? And GLM gives you several times the usage quota of Claude.'
English
0
0
0
154
Antonio Leiva
Antonio Leiva@antonioleivag·
En un giro de los acontecimientos que no me esperaba, parece que las empresas chinas están empezando a copiar los planes de las americanas. Por lo visto z\.ai, la empresa detrás de los modelos GLM, ha duplicado los precios de sus planes de un día para otro. Esto sí que es un problema, si no podemos tirar de modelos chinos cuando los americanos quieran subir sus precios hasta niveles infinitos.
Antonio Leiva tweet media
Español
65
20
246
37K
Jahir Sheikh
Jahir Sheikh@jahirsheikh8·
Want to be a Strong AI Engineer (not just prompt user)? Please learn: 1. Transformer Internals: Self-attention math, KV caching, Positional encodings (RoPE, ALiBi), Scaling laws 2. Tokenization Deep Dive: BPE vs Unigram, Token distribution effects, Context window limits 3. Embedding Systems: Cosine vs Dot product, HNSW/IVF indexes, Recall vs Latency trade-offs 4. Advanced RAG Systems: Hybrid search (BM25 + vectors), Re-ranking (cross-encoders), Query rewriting 5. Context Engineering: Chunking strategies, Sliding windows, Compression, Context prioritization 6. Inference Optimization: Quantization (INT8/4), KV cache reuse, Batching, Speculative decoding 7. Serving Architecture: vLLM, TensorRT-LLM, Throughput vs Latency tuning, Autoscaling GPUs 8. Fine-tuning Techniques: LoRA, QLoRA, RLHF, DPO, Instruction tuning pipelines 9. Agents (Real Systems): Tool calling, Planning vs Reactive agents, Memory (short vs long-term) 10. Evaluation Systems: LLM-as-judge pitfalls, Human evals, Golden datasets, Regression testing 11. Data Engineering for LLMs: Deduplication, Data filtering, Synthetic data generation 12. Failure Modes (Deep): Hallucinations, Retrieval miss, Prompt injection, Model collapse 13. Guardrails & Safety: Output validation, Moderation layers, Policy enforcement 14. Cost Engineering: Token budgeting, Model routing, Caching strategies 15. Multimodal Systems: Vision-language models, Audio pipelines, Cross-modal embeddings
English
18
4
50
1.2K
我要偷月亮
我要偷月亮@Qing_Yang_·
@skywind3000 GLM需要的话,我直接给你推官方客服,找她买就行,不用抢
中文
5
0
2
935
LIN WEI
LIN WEI@skywind3000·
我抢了一周腾讯云和 glm 的 coding plan,每天早上十点正准时开抢,就是抢不到,十多秒就没了,好几天操作到一半就失败了,不知道有没有平替?
中文
48
2
36
27K
Dennis Thompson
Dennis Thompson@aoliloe·
@xiangxiang103 哈哈哈,claude code 我不用最强的 opus 和他的工具我还用他干啥呢?
中文
0
0
0
38
雨哥向前冲
雨哥向前冲@xiangxiang103·
🛡️ Claude Code MAX 计划用户必读:如何避免「隐形 token 消耗」? 最近很多 MAX 20x / 5x 用户反馈: 「明明没怎么用,周二就用掉 50%-77% 的额度」「以前够用一周,现在两天就见底」。 Anthropic Claude Code 团队成员亲自发帖求助调试,核心结论来了: 大部分「莫名其妙耗尽」都不是 Bug,而是这些隐形消耗在作怪。 1. 头号杀手:Subagents(子代理) • 每启动一个 subagent(包括 Task 工具、Plan/Explore 代理、自定义子任务),都会单独计为一个新 session。 • 它们不共享主上下文,每个子代理独立消耗大量 tokens(动辄几十万甚至上百万)。 • 真实案例:某用户一周内 169 个 subagent 消耗了 2.26 亿 tokens,平均每个 session 高达 85 万 tokens。 • 节省Tips: ◦ 只在真正需要并行/复杂分解时用 subagent。 ◦ 让子代理用更便宜的模型(如 Haiku),而非默认 Opus。 ◦ 完成后及时 /compact 或结束 session。 2. 第二大杀手:自动化后台任务(Cron / Recurring Scripts) • 一个每 5 分钟跑一次的「监控脚本」,看似每次只用几千 tokens,但一天下来就爆炸。 • 部署 watcher、自动 deploy 脚本、自定义 harness(Hermes、Pi agent 等)最容易中招。 • 即使你没主动操作,它们也在默默吃你的订阅额度。 • 自查方法:运行 Kieran 分享的 token 分析脚本(GitHub Gist),立刻看到 sessions 数量和子代理消耗分布。 3. 其他常见隐形消耗 • Agent Teams / 多代理协作:每个 teammate 都有独立上下文,整体消耗可达普通 session 的 7 倍以上。 • 频繁上下文切换:在多个项目间跳来跳去,每次切换都会重新加载大量历史。 • 第三方工具:OpenClaw、自定义 MCP、自动化 harness 等,可能占用你的订阅额度(部分不支持订阅追踪)。 • 长会话未 compact:历史越长,每次新消息都要重新处理全部上下文,消耗呈指数级增长。 缓存(Prompt Caching)基本不是主因,团队已确认大家别过度归因于此。 实用自救指南(强烈推荐) 1. 立即运行 token 分析脚本: ◦ Kieran 的原脚本:gist.github.com/kieranklaassen… ◦ 社区 CLI 版本:npx claude-token-analyzer 或 npx cc-lens(可视化仪表盘,更直观) 2. 日常好习惯: ◦ 养成用 /compact 总结会话。 ◦ 用 /memory 或 CLAUDE.md 管理长期知识,减少重复读取文件。 ◦ 简单任务切换到 Haiku 模型。 ◦ 关闭不必要的后台 cron / watcher。 ◦ 不同任务开新 session,避免历史膨胀。 3. 进阶技巧: ◦ 设置 MAX_THINKING_TOKENS 限制思考步数。 ◦ Agent Teams 等重度功能,视情况考虑是否移出订阅额度使用。 一句话总结: Claude Code 没在偷偷吃你的 tokens,是你的 workflow 在「默默烧钱」。用好分析工具 + 优化习惯,能轻松省下 50% 甚至更多额度。
Thariq@trq212

I want to do a few more of these calls. If your MAX 20x plan ran out of tokens unexpectedly early and you're willing to screenshare and run some prompts through Claude Code please comment. Trying to figure out how we can improve /usage to give more info.

中文
16
17
124
31.7K
宝玉
宝玉@dotey·
DeepSeek 下一代模型 V4 将跑在华为芯片上。 据 The Information 今天报道,DeepSeek 专门推迟了 V4 的发布时间,花了几个月和华为、寒武纪合作,重写了模型底层代码的部分模块,确保 V4 能在华为最新的昇腾(Ascend)芯片上流畅运行。模型预计未来几周内发布。 华为这颗芯片是今年 3 月刚亮相的昇腾 950PR,搭载在 Atlas 350 加速卡上。单卡算力号称是英伟达 H20(目前对华出口合规版本)的 2.87 倍,配备 112GB 显存,内存带宽 1.4 TB/s。更关键的是,它是目前中国唯一支持 FP4 低精度推理的 AI 芯片,FP4 格式能大幅压缩模型对显存的需求,比如一个原本需要 140GB 显存才能跑的 700 亿参数模型,用 FP4 只需要 35GB,同样的硬件能部署更大的模型,或者同时处理更多请求。 不过代价也不小:功耗 600W,大约是 H20 的两倍。 按行业惯例,AI 公司在发布大模型前会提前把模型给英伟达、AMD 等芯片厂商做性能优化。DeepSeek 这次打破了这个惯例,没有给美国芯片厂商提供 V4 的早期访问权限,而是把机会独家给了华为和寒武纪。 The Information 的报道还透露,DeepSeek 目前还在开发两个 V4 变体版本,分别面向不同的能力侧重,同样基于国产芯片。 据英国《金融时报》此前报道,DeepSeek 曾尝试用华为昇腾芯片训练推理模型 R2,但遭遇了反复失败,包括稳定性问题、芯片间互联速度慢、软件工具链不成熟等,最终不得不退回英伟达硬件做训练,华为芯片只用于推理。 V4 能直接跑在华为芯片上,说明过去这段时间软硬件适配取得了实质进展。对中国 AI 行业来说,这是从"离不开英伟达"到"至少推理环节可以用国产替代"的一步。对开发者而言,如果 V4 的性能确实如传闻所说在长上下文编程任务上能和 Claude、ChatGPT 掰手腕,那未来通过国产算力就能用上前沿模型,不用再担心美国芯片出口管制的影响。
Amir Efrati@amir

🐳DeepSeek delayed its V4 model release so it could run on Huawei's chips. important milestone for China

中文
64
36
374
163.1K
何夕2077
何夕2077@justlikemaki·
OpenAI 核心成员投奔 DeepSeek 了。 willdepue 在 OpenAI 干了快三年,现在要去杭州搞'中国式 AGI'。 这信号比融资新闻狠多了——人才流向才是真风向标。 当美国还在纠结 AI 出口管制,中国团队已经把前 OpenAI 的人拉去杭州写代码了。 AGI 竞赛的剧本要改写了。 #DeepSeek #AGI #AI
中文
1
0
1
252
象牙山刘能
象牙山刘能@disksing·
codex的口头禅里面,收口落盘什么的有点突兀但还是很好理解的,我觉得最神奇的应该是'吃',似乎任何两个东西都可以互相吃……
象牙山刘能 tweet media
中文
22
5
82
16.4K
Dennis Thompson
Dennis Thompson@aoliloe·
@unixzii 我感觉大部分人吹只是为了蹭流量吧,天天不是什么死了就是什么爆了🤡
中文
0
0
3
1.9K
Cyandev
Cyandev@unixzii·
所以现在大家又开始吹 Cursor 是因为它新 UI 跟 Codex 一样没有编辑器了是吗?看来产品还是要做减法,少即是多 😇
中文
15
1
93
34K
大梦想家迪士尼
大梦想家迪士尼@discountifu·
其实 Anthropic 不停封杀账号全额退款但又允许注册新账号的目的就是让中国开发者能够使用最先进模型的同时又无需向美国公司付款,从而达成帮助中国AI赶超美国的伟大共产主义理想🤡 以历史的眼光看 Dario 就是AI领域的白求恩😀
中文
29
8
541
88.6K
Ballaz
Ballaz@MrBallaz·
Holy shit. I'm cancelling my Google pro subscription. Antigravity has been so unusable lately. If you had $20, which of these subscriptions would you choose? -Cursor pro -ChatGPT pro (Codex) -Claude pro (Claude code) -Stay with Google pro (Antigravity)
English
306
11
319
53K