Jacob Palmers

197 posts

Jacob Palmers banner
Jacob Palmers

Jacob Palmers

@JacobPalmerss

Engaged in the investment and Internet. Just personal views-Not financial advice.

Katılım Kasım 2021
419 Takip Edilen37 Takipçiler
Jacob Palmers
Jacob Palmers@JacobPalmerss·
就算未来算力成本就算下降了,是一个分数线一起降的形态,不见得降了就能转化为利润。 客户需要的是时刻进步且不断满足自己业务的AI能力,而基模厂商提供的服务,注定无法完整覆盖需求。 可见再强大基模厂商的商业模式并不好,功夫在诗外。
中文
0
0
1
19
Jacob Palmers
Jacob Palmers@JacobPalmerss·
智谱的训练成本是推理的10倍有多,是研发人力开支的4倍有多。MiniMax的训练成本是推理的5倍有多,是研发人力开支的3-4倍。相同训练成本下,MiniMax的推理成本会更高,这因为MiniMax利润主要来自于应用层,这类业务毛利几乎为0,每赚100亏500。
中文
0
0
0
48
Jacob Palmers
Jacob Palmers@JacobPalmerss·
整体资源处于劣势的情况下,要创造出局部优势。 这是创业公司唯一赢的可能。 战略性以少胜多,实际上就是在某个位置上战术上以多胜少。
中文
0
0
0
22
Jacob Palmers
Jacob Palmers@JacobPalmerss·
@WHIF_official 안녕하세요, WHIF CEO Seugwan님과 AI API 협력 논의 중인 GPTproto의 Jacob입니다. 최근 연락이 닿지 않아 도움 부탁드립니다.
한국어
0
0
0
85
위프(WHIF)
위프(WHIF)@WHIF_official·
🎃 할로윈 이벤트 🎃 🦇 할로윈 코스튬 썸네일 🦇 제작한 캐릭터의 썸네일을 할로윈 코스튬으로 바꾸고 아래 2가지 방법 중 하나로 위프 운영진에게 알려주기 - 디스코드 #잡담 채널에 @bunkerkids_inc.을 태그해서 올리기 - X에 포스팅하고 위프 태그하기 - '베스트 드레서' 선정 후 30,000 위프 지급 🦇 할로윈 미션하기 🦇 - 대상 미션:「네 'Treat'은 나야 :호박등: 최애와의 코스튬 플레이 :키스:」/「미스터리 탈출극 :거미:: 영원히 잠든 저택의 초대」 - 미션별 랭킹 1,2,3위에게 10,000위프 / 5,000 위프 / 3,000 위프 지급 🎃 기간: 10/24(금) ~ 11/3(월)
위프(WHIF) tweet media
한국어
2
11
24
9.9K
Jacob Palmers
Jacob Palmers@JacobPalmerss·
@XDevelopers Love seeing more APIs opening up to developers. From my side, I’ve been working on an AI API platform that focuses on cost efficiency (up to 80% cheaper than official) while keeping official-level stability. Has been super handy for startups and devs like me.
English
0
0
0
10
Developers
Developers@XDevelopers·
Calling all developers! 📣 Innovate with our real-time and historical data on the X API. Get started with Pro👇
English
33.9K
16.5K
75.3K
387.3M
Jacob Palmers
Jacob Palmers@JacobPalmerss·
@dotey 图片领域也许相反,因为图片领域很多细节需要通过文字表达来“明确”,用户脑海中生成的图片越追求“确定性”,提示词的数量也一般越高
中文
0
0
1
383
宝玉
宝玉@dotey·
我一直不觉得系统提示词写超长是好的,最多是特定时期的产物。另外你看 ChatGPT 系列产品的系统提示词,并没有多少,但除了编程方面其他方面都比 Claude 要好一些;Gemini、Grok 也没有太长的系统提示词,系统提示词过长会稀释模型的注意力不见得是好事,即使有 Cache 也会让成本增加不少
Tony出海@iamtonyzhu

可能大家都错了,看到过Claude,cursor的系统提示词都长达几万字,我们是不是需要扩展自己的提示词系统,而不是随便写提示词了? YC重磅揭秘:顶级AI公司是如何“驯服”LLM的?6页+提示词、XML、元提示只是冰山一角! 想让你的AI助手不再“人工智障”,真正成为得力干将? YC最新分享了那些估值上亿的AI初创公司都在用的高级提示工程秘诀。核心思路:把写提示词当成开发核心IP来对待! 深度挖掘顶尖玩家的“提示词秘笈”: 1,顶尖AI公司普遍采用“经理式”提示词。这不再是三言两语的简单指令,而是长达6页以上的详尽文档! 内容细致入微,全面涵盖任务描述、LLM所需扮演的角色、具体限制条件、预期输出格式,甚至包括需要避免的常见错误。这就像为AI“新员工”量身打造的入职培训材料,确保它从一开始就深刻理解目标与边界。 2,“角色扮演”是灵魂:精准定位LLM的言行举止: 明确的角色提示是锚定LLM输出风格和行为模式。一个清晰、具体的人设能让LLM的表现与任务需求高度统一。例如,当你指示LLM扮演一位“经验丰富的客户支持经理”,它会自然地调整语气、采用更专业的措辞,并优先考虑解决用户问题,而不是仅仅给出冰冷的技术回复。 3,拆解复杂任务,引导LLM“步步为营”: 面对复杂的工作流程,不要让LLM一步到位。应该预先定义好任务,并清晰地规划出执行路径,将大任务分解为一系列可管理、可预测的小步骤。通过明确引导LLM逐步完成每一个子任务,可以显著提升其逻辑推理的准确性和整体任务的完成质量。 4,用结构化标签规范输出,告别“格式混乱”: 为了确保LLM输出内容的一致性和可用性,使用Markdown、XML风格的标签或者JSON格式来定义输出结构至关重要。例如,Parahelp公司就巧妙运用了像 这样的自定义标签,来强制LLM按照预设的格式和规范生成响应,便于后续处理和验证。 5,“元提示”:让LLM成为你提示词的“优化大师”: 这是一种非常强大的技巧——利用LLM自身来迭代和优化你的提示词。具体做法是:将你当前的提示词、LLM基于该提示词生成的输出、以及你期望的理想输出(如果有的话)一同提供给另一个(或同一个)LLM实例,然后要求它分析差异、找出问题并提出改进建议。只要给予足够的上下文信息,LLM在自我优化和调试提示词方面能展现出惊人的能力。 6, “少样本学习”的力量:真实案例塑造卓越行为: 通过提供少量高质量的示例(Few-shot prompting),特别是那些包含了挑战性或边缘情况的真实案例,可以极大地提升LLM在特定任务上的准确性和鲁棒性。例如,初创公司Jazzberry会将一些棘手的软件bug报告作为样本喂给LLM,以此来“训练”LLM学习如何更有效地识别和处理类似问题。 7, “提示词折叠”技巧,优雅管理多步骤AI代理: 对于需要多个步骤、多个LLM调用才能完成的复杂AI代理或工作流,可以使用“提示词折叠”技术。这意味着一个初始的、概括性的提示词可以触发生成一系列更深层、更具体的子提示词,每一个子提示词对应工作流中的一个特定环节。这种分层管理方式,让复杂AI系统的构建和维护更加有序和高效。 8,设置“逃生舱口”,让LLM学会“认怂”: 在提示词中明确指示LLM,当它对某个问题不确定或无法找到可靠答案时,应该主动承认自己的局限性,而不是强行编造(即“幻觉”)。这不仅能有效避免错误信息的传播,更能显著提升用户对AI系统的信任感。 9,重视“思维链”与调试信息,洞察LLM的“内心戏”: 要求LLM输出其推理过程的日志(即“思维链”或Thinking Traces)以及相关的调试信息,这对于理解模型是如何一步步得出结论至关重要。这些“内心戏”是诊断问题、优化提示词、以及进行模型迭代的宝贵资料。 10, “评估体系”才是王道:比提示词本身更珍贵的资产: 精心设计的提示词固然重要,但一套完善的评估体系(Evals)——即针对提示词的全面测试用例集合——其价值往往更高。这些测试用例应该覆盖各种常规及边缘场景,用于持续衡量和基准测试提示词在不同情况下的可靠性和稳定性。它们是确保AI应用质量的核心保障。 11, “大小模型协同”策略:兼顾质量与成本效益: 一个非常实用的工程实践是:在提示词的开发和调试阶段,可以充分利用能力更强的大型语言模型进行精细打磨和优化;一旦提示词达到理想效果,再尝试将其“蒸馏”或适配到规模更小、运行成本更低的模型上,用于实际的生产环境。这样可以在保证输出质量的同时,有效控制运营成本,实现效率与效果的最佳平衡。 不能再把提示词当成简单的指令了!像顶级AI公司那样,系统化、工程化地构建和优化你的提示词体系,才能真正释放LLM的巨大潜力,让AI为你创造更大价值!

中文
14
7
128
43.9K
Jacob Palmers
Jacob Palmers@JacobPalmerss·
同样是卖API赚钱,满载负荷Deepseek能做到84%的毛利,70%-80%负载率情况下毛利也在60%-70%,相比之下,外媒拆解国际大厂Openai和Anthropic的毛利区间也在60%-85%之间。 前面说过Deepseek的高毛利全是因为吞吐量高,但国际玩家的高毛利是因为定价高(客户更有钱),理论上它们努力在基建部署层面挤一挤,应该也能挤出很多利润空间。 这个时候或许有个疑问,到底是MaaS模型公司赚钱,还是云服务商更赚钱? 我自己的理解是,拥有自己的先进模型,又拥有云服务业务的公司也许会更赚钱。模型公司解决的永远是研究和技术创新,而云服务商解决的永远是找到规模效应的平衡点(规模过大复杂度高了成本会逐渐上升),在这个生态互相协同的加持下,所谓个人捣鼓、私有云部署的意义也许意义不大,因为在成本性能层面没有任何竞争力,所以越往后这部分的市场份额也许更大部分地转化到公有云的市场份额之上?
中文
0
0
0
63
Jacob Palmers
Jacob Palmers@JacobPalmerss·
算力租赁的生意,就是赚一个固定收入,一个8卡节点就是16美元/小时的单价,但是以前总被人诟病的MaaS服务,在DeepSeek公布了自己的一天的收入数据之后才发现,原来卖API毛利还能做到84%。 按照吞吐量是关键的观点,大型的云服务商才是本次的最佳掮客,在部署环节至少可以做到持平Deepseek和领先路人很多的优势,而在并行计算层面,又能做到领先市场。
中文
0
0
0
49
Jacob Palmers
Jacob Palmers@JacobPalmerss·
Deepseek明确知道,自己的优势在于部署优化和多卡并行计算。 所谓部署优化,就是同一个模型,Deepseek通过自己去部署,和那些拿了开源自行部署的人是有很大区别的,同样是H800节点的部署,Deepseek自己部署的吞吐量是8000+t/s,有人自行部署统计发现自己只有185t/s,接近43倍的差异。 因为算力是按小时租赁或者计算成本的,如果吞吐量大,那么单位时间内能创作的价值就高很多很多。在这个层面,专业部署和自行部署,token收入就相差43倍了。 另外一个层面,如果你卡不够,对于它们MOE的设计,也起不了太大的效果,多卡并行计算,才能发挥最大实力,但这个的重要程度没有部署环节的差异大,而且这个之前有说,在此不表。 要知道Deepseek纵使API价格很低,但是它的满载毛利高达的84%,这里的根本原因就是它能在特定环境实现如此高的吞吐量。
中文
0
0
0
54
Jacob Palmers
Jacob Palmers@JacobPalmerss·
Deepseek公布了自己一个完整24小时内的数据,一天用了5442节点小时,每个节点有8张H800,举个例子,如果10个节点运行了5小时,那么就是50个节点小时,而5442节点小时,你可以理解为就是226个节点运行了24小时,当然实际情况会有峰值低谷,我只是举了个平抑了波动之后的例子。 日输出toekn168B,每个节点吞吐量就是168B/5442/3600=8575 t/s,英伟达自己公布8卡H200部署的满血模型峰值吞吐是3872t/s,要知道H200比H800的就内存容量和带宽都是2倍以上的差异,但ds的吞吐量在H800上还能做到是别人的2.2倍。。 另外Deepseek的平均输出速率21tps,也就是每秒生成21个token,那么并发请求就是168B/24/3600/21=9.26万,你可以理解为,Deepseek的服务集群可以同时处理9.26万个正在进行的对话交互。 Deepseek之前dau2400万,并发率0.38%,但也就是2000张H800就cover住了,但按行业5%的正常并发来看,也就是3万张卡就能覆盖2400万人的无损使用了。这么看也不是很多啊。 最重要是允许咱们采购的H20,在推理场景尤其看重的显存、显存带宽、NVLink层面,都比H800要好啊,最近传闻腾讯的一次采购,都买了十来二十万张H20。。。 你对比一下,对面年底说要搞到2000万张等效H100的规模。。
中文
0
0
0
31
Jacob Palmers
Jacob Palmers@JacobPalmerss·
经过民间很多测试,以及官方数据的披露,对于R1这类推理模型,逐渐找到2个关键点: 第一,在模型部署阶段有优化和没有优化,吞吐量能相差3倍 第二,在大规模并行多卡计算的时候,性能提升很快 第一个关键好理解,专业领域的事还是让专业的人去做。 第二个就有点意思了,因为过去的推理部署倾向于把计算集中在单个GPU上,因为这样子可以避免GPU之间的通信损耗,就算是英伟达自己的NVlink通讯,也会存在一定程度损耗。为什么在R1这种推理模型上效果更好呢? 答案还是MOE。 因为每次推理只激活部分参数,参数少,它的传输压力就没有这么大,如果多卡并行的时候,甚至可以做到每个GPU就是一个专家,剩下的做共享,这就是它速度快的本质原因。 而且深度的推理模型,一般会需要处理长上下文,也就是那些它的思考过程之类的东西,需要占用大量的显存资源,所以KV Cache就变成了主要的瓶颈。多卡并行,那就能多卡分担这些KV Cache,效果更好了。 我举个生活中的例子,有时候电脑用起来很卡,原因就是内存不够,因为你并行要做的事情越来越多了,加些内存条就把事情解决了,很多时候,我们的CPU都是利用率不高的,因为没那么多专业的东西要过载运行。 所以对R1这种推理模型来说,显存压力是头等大事。
中文
0
0
0
22
Jacob Palmers
Jacob Palmers@JacobPalmerss·
峰值吞吐量,也就是最佳状态下每秒处理的token数量,这个是衡量大模型推理性能关键的指标。不断提升峰值吞吐量,且降低其成本,是大模型商业化的关键,因为意味着能在更复杂的情况下,服务更多的用户。 计算方式很简单,就是生成的Token总数/耗时,得出吞吐量(t/s)。 之前英伟达有个报道,就是针对DeepSeekR1 671B满血测试,在相同条件下,吞吐量是3872 t/s,是Llama3.1 405B的6倍左右(Llama3.1 405B是600 t/s),明明671B的参数量比405B的更高,为什么满血跑一个参数更大的模型,反而处理的吞吐还能是别人的6倍? 答案是MOE,对R1来说MOE实际激活的参数只有37B,所以速度当然很快。 为什么要说这个呢?请听我娓娓道来。
中文
0
0
0
29
Jacob Palmers
Jacob Palmers@JacobPalmerss·
Deepseek节后DAU2400万,其中App1300万,算力配置是1万张H800做训练,1万张A100做推理,C端的推理集群4000张A100,理论上能支持的无损用户是500万DAU,如果超了,确实就会遇到系统繁忙。 按这个估算翻10倍,也就是40000张等效A100,可以维持5000万无损DAU,大大超过了春节Deepseek期间的4000万DAU峰值,这里可见推理的算力需求是远低于之前的想象。 结合昨天提到的Manus等类型产品,确实会把算力需求拉高到一定程度,算力的需求确实是大大上涨了,但相对于推理部分的算力需求,并没有想象中这么昂贵。 Deepseek在训练端,是深度绑定英伟达生态的,短期暂无采购国内卡计划,推理端理论上可以认为能用华为910,但是成本是英伟达的2倍,其中原因更多是CUDA优化无法使用,需要重构指令集。 一定程度上,这也表示,通过CUDA做的训练模型,在推理环节用其他卡是存在大约2倍的成本付出,但关键是,就目前推理端的算力推测来算,国内竟然是够用的。短期来看,转换为经营性业务的算力结构,在算力储备上,如果国内够用,那么境外只会多出很多很多。 当然,后面有没有能让推理需求再次飙升几个数量级的应用,也是这件事的关键。
中文
0
0
0
36
Jacob Palmers
Jacob Palmers@JacobPalmerss·
私以为,有几个问题很值得关注和讨论: 英伟达常常被人诟病,说这是周期性行业,业务是脉冲式的,但推理模型发布后,传统意义上重预训练轻推理的算力结构,有一定程度的转变,以前算力更多是被定义为研发投入,毕竟推理需求不高,但现在是否能被定义为经营性投入,这就是问题的关键所在。 就目前来看,训练和推理对于算力的要求并不一致,英伟达的高级卡面向的是解决算力场景的问题,推理场景的卡要求并不高,即便被定义为经营性场景,推理需求的爆炸性上涨,也许只会带动了一般卡的销量,但这与英伟达的核心业务是有所冲突的。 这里又有几个问题可以延展了,预训练肯定会用英伟达的高端卡,但推理环节如果用不是英伟达的卡,效果会打很大的折扣吗?成本会急剧上升?如果不会那么算力平替的场景就有很多。在这里面,0-1的突破确实是最重要的,这也是需要高端算力的环节,但0-1更适合被定义为研发投入而非经营性投入,而1-100才应该被定义为经营性投入。
中文
0
0
0
50
Jacob Palmers
Jacob Palmers@JacobPalmerss·
看完英伟达大摩的这个会议“NVIDIA Corporation (NVDA) Morgan Stanley Technology, Media & Telecom Conference”,里面有几个重点: 英伟达强调后续的推理模型会变得越来越复杂,推理模型是它自己的重要增长趋势,在模型给出最终答案或者成果之前,这些思考过程是需要大量token的,这里就是它们最重要的收入机会,这个计算量和之前我们所认为早期预训练的计算量存在数量级的差异。 其次我们的最新的BlackWell(B系列)芯片销售超出预期,第四季度达到110亿美元,B系列的芯片架构更倾向于是为数据中心去设计的的,专门为大语言模型调优的专用卡,无论是计算性能还是互联速度,都在向更大参数的模型挺进,能实现更低的总体拥有成本。这个点很重要,因为这句话就是说给想搞定制芯片的客户听的。 英伟达的意思就是说,你看我在这个领域混了这么久,有自己的生态,既做集成又做兼容,其实定制芯片落地很麻烦的,要不这样子,我致力于把总体成本降低,比定制的便宜一大截,也许你会觉得继续用我也挺好。 最后说到目前卖给中国的H20芯片,是在出口管制下的低性能产品,大概是目前BlackWell的1/25,目前的出货水平是管制前的一半,不过后面看情况,有必要的话就继续供应,没必要就不搞了。大概意思就是H20这玩意儿性能很低,估计过不了多久他们自己也能造,如果再限制这那的,就干脆不卖了,避免不必要的精力分散和竞争。
中文
1
0
0
213