夏嘉莫察瓦绒

1.9K posts

夏嘉莫察瓦绒 banner
夏嘉莫察瓦绒

夏嘉莫察瓦绒

@minyakonga

余生北国,虽闻飞鱼之名,竟不知其为何物。

Katılım Eylül 2018
530 Takip Edilen177 Takipçiler
窄门通信
窄门通信@wuhao1031·
这两年,有一批人消失了。 他们曾经是这个社会最体面的那群人—— 程序员、产品经理、中层管理、金融从业者。 学历不低,收入不差, 房子买了,孩子生了, 一切看起来都在轨道上。 然后轨道消失了。 裁员通知,N+1, 投了几百份简历, 没有回音。 年龄成了简历上最大的污点。 35岁,在很多HR眼里,不是经验,是风险。 一个男人,从月薪两三万, 到骑着电动车送外卖,中间只隔了一封邮件。 没有缓冲,没有托底, 没有任何人告诉他接下来怎么办。
中文
24
9
215
32.3K
夏嘉莫察瓦绒 retweetledi
李老师不是你老师
李老师不是你老师@whyyoutouzhele·
近日,一名女子反映,其父亲今年2月经中介介绍,从云南省前往滁州一工厂务工。期间被安排在低温环境下睡在宿舍楼道,并长期从事夜班工作,每日工作时长达十余小时。其父随后身体状况迅速恶化,出现全身浮肿等症状。 女子称,厂方在发现其父身体异常后,口头将其辞退,并拖欠近半个月工资。3月19日,其父已出现意识模糊等严重不适症状。厂方人员随后以劝其返乡为由,将其带离厂区并送上车辆。其父下车后不久昏迷,至3月21日凌晨被路人发现并送医,最终经抢救无效死亡。 目前,家属表示事发已近一个月,涉事工厂方面未正面回应相关责任问题,当地警方尚未立案调查。
李老师不是你老师 tweet media李老师不是你老师 tweet media李老师不是你老师 tweet media李老师不是你老师 tweet media
中文
159
67
886
305.3K
雨哥向前冲
雨哥向前冲@xiangxiang103·
疑似 DeepSeek V4 技术报告的 benchmark泄露! 图中 的“DeepSeek-V4 技术报告”基准测试(Benchmark)数据,为我们揭示了当前顶尖 AI 大模型的最新竞争格局。从这份涵盖通用能力、推理数学、代码以及智能体(Agent)四大维度的成绩单来看,DeepSeek-V4 展现出了极强的统治力,而大模型的第一梯队也正在经历重新洗牌。 🏆 竞争格局:当前大模型梯队划分 从图表数据中,我们可以清晰地看到五款参评模型的实力分层: 👑 领跑者:DeepSeek-V4在所有 12 项严苛测试中均斩获最高分(State-of-the-Art),实现了跨维度的全面压制。 🥈 最强追赶者:Gemini 3.1 Pro Preview在多项核心指标上紧咬榜首,并在绝大多数测试成绩中超越了 GPT-5.3,是目前这组对比中最具竞争力的对手。 🥉 第三梯队:GPT-5.3 与 Claude Opus 4.6两者互有胜负,依然保持着极高的水准,但在最顶尖的竞争中已稍显疲态。 📏 基准线参照:GPT-4.1作为较早期模型的代表,其数据在这组对比中全面垫底,但也直观地印证了新一代模型技术跨越的幅度之大。 🔍 四大核心能力深度拆解 🧠 1. 综合常识与学科能力 (General) 核心数据:在极具挑战性的 MMLU-Pro 测试中,DeepSeek-V4 (91.2) 和 Gemini 3.1 Pro (90.0) 是唯二突破 90 分大关的模型。 行业洞察:跨学科的专家级知识问答对头部模型已不再是难题。GPT-5.3 (88.4) 和 Claude (86.7) 在这方面稍显落后,知识密度的竞争正在向 90+ 的极限逼近。 🧮 2. 数学与复杂推理 (Reasoning & Math) 核心数据:顶尖数学竞赛基准 AIME 2025 呈现极度“内卷”的态势(DeepSeek-V4 96.4,Gemini 95.0,GPT-5.3 94.6)。 行业洞察:数学是 AI 进步最神速的领域。90+ 的得分意味着这些模型在解决人类高难度奥数题时已经具备了压倒性的优势,各家在这个领域的差距往往只在几道题之间。 💻 3. 编程与工程能力 (Code) 核心数据:在 Codeforces(算法竞赛平台)上,DeepSeek-V4 飙升至 2767 分,拉开显著差距;但在评估修复真实软件工程 Bug 的 SWE-bench Verified 中,所有模型均未突破 60%(最高为 DeepSeek-V4 的 59.6%)。 行业洞察:“写算法题容易,改人类代码难”。模型在纯逻辑生成上已经达到竞赛级选手水平,但在理解和修改复杂的现实商业代码库时,依然存在明显的短板。 🤖 4. 智能体自主行动 (Agent) 核心数据:在模拟网页浏览和执行任务的 WebArena 测试中,全场最高分(DeepSeek-V4)仅为 58.7,GPT-4.1 甚至低至 44.8。 行业洞察:这是全表绝对得分最低的板块。它反映了当前的行业痛点:大模型“做题”和“写文章”能力极强,但如果让它像人类一样自主操作浏览器、跨应用处理多步骤现实任务,成功率依然堪忧。 💡 核心总结这份基准测试不仅是 DeepSeek-V4 强悍实力的“肌肉秀”,也侧面印证了 Gemini 3.1 Pro Preview 在当前技术路线上的极强竞争力。更重要的是,它为行业指明了下一步的攻坚方向——当模型的知识储备和做题能力逼近人类极限时,突破“智能体自主执行 (Agentic tasks)”的现实应用瓶颈,将是决定下一代 AI 霸权的关键。 仅针对图中数据解读,真实情况还有待验证!
雨哥向前冲 tweet media雨哥向前冲 tweet media
中文
78
37
238
122.8K
夏嘉莫察瓦绒
夏嘉莫察瓦绒@minyakonga·
@dotey 其实感觉下来还是人要作为驾驶员,去决定什么时候如何管理上下文,我就好奇那些harness engineering怎么做到自动管理上下文,怎么自动解决rot问题,怎么保证最终的质量的
中文
0
0
0
127
夏嘉莫察瓦绒
夏嘉莫察瓦绒@minyakonga·
@trq212 I found when calling mcp to analyze the online logs will produce lots of text, is it better to offload the work to a subagent?
English
0
0
0
24
Peter Pang
Peter Pang@intuitiveml·
Why the monorepo debate misses the point A lot of people are debating monorepo vs polyrepo for AI agent harnesses. But the technical choice matters far less than the mindset shift behind it. For years, engineers were trained to stay in their lane: → Backend devs don't touch frontend → Frontend devs don't touch infra → Everyone owns a small service and avoids the rest. Because touching other people's code was risky, slow, and politically expensive. Monorepo scared people because it exposed them to code they "shouldn't" touch. But in an AI-first world? That fear is gone. AI agents help any engineer understand, navigate, and modify unfamiliar code. The barrier to expanding your scope has collapsed. Frontend engineers making backend changes. Backend engineers navigating frontend code. Everyone moving across the full stack. Not because they memorized every framework but because AI makes it possible to operate confidently outside their comfort zone. The question isn't monorepo vs polyrepo. It's whether your team is ready to stop hiding behind narrow ownership and start expanding their scope. The companies that win will be the ones where every engineer is a full-scope engineer.
Peter Pang tweet mediaPeter Pang tweet mediaPeter Pang tweet media
English
6
3
33
5K
momo
momo@tingyuan123·
@whyyoutouzhele 是TPLink这个垃圾公司啊 那就对了 纯纯的垃圾企业
中文
2
0
19
6.5K
李老师不是你老师
李老师不是你老师@whyyoutouzhele·
4月2日,深广东圳,一网友通过劳务中介,入职深圳联洲国际技术有限公司光明分公司,从事普工岗位。 劳务合同上赫然写着:“本劳务合同并非劳动合同,不受《中华人民共和国劳动法》及相关法律法规约束”
李老师不是你老师 tweet media
中文
164
107
1.2K
1.7M
Stanley
Stanley@Stanleysobest·
小米 MiMo 大模型调用量,超过 1 万亿 Token。 什么水平? 手机、汽车、家电行业的友商,有没有一个能追上的?
Stanley tweet media
中文
95
2
64
94K
夏嘉莫察瓦绒
夏嘉莫察瓦绒@minyakonga·
@weiyux2021 不是你妈我都不信,天天我朋友的谁,我亲戚的亲戚,我同学的一个老乡。。。
中文
0
0
0
13
动物园园长
动物园园长@weiyux2021·
中年女性失业的惨状,远比男性更惨烈,我算是亲眼见识了。 我朋友的姐姐,82年生,44岁,北科大热力学硕士,端庄大方完全不显老。2024年春被裁员,到现在快2年,居然一份工作都没找到。 我当初劝她别太挑、别计较待遇,现在才知道有多幼稚。她早就说只要给生活费就干,可两年投了几百份简历,零反馈。 打电话问招聘方,人家说根本没招聘计划,哪怕招聘信息还挂在网上。 找老同学老同事帮忙,全是一样的回复:公司都在裁员,自己都难保,除非能带项目/客户入职。 上个月听我朋友说,彻底放弃重返职场了,准备开个几平米的小早餐店,靠美团接网单赚生活费,再熬下去真的要抑郁了。 她到现在都想不通:业务熟练、精力充沛、外形也不错,怎么就被职场彻底抛弃了? 读了20多年书熬出来的学历和专业,就这么废了? 这个世界到底怎么了?
中文
277
88
1.2K
577.4K
清凤
清凤@qqqqqf_·
DeepSeek V4 会在今天发布,保真
中文
27
2
81
48.3K
夏嘉莫察瓦绒
夏嘉莫察瓦绒@minyakonga·
@HTX_Molly 他妈的垃圾企业一周有两三次半夜被拉起来开会,团队个个熊猫眼
中文
0
0
1
342
火币HTX六爷
火币HTX六爷@HTX_Molly·
我之前就是字节的,作为员工,我最大的感受有4点: 1、人才密度高,国际化强。 通过高薪高福利吸纳了大量全球优质人才,我这种985本科在当时团队算学历低的。 工区遍布全球,用户视角、产品视角都是全球化的。 2、极致的工作模式和对产品极致的追求。 有次我在凌晨1点多反馈了 产品bug,值班人员快速反应,2点多就修好了。 飞书是我至今用过的最好的办公产品,每一个字节人都会自发变成飞书的自来水。 3、简单、清晰、纯粹的工作环境。 1)360匿名打分,绩效考核取决于你的上下游,而不是领导。这意味着,不唯上只唯实,交付价值、合作价值是唯一价值。 之前我部门的负责人就是因为在360环评上被打了低分,无法升职加薪。 在字节都叫同学,或者直呼其名,张一鸣我们也是这样。 这样的环境对全球化的顶尖人才来说非常重要,大家不需要搞关系和内耗。 2)福利健全到员工几乎不需要考虑三餐、健身房、住房等琐事,老员工还有无息贷款。因此人才只需要聚焦在工作上。 4、鼓励内部创业,优秀项目奖金极高 有好的idea就可以发起创业申请,做得越好奖金越高,当时抖音部门年终奖能拿到18个月。字节内部孵化了非常多产品,成了拿奖,不成下一个。 所以,字节:地利人和,只待天时。 最后,字节人文关怀也做的很好,我离职后第一年还给我发了过年红包。今年还给我快递了一个过年包裹,但我还一直没时间去拿。
火币HTX六爷 tweet media
Colin Wu@colinwu

为什么字节跳动能够连续在: 今日头条、抖音(tiktok)、豆包、飞书等产品中轻松战胜传统的中国互联网巨头 BAT,连赢四次?

中文
141
120
1K
450K
夏嘉莫察瓦绒
夏嘉莫察瓦绒@minyakonga·
全他妈是claude code源码解析,人家没公开的时候怎么不解析。
中文
0
0
1
53
夏嘉莫察瓦绒
夏嘉莫察瓦绒@minyakonga·
@karminski3 每次看到总想试试,但是本能告诉我大概率是跑分没输过,实战没赢过
中文
3
0
62
8.9K
karminski-牙医
karminski-牙医@karminski3·
速报一波,GLM-5.1 真的猛,应该是从国产模型SOTA要跃升到真正的全球SOTA了,我的 vector-db-bench 直接刷到了第一,我已经在剪视频了,稍后马上为大家带来GLM-5.1详细评测视频~ (另, GPT-5.4-Pro(xhigh) 真的贵, 为了跑这个昨天干进去150刀....其实也算好消息, 当模型价格比我工资贵, 那它就没太多竞争力了...[允悲]) (测试在这里:vector-db-bench.kcores.com)
karminski-牙医 tweet mediakarminski-牙医 tweet media
中文
84
37
503
169.7K
Kevin Ma
Kevin Ma@kevinma_dev_zh·
用 Claude 写代码、用 Codex 做 Code Review,其实不用开多个窗口来回切。 让 Claude 自己写一个 Subagent(Codex Review Subagent)就行。流程很简单: 1. Claude 写完代码后,让它呼叫一下 Codex Review。 2. 它会自动把提示词丢给 Codex 做 Code Review。 3. 结果回来后,它自己根据 Review 意见修正。 一个窗口搞定,省事。
pepper 花椒@off_thetarget

同一个终端 上面是codex 下面是claude 同一个工程文件,codex负责审核claude写的代码,然后自助交互 - 修改 - 返工 - 通过 太有意思了 匹配机制在一起了

中文
35
96
518
70.6K
Rick 🏴‍☠️
Rick 🏴‍☠️@Rick5767·
关于b站技术方向裁员60%这个事。没工作不可怕。可怕的是可能都背着房贷车贷。被裁可能等于破产和离婚。
中文
1
0
5
1.2K
夏嘉莫察瓦绒
夏嘉莫察瓦绒@minyakonga·
@quarktalksss 虽然我希望他们少拿点,但是这种大部分假消息,你能说说具体哪里什么单位吗
中文
0
0
2
6K
夸克说
夸克说@quarktalksss·
刚跟家里人联系,老家的退休公务员开始降薪了,砍了差不多3000多不到四千,一直都只是听说,现在靴子总算落地了。
中文
358
47
1.1K
562K
夏嘉莫察瓦绒
夏嘉莫察瓦绒@minyakonga·
@MrGafish 很多店铺都倒闭了,今天刚去711买了甩尾货,这是北京啊
中文
0
0
1
269
Mr Gafish
Mr Gafish@MrGafish·
科大讯飞裁员 网易裁员 B站裁员 最近刷到这几家的消息,下一个会是谁?
中文
179
24
691
366.4K