Han Cheng e/acc
1.9K posts

Han Cheng e/acc
@ashfold
a small startup contributor. doing A.I. things and collaboration tools .
Shanghai शामिल हुए Ekim 2009
2.5K फ़ॉलोइंग858 फ़ॉलोवर्स
Han Cheng e/acc रीट्वीट किया

非常激动宣布,我们打磨了很久很久的更新,她终于来了,不仅有产品,还有 Methods,Benchmark,Usecases 和官网等。
具体更新:
1. EverOS - 新思路,一站式 Agent 创建,测试和集成的开源库,其中包含了多个 Methods,多个 Benchmarks 和很多种 Usecases。
主打一站式服务,用户可用现成的 Methods 魔改 Usecases 成自己的 Agents,然后再用 Benchmark 对其去测试,提升和迭代。
一站式全能王 ,很方便。
2. 新 Benchmark - EvoAgentBench 开源,可以用来测试你自己配置的 OpenClaw Agent,Hermes Agent 和任何 Agent。
当有了中立 benchmark 测试的时候,方才知道谁是好龙虾。
3. 官网更新 - 新版官网,愿景和感觉,配色和调性,品味和新意,拉爆全场,外加新场景,新产品,新交互。
一个字:夯。
4. Academy - 我们是一个学识很强的团队,所以这个板块以后会是我们发过的所有模型,论文,methods 和benchmark 相关。
学就完了。
5. EverMe - C 端的产品,在来的路上,现在已经放出小彩蛋,可以期待期待。
新面貌,新风向,新动力,依然开源。
github.com/EverMind-AI/Ev…
艾略特@elliotchen100
稍微剧透一下,@EverMind 马上会推出一个 Benchmark,可测试 Agent 的能力。 诸位的 OpenClaw 和 Hermes Agent 都可以测测看。
中文
Han Cheng e/acc रीट्वीट किया
Han Cheng e/acc रीट्वीट किया

Turns out we can get SOTA on agentic benchmarks with a simple test-time method!
Excited to introduce LLM-as-a-Verifier.
Test-time scaling is effective, but picking the "winner" among many candidates is the bottleneck. We introduce a way to extract a cleaner signal from the model:
1️⃣ Ask the LLM to rank results on a scale of 1-k
2️⃣ Use the log-probs of those rank tokens to calculate an expected score
You can get a verification score in a single sampling pass per candidate pair.
Blog: llm-as-a-verifier.notion.site
Code: llm-as-a-verifier.github.io
Led by @jackyk02 and in collaboration with a great team: @shululi256, @pranav_atreya, @liu_yuejiang, @drmapavone, @istoica05

English

@RyanLeeMiniMax If you want to operate as a commercial host, you need to pay Minimax to obtain the proper license. The amount you have to pay depends entirely on Minimax’s judgment or market strategy. Am I understanding that correctly?
English

minimax的新模型是很强,但是禁止商用。
可以定性为假开源么?
If open source is not what you willing, just close it.
MiniMax (official)@MiniMax_AI
We're delighted to announce that MiniMax M2.7 is now officially open source. With SOTA performance in SWE-Pro (56.22%) and Terminal Bench 2 (57.0%). You can find it on Hugging Face now. Enjoy!🤗 huggingface:huggingface.co/MiniMaxAI/Mini… Blog: minimax.io/news/minimax-m… MiniMax API: platform.minimax.io
中文























