Codatta中文社区
370 posts

Codatta中文社区
@Codatta_China
构建 AI 的知识协议层,让你的知识数据变成你的资产 @codatta_io
Joined Temmuz 2013
8 Following727 Followers

祝贺亚洲首个「以太坊社区中心」正式落成!🎉
Codatta 将作为圆桌嘉宾参与本次活动。
期待在现场与各位 Builder 们交流连接!
Hong Kong Ethereum Community Hub@ethereumhkhub
Asia’s first☝️Ethereum Community Hub is opening. Backed by @EFetheverywhere (@ethereumfndn) Operated by @snzholding & @Ethtao_Ethtao A milestone for Ethereum in Asia. Expect: 1⃣Core ecosystem voices 2⃣Leading institutions & builders 3⃣Real conversations on applications & adoption Join us during 🇭🇰Web3 Festival. See what’s next for Ethereum in Asia. RSVP👉luma.com/uf5v6joa
中文

Codatta 的数据不止“存着”——它持久、私密、访问极快! 我们把去中心化真源与云端热路径融合,再叠加安全计算,让每字节数据都绑定贡献指纹(CF)和数据集版本,来源永远可追溯。
工作原理如下:
存储:载荷在写入前即完成加密,内容哈希与 CID 永久锚定在 Arweave、IPFS/Filecoin 等去中心化网络作为不可变真源,同时镜像到 S3/GCS/OSS 提供低延迟访问。
核心原则:内容引用永不改变,缓存层只镜像策略允许的字节。
计算:两种隐私优先模式
- TEE 飞地:按需进行脱敏、特征提取等变换,无需暴露原始数据
- 联邦式运行:数据留在本地孤岛,仅传输模型更新
服务:访问网关在任何数据交付前强制执行角色/属性/令牌策略,同时生成计量事件用于审计与精准计费。
结果:相同数据集版本的相同请求,永远产生一致的计量轨迹,可完全重放、可审计、可追溯!真正实现 Web3 真源 + Web2 性能 + 端到端隐私保护的混合架构。
📖 完整文档:docs.codatta.io/cn/core-system…

中文

Data on Codatta doesn't just live somewhere — it's encrypted, anchored, and served through a layered architecture designed so that provenance is never broken.
Here's how it works. 🧵
Storage: Every payload is encrypted before storage. Content hashes and CIDs are anchored to decentralized networks (Arweave, IPFS/Filecoin, BNB Greenfield) as the source of truth, then mirrored to cloud hot paths (S3, GCS, OSS) for low-latency access. The key principle: content references never change — caching layers only mirror permitted bytes.
Compute: Two patterns for secure processing:
- TEE enclaves — per-request transforms (redaction, feature extraction) without exposing raw data
- Federated runs — training across isolated data silos; data stays local, only updates transfer
Serving: An access gateway enforces role, attribute, and token-based policies before any data moves. Every request generates metering events, logged for audit and billing alignment.
The result: identical requests against the same dataset version always produce identical metering trails. Replayable by design.
📖 Read the full docs: docs.codatta.io/en/core-system…

English

这才是真正将数据变成资产的意义 —— 它不再只是一个文件,而是一个带版本、可证明、归因到每位贡献者的记录,你可以从其历史的任何时间点进行审计。
完整文档请见:
docs.codatta.io/en/core-system…
中文

Codatta 数据集系列(6):大模型失败案例
大模型不仅会犯错,它们会自信地犯错。错误的对称性原理、有缺陷的数列推理、前后矛盾的逻辑。最危险的错误,不是模型表示"不确定"的那些,而是那些听起来完全正确的回答。
LLM-Failure-Cases 是 Codatta 在 @huggingface 上开源的数据集,来源于 Airdrop Season 1 期间收集的真实对抗性提交。贡献者找到了让主流大模型翻车的提问,并为每个失败案例附上了专家点评,解释错在哪里、为什么错。
✨ 有什么不同:
模型级追踪:每条失败案例标注对应模型(GPT-4o、Gemini、Claude 等)
专家点评:不只是标出错误答案,而是解析错误背后的原因
多领域覆盖:物理、数学、逻辑、科学、语言理解
双语支持:中英文
🛠️ 适用任务:
✅ 模型评估与红队测试
✅ 幻觉现象研究
✅ RLHF 训练数据
✅ 专家评审分析
📊 探索并下载数据集:huggingface.co/datasets/Codat…
🤝 参与共建 LLM 纠错数据集:app.codatta.io/app/frontier/8…

中文

大多数链上数据生态系统只会告诉你“发生了什么”。Codatta 的数据血统(Data Lineage)将向你展示“为什么这很重要”——并确保价值能够回流给每一位创造它的人。
Codatta 平台即将上线:对每一个数据资产提供透明、不可篡改的可视化——从它在链上被验证的那一刻起,经过组装成数据集,直到它产生的具体支付事件。
在 @base 链上构建。每一次贡献都被完整记录。

中文

Codatta 数据集系列 (5):RoboManip-Traj-Demo 🤖
具身智能(Embodied AI)最大的瓶颈并非算法,而是高质量数据的极度稀缺。
RoboManip-Traj-Demo 是 Codatta 在 @huggingface 上开源的数据集,专为具身智能和计算机视觉研究设计。
它专注于机器人操作轨迹,提供高精度操作数据和细粒度标注。凭借高精度的空间坐标以及丰富的事件/姿态标注,该数据集有力支持以下下游任务:
• 轨迹预测
• 关键帧提取与事件检测
• 细粒度机器人控制
• 物体交互分析
📊 查看 & 下载数据集:huggingface.co/datasets/Codat…
🤝 帮助我们共同构建下一代 AI 数据集:
app.codatta.io/app/frontier/R…

中文

