老熊
6.4K posts


酷,上交大和阿里开源的一款AI多模态故事生成系统:MM-StoryAgent,多模态、多智能体框架
可以自动生成包含文字、图像以及多声道音频(旁白、音效、背景音乐)的故事视频,可用于儿童故事快速创作
故事生成采用多阶段写作流程,模拟专家和新手作家对话来优化故事质量,先生成故事大纲,再扩展为完整章节
框架中设计了多个智能体,把原始故事文本转换为模态特定的提示,通过“修订-审核”机制迭代优化提示,确保文本内容与不同模态的一致性,以及图像生成部分的角色一致性
#故事生成模型 #MMStoryAgent
中文





















