兔展智能与北京大学团队最新成果Open-Sora Plan重磅首发

2024-03-13 来源:深圳新闻网

深圳新闻网2024年3月13日讯(记者 吴炳然)作为AI大模型领头羊公司的OpenAI在今年发布了视频生成大模型Sora,优越的性能震惊了全世界,然而它几乎也同时向外界“Close了Sora的技术大门。与此同时,国内也开启了一波讨论。

面对各界纷纷议论,北京大学深圳研究生院-兔展智能AIGC联合实验室近期推出了Open-Sora计划,旨在复现开源版的Sora。这一计划根植于北京大学和兔展智能长期以来的技术沉淀,证明了中国产业龙头公司和顶尖科研机构合作,有能力也有条件与西方国家领先团队一较高下。而兔展智能和北大团队也希望通过开源的方式,带动全球范围感兴趣的技术人员参与和贡献进来,同时对外传播中国团队的技术自信,号召全球社区一起来做人类普惠的内容,带来AI强权之外的另一种选择。

据悉,Open-Sora计划已于近期在GitHub上公开,它核心技术框架包括视频编解码模块、Diffusion Transformer模型和条件输入三大模块。与“财大气粗”的OpenAI不同,在资源有限的情况下,Open-Sora计划采用了计算更友好的2D + 1D Diffusion Transformer,同步还在推进除了文本控制外的更多条件控制的视频生成训练。目前基于已经搭好的训练框架,能够支持动态输入、多尺度、多分辨率的训练,对于可变比例、可变时长的视频已经取得了较好的生成效果,初步完成了第一阶段验证的任务。第二阶段将在有效框架基础上使用更多数据和更大算力,训练出20秒以上、720P清晰度的视频生成模型,实现该开源项目的目标;第三阶段作为延展目标,如果得到更多支持的情况下,会考虑进一步延伸拓展生成的泛化性,场景多样性等,更加逼近Sora的时长和效果,目前仅作为本项目的拓展目标。

项目在GitHub上一经发布,立马引起国际人工智能大V们的转发,该帖子浏览量破20万,国内外网友纷纷表示期待。发布一周内Star超过5K (5000多名技术开发人员标星),登上GitHub Trend第一,在开源社区拥有很高的参与度和活跃度,一周内融合30余次开源创作者的拉取请求(Pull Request),一周内更新模型和代码两百余次,获得14万余次访问,代码被克隆超800次,更有来自美国、英国、加拿大、德国、澳大利亚、迪拜、沙特阿拉伯、伊朗等多个国家的技术人员参与其中,积极贡献。

作为Open-Sora计划的联合发起方之一的兔展智能为项目带来了产业界的思考。据悉,兔展智能是中国在内容引擎技术领域完全自主创新的行业龙头企业,在“让人类叙事更加高效生动”的使命指引下,围绕为社会带来崭新的智能交互形态的期待,兔展智能推出了基于视觉为核心的原创多模态大模型“兔灵”的AIGC内容引擎。对于兔展智能来说,Open-Sora并不是为了做娱乐视频生成而提出的,将Open-Sora背后的底层模型,亦即“兔灵”,打造成深植于产业、赋能产业发展的中国本土的视觉大模型,让产业的供给与用户的需求更精准的匹配,才是更有价值的事情。

据介绍,兔展智能经过多年深耕,已成为营销设计和数字内容设计领域中国第一平台,依托借庞大的用户量和数据飞轮,重度投入打磨“兔灵”大模型,希望通过“人工智能+”将以设计行业为代表的产业界过剩的产能,通过产品化设计更个性化的产品匹配需求,通过营销设计来激活需求,通过体验设计来连接需求,生成触达每一个终端个人的智慧屏内容,最终实现供给和需求更精准的匹配。

Open-Sora的诞生也离不开由兔展智能和北京大学共同探索的“TOP + TOP”科研与产业深度共赢的科创新范式。在学习吸纳美国先进研究机构科研创新机制的基础上,兔展智能联合北京大学深圳研究生院于2023年共同成立了AIGC联合实验室,提出了坚持“人类级使命”“奋斗者为本”“开放式创新”“真问题驱动”四大原则,共同探索产学研协同创新发展的新路径。未来,双方表示也将在推动视觉大模型更好赋能中国产业发展继续携手并进,为世界带来更多中国声音。

编辑:卢东勃 陈苏雅