万维读者网 > 信息时代 > 正文  

为什么这么牛 大佬拆解Sora工作原理

www.creaders.net | 2024-02-21 15:38:14  站长之家 | 0条评论 | 查看/发表评论

Sora是一款独特的视频生成工具,其工作原理深入浅出,值得我们深入了解。something new/old创始人brett goldstein在X上给大家拆解了Sora工作原理,通俗易懂。

Sora的工作原理结合了扩散模型和Transformer架构。扩散模型从噪声开始,逐渐精细化到所需的视频。而Transformer架构则负责处理连续的视频帧,确保视频中的动作流畅自然。

Sora的独特之处在于其处理视频生成的方法。它不是直接将文本转换为视频帧,而是依赖于所谓的“空间时间补丁”。这种方法不直接将文本转换为视频帧,而是处理空间(发生的事情)和时间(何时发生)的快照。这可以看作是微观视频拼图的每一小块。

时空立方体:

通过这种方式,Sora将视频视为一个包含空间和时间维度的巨大立方体,然后再将其切割成更小的立方体,每个立方体代表空间和时间的片段。

剖析描述并确定了核心要素:

• 物体(盛开的花朵、阳光普照的窗台)

• 行动(随着时间的推移而增长)

• 位置(郊区环境)

• 甚至艺术风格(定格动画美学)

为了能够将这些补丁有意义地组合成一个连贯的视频,Sora利用了其内部的知识图谱。这些知识图谱包含了关于物理世界、对象如何相互作用,甚至包括不同艺术风格的信息。借助这些知识,Sora能够理解例如一朵花如何逐渐开放、如何与阳光互动以及如何保持停动画风格等复杂过程。

为什么这么牛     大佬拆解Sora工作原理

在视频生成的下一阶段,扩散模型开始对每个嘈杂、抽象的补丁进行处理,逐渐精细化,直至最终呈现出清晰的图像。而Transformer架构则负责分析时间跨度上补丁之间的关系,确保视频中的动作流畅自然,停动画风格在整个视频序列中保持一致。

尽管Sora能够执行各种与视频相关的任务,并展现出惊人的视频生成能力,但仍有一些挑战需要克服。例如,它在模拟一些基础物理互动的精确性方面还有待提高,有时会产生不自然的效果,如人物的手势看起来不够真实。尽管如此,Sora在视频生成技术方面展示了巨大的潜力,为未来的人工智能应用开辟了新的可能性。

   0


24小时新闻排行榜 更多>>
1 信号越来越危险 天真的要塌了
2 后果难料:上海、深圳出现的四大怪象
3 太子党绝地反击 血雨腥风即将上演?
4 遭断然拒绝!华为和中兴再传噩耗
5 一直在做最坏准备 所有人都被习骗了?

48小时新闻排行榜 更多>>
1 7月1日后入境中国 或会被检查手机电脑
2 信号越来越危险 天真的要塌了
3 5万中国申请人凉凉 这类签证申请全部无理由
4 中国人因这种“调味料”导致的死亡率居全球
5 后果难料:上海、深圳出现的四大怪象
6 深圳女子激烈同房大出血 男伴袒露身份 网友
7 太子党绝地反击 血雨腥风即将上演?
8 遭断然拒绝!华为和中兴再传噩耗
9 一直在做最坏准备 所有人都被习骗了?
10 三中全会迟迟不开,可能因为彭丽媛问题
热门专题
1
以哈战争
6
中共两会
11
秦刚失踪
2
中美冷战
7
台湾大选
12
火箭军悬案
3
乌克兰战争
8
李克强猝逝
13
台海风云
4
万维专栏
9
中国爆雷
14
战狼外交
5
美国大选
10
李尚福出事
15
普里戈津
一周博客排行 更多>>
1 曾华
2 灭掉胡锦涛团派 邓江习一脉相 胡亥
3 冥冥善恶终有报——回顾世纪审 流岛
4 吕洪来:中共二十届三中全会的 老陆
5 “都是我的好学生!” Winston Sm
6 1944年,飞虎队员拍摄的彩色昆 弓长贝占郎
7 误入美帝歧途的海华有救了/人 体育老师
8 突破“茧房”还是自我“觉醒” 寂静之声
9 三峡风光 闲士9264
10 中共这次该倒大霉了! 山蛟龙
一周博文回复排行榜 更多>>
1 误入美帝歧途的海华有救了/人 体育老师
2 二战后,但凡涉及大国的战争, 随意生活
3 妙趣横生看台湾圆山大饭店 花蜜蜂
4 抗俄援乌:美国史上最划算一场 马黑
5 马斯克的无人驾驶系统即将修成 雷歌747
6 灭掉胡锦涛团派 邓江习一脉相 胡亥
7 印度裔和华裔在孩子教育上的差 汪翔
8 中共这次该倒大霉了! 山蛟龙
9 选举公正和司法公正,哪个更重 白草
10 川普比他的支持者们精明得多! 右撇子
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2024. CyberMedia Network/Creaders.NET. All Rights Reserved.