![]() |
|
Sora是一款独特的视频生成工具,其工作原理深入浅出,值得我们深入了解。something new/old创始人brett goldstein在X上给大家拆解了Sora工作原理,通俗易懂。
Sora的工作原理结合了扩散模型和Transformer架构。扩散模型从噪声开始,逐渐精细化到所需的视频。而Transformer架构则负责处理连续的视频帧,确保视频中的动作流畅自然。
Sora的独特之处在于其处理视频生成的方法。它不是直接将文本转换为视频帧,而是依赖于所谓的“空间时间补丁”。这种方法不直接将文本转换为视频帧,而是处理空间(发生的事情)和时间(何时发生)的快照。这可以看作是微观视频拼图的每一小块。
通过这种方式,Sora将视频视为一个包含空间和时间维度的巨大立方体,然后再将其切割成更小的立方体,每个立方体代表空间和时间的片段。
剖析描述并确定了核心要素:
• 物体(盛开的花朵、阳光普照的窗台)
• 行动(随着时间的推移而增长)
• 位置(郊区环境)
• 甚至艺术风格(定格动画美学)
为了能够将这些补丁有意义地组合成一个连贯的视频,Sora利用了其内部的知识图谱。这些知识图谱包含了关于物理世界、对象如何相互作用,甚至包括不同艺术风格的信息。借助这些知识,Sora能够理解例如一朵花如何逐渐开放、如何与阳光互动以及如何保持停动画风格等复杂过程。
在视频生成的下一阶段,扩散模型开始对每个嘈杂、抽象的补丁进行处理,逐渐精细化,直至最终呈现出清晰的图像。而Transformer架构则负责分析时间跨度上补丁之间的关系,确保视频中的动作流畅自然,停动画风格在整个视频序列中保持一致。
尽管Sora能够执行各种与视频相关的任务,并展现出惊人的视频生成能力,但仍有一些挑战需要克服。例如,它在模拟一些基础物理互动的精确性方面还有待提高,有时会产生不自然的效果,如人物的手势看起来不够真实。尽管如此,Sora在视频生成技术方面展示了巨大的潜力,为未来的人工智能应用开辟了新的可能性。
当前新闻共有0条评论 | 分享到: |
|
||||||||||
评论前需要先 登录 或者 注册 哦![]() |
24小时新闻排行榜 | 更多>> |
1 | 重磅!川普放话,关税大消息 |
2 | 空姐坦白:机组人员在飞行中 这样“发生性 |
3 | 习近平8月下台?美前外交官细数可疑迹象 |
4 | 马尔代夫快破产了!栽在中国手里 |
5 | 川普承认对中国采取这项行动:这是个肮脏的 |
48小时新闻排行榜 | 更多>> |
1 | 比恒大还多1.14万亿的巨头,倒了 |
2 | 普京沉痛宣布:我们被骗了 |
3 | 北京出了啥事?美前顶级情报头子发话 |
4 | 4年倒闭5万多家 中国最暴利行业 要彻底消 |
5 | 刚刚!美联储,突传重磅 |
6 | 哈梅内伊又装了一回,代价也来了 |
7 | 重磅!川普放话,关税大消息 |
8 | “全国一盘棋”重演?习近平的新时代 |
9 | 黄石公园野牛遭活活烫死 许多游客亲眼目睹 |
10 | 震惊愤怒 美国国务院下周大裁员 |
一周博客排行 | 更多>> |
1 | 空前绝后:24岁的中共总书记及 | 赵大夫话室 |
2 | 俺吃错过药 | 阿妞不牛 |
3 | 人养金毛犬,我养白眼狼:伊朗 | 高伐林 |
4 | 回国避坑:既不能评论国内好坏 | aoe2 |
5 | 中美空军相差多远?看运-20和C | 弓长贝占郎 |
6 | 走出中国城,走活中国人 | 解滨 |
7 | 人死后灵魂还在吗? | 骆驼 |
8 | 共产革命之前的上海和伊斯兰革 | 陈家梁子 |
9 | 为何黄左反川甚于反共? | 蛇形刁手 |
10 | 习大大唱独角戏,听床师们情何 | 蛇形刁手 |
一周博文回复排行榜 | 更多>> |
1 | 人死后灵魂还在吗? | 骆驼 |
2 | 俺吃错过药 | 阿妞不牛 |
3 | 文明、优雅、格局 | 体育老师 |
4 | 为何黄左反川甚于反共? | 蛇形刁手 |
5 | 走出中国城,走活中国人 | 解滨 |
6 | 奇袭伊朗.高法裁决.外交内政. | 木秀于林 |
7 | 2024回国:海南环岛游 | 马黑 |
8 | 人养金毛犬,我养白眼狼:伊朗 | 高伐林 |
9 | 相信固执己见可以治愈 | 施化 |
10 | 再反转:B-2只炸了个皮毛? | 北栖 |