openai、openai模型

时间：2025-01-18 13:39:36 来源：互联网浏览：48

OpenAI 正式发布 Sora，一文看懂它的文生视频功能到底强在哪？

文｜黎诗韵

编辑｜靖宇

正如外界猜测的那样，在为期 12 天直播的第三天，OpenAI 正式发布了文生视频产品 Sora。

北京时间 12 月 10 日凌晨两点，Sam Altman 和几位 OpenAI 内部员工通过直播，展示了 Sora 的功能和实际用例。继今年 2 月释出视频样片后，Sora 引发了全球人工智能界热潮，此后国内外人工智能公司纷纷推出文生视频产品。而作为这一赛道的开创者，今天 Sora 终于揭开了神秘面纱。

整体来说，Sora 展示的一系列产品功能，表明其在视频生成的质量、功能的独创性、技术的复杂度等方面，远远超出了目前的文生视频产品。

在文、图生视频的基础功能之上，它加入了故事板（相当于通过分镜创作自己的故事）、用文本调整原视频、不同场景视频的融合等功能（相当于给视频直接加特效），整个产品功能设计似乎都在让视频更接近创作者的自我表达、帮助他们完成一个理想的镜头故事。

当地时间 12 月 9 日晚些时候，美国、以及大多数其他国家的用户，可以访问官网体验 Sora。它被包含在 ChatGPT Plus、ChatGPT Pro 的会员订阅中，无需额外付费。其中，Plus 能生成最多 50 个最高视频、视频分辨率最高达 720p、时长为 5 秒，而 Pro 则能生成最多 500 个最高视频、分辨率高达 1080p、时长为 20 秒、还能去水印。

Sam Altman 介绍做 Sora 有三大原因：

一是从工具性角度，OpenAI 喜欢为创意人员制作工具，这对公司的文化很重要；

二是从用户交互角度，人工智能系统不能只通过文本交互，也应该理解并生成视频，帮助人类使用人工智能。这类似于国内大模型公司谈到的，「模型每扩展一次模态，用户渗透率就会上升。」

三则是从技术角度，这对 OpenAI 的 AGI 路线图至关重要，人工智能应该学到更多关于世界的规律，这正是所谓理解物理规律的「世界模型」。

既要用技术改变世界，也要用产品促进人类创造，这就是 Sora 在做的事情。

Sora 最基础的，首先是文生视频、图生视频功能。

打开主界面，用户可以查看和管理所有的视频生成内容，并且切换网格视图、列表视图，以及创建文件夹和收藏夹，查看书签等。研究人员称这个主界面设计，是为了更好地帮助用户创作故事。

在主页面的中间底部，是 Sora 的文生视频、图生视频功能。

比如，Sam Altman 先给到文字输入，「长毛猛犸象在沙漠中行走，广角镜头拍摄」。接着，需要选择视频的画面比、分辨率、时长（5-20 秒）、以及最终生成的视频数量（最多可生成四段以供挑选）等，才能获得生成的视频。

最终，可以看到生成的视频效果非常真实、有质感，且基本遵照了输入的指令。对于 Sora 视频生成效果的出色表现，或许人们是不意外的。

输入「长毛猛犸象在沙漠中行走，广角镜头拍摄」的文字后，Sora 生成了四段视频 | 图片来源：OpenAI

但此次，Sora 还发布了一系列独有的、进阶的的产品功能。在极客公园看来，这些功能基本围绕视频的更准确表达，也就是通过分镜、加特效等等方式，让人们能通过视频创作出一个自己想要的故事。

首先是故事板（storyboard），它被研究人员称为是一种「全新的创意工具」。

从产品设计上看，它相当于按时间轴的方式，把一段故事（视频）切成了多个不同的故事卡（视频帧)。用户只需要设计和调整每张故事卡（视频帧)，Sora 会自动把它们补成一段流畅的故事（视频）——这很像电影里的分镜、动画的手稿，当导演画好分镜、一个片子就拍出来了，一个漫画师写好手稿、一个动画就设计出来了。

比如研究人员设想的第一个分镜是，「美丽的白鹤站在小溪中，拥有一条黄色的尾巴。」第二个分镜是，「鹤将头探入水中，并捉出一条鱼」。那他做的工作就是，分别创建这两张故事卡（视频帧)，并在两者之间设大概五秒钟的间隔。这个间隔对 Sora 很重要，给了它把两组动作连起来的发挥空间。

最终，他得到了一个完整的视频镜头，「美丽的白鹤站在小溪中，它拥有一条黄色的尾巴。接着鹤将头探入水中，并捉出一条鱼。」

通过两张故事卡（视频帧)，Sora 生成了一个完整的故事（视频) | 图片来源：OpenAI

更为奇妙的是，在这个故事板上，创作要素不只是故事卡，也可以是直接的图片、视频。也就是说，可以将任意的图片、视频拉到故事板上，结合故事卡，对它进行创作。

以视频为例，研究人员将上述白鹤的视频切下来导入故事板，进行了剪切，这就给视频的前方和后方留出了继续创作的间隙，也就是说可以有新的开头和结尾。

这带来的想象是，故事板可以无限的创作下去。也就是说 Sora 生成的 20 秒视频，可以被不断地创造、剪切、创造……直至完全达到心目中理想的镜头。这个过程就像一个剪辑师、导演，通过对分镜设计和镜头素材的不断生成剪辑，慢慢剪出自己心中的片子。

和真实世界中不同，Sora 提供的素材是无限的。而和其他的文生视频产品不同，Sora 的视频是可以修改加工的。这使得它生成的视频一定会更符合用户心中的想象、创意。

这似乎正是 Sora 此次产品的核心思路：尽最大可能地，让生成的视频符合用户心中想要的创意。

这样可以更好理解 Sora 的其他功能，比如可以通过文字直接修改视频、可以无缝融合两段不同的视频、可以给视频改变画风等，这相当于是直接给视频加「特效」了。而一般的文生视频产品，可能需要不断地调整 prompt（提示词）、不断重新生成视频。

通过调整文字，用户可以直接调整视频 | 图片来源：OpenAI

Sora 能将两个两段视频合并为一段无缝剪辑 | 图片来源：OpenAI

总的来说，Sora 除了在生成视频上不出意料的出色表现之外，它还带来了更独有的视频创作产品功能，相当于给视频加分镜、剪辑、特效。这意味着，每个人都有机会创作出自己真正想要的表达，离当一个导演也更近了。

「如果你带着期望进入 Sora，认为你只需要点击一个按钮就可以生成一部电影，那么我认为你的期望是错误的。」OpenAI 研究人员说道。

他表示，Sora 是一种工具，允许人们同时在多个地方、尝试多个想法，尝试以前完全不可能的事情，「实际上我们认为这是创作者的超级特殊延伸。」

作为文生视频赛道的开创者，Sora 的推出时间算是最晚的。对此，OpenAI 研究团队表示，为了对 Sora 进行广泛的部署，需要找到让模型更快、更便宜的办法。为此，研究团队做了大量的工作。

在直播中，OpenAI 宣布推出 Sora turbo，这是原始 Sora 模型的新高端加速版本。它具有今年早些时候 OpenAI 在「世界模拟技术」报告中谈到的所有功能，此外还增加了从文本生成视频、动画图像和混合视频等功能。这是此次 Sora 产品功能背后的技术基础。

看起来相比文字，视频的推理成本更高，但此次 OpenAI 并没有单独针对 Sora 收费。20 美元/月的 ChatGPT Plus 会员、以及 200 美元/月的 ChatGPT Pro 会员，都可以使用 Sora。

前者的权益包括最多 50 个最高视频、分辨率达 720p，时长为 5 秒，后者的权益包括最多 500 个最高视频、无限普通视频，分辨率高达 1080p、持续时间为 20 秒、并且下载无水印。

Sora 对 OpenAI 的意义不止于此。团队发现，视频模型在大规模训练时会展现出许多有趣的新能力，使得 Sora 能够模拟现实世界中人、动物和环境的某些方面。「我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有希望的道路。」

或许正是因此，让 Sora 尽快被大众用起来、用数据更好地训练世界模型，对于 OpenAI 最终的 AGI 梦想如此重要。

在迭代技术的路上，也顺带推动了人类的创造。

「这个版本的 Sora 会犯错误，它并不完美，但它已经到了我们认为它将对增强人类创造力非常有用的地步。我们迫不及待地想看看世界将用它来做什么。」缔造它的 OpenAI 如此说道。

OpenAI 推出“强化微调”计划，让创建专家大模型更简单了 | 最前线

文 | 王方玉

编辑 | 苏建勋

12月7日北京时间凌晨两点，OpenAI公司带来了连续12天发布会的第二场直播。

本次直播中，OpenAI带来了新的方案——强化微调（Reinforcement Fine-Tuning）。该方案和功能预计将于2025年正式推出。

强化微调是一种全新的模型定制方法，它将一个预训练好的通用模型，通过在特定领域的小规模数据集上进一步训练，使其适应特定任务的技术。简单来说就是在一个“学过很多东西”的大模型上，再让它针对某个具体任务“重点练-”，让它更适合做这件事。

OpenAI 高管介绍称，强化微调可以将大型语言模型从“高中水平”提升至“博士级专家”的能力，适合高校、研究人员和企业打造独特的 AI 解决方案。例如OpenAI正在与汤森路透合作，打造专属于该公司的法律专业模型。

没有参与本场直播的OpenAI CEO Sam Altman在社交媒体表上：“效果一级棒，是我2024年最大的惊喜，期待看到人们构建什么！”

“强化微调让行业专家大模型的实现变得容易了。”一位AI大模型应用企业的创始人告诉36氪，这是一项和普通用户关联不大，但对专业领域工作者很有价值的新方案。

直播现场，OpenAI展示了一个典型的案例——罕见遗传病研究。

OpenAI 与伯克利实验室和德国 Charité 医院的研究人员合作，使用强化微调训练GPT o1 Mini 模型。该模型学会了有效推理罕见疾病的成因，并在性能上超越了更大的GPT o1模型，展示了其在诊断和理解复杂病情方面的潜力。

值得一提的是，强化微调与此前的微调方式有着显著差异。与传统微调不同，强化微调并不是简单地让模型“记住答案”，而是通过训练模型在特定领域中学会推理，找到正确答案。

具体来说，强化微调有两个不同数据集合，一个是微调数据集，一个是测试数据集合，模型先基于微调数据集合去训练，然后用测试数据集合验证，反复自我推理训练验证，最终达到很高的水平。因而强化微调可以实现在数据量有限的情况下（有时仅需几十个样本）也能实现显著性能提升。

不过，强化微调方案目前仍处于研究预览阶段，OpenAI计划在2025年全面推出。

目前OpenAI正邀请研究机构、大学以及企业参与强化微调研究计划。OpenAI希望与愿意共享数据集的组织合作，进一步优化模型性能。

用户评论

闲肆

真的厉害! OpenAI 的模型能写的东西越来越专业了。

有5位网友表示赞同！

暮光薄凉

我一直在关注 OpenAI 的进展，感觉未来人工智能的可能性真的很大。

有18位网友表示赞同！

無極卍盜

OpenAI 的模型是不是可以用在编程辅助上？

有10位网友表示赞同！

盲从于你

想了解下 OpenAI 模型训练用的数据来自哪里？

有11位网友表示赞同！

情字何解ヘ

使用过 OpenAI 的生成文本功能吗？效果怎么样？

有8位网友表示赞同！

虚伪了的真心

有没有人尝试用 OpenAI 模型做创作，比如诗歌或者小说？

有11位网友表示赞同！

ゞ香草可樂ゞ草莓布丁

OpenAI 模型会不会取代很多工作？

有19位网友表示赞同！

别在我面前犯贱

我对 OpenAI 模型的安全性很感兴趣，不知道它会不会被恶意利用？

有7位网友表示赞同！

浮世繁华

感觉 OpenAI 一直在推动人工智能的发展步伐。

有16位网友表示赞同！

半世晨晓。

学-一下 OpenAI 的模型架构怎么样？可以提升自己的编程能力吗？

有8位网友表示赞同！

笑傲苍穹

OpenAI 做的工具有没有开源啊？

有19位网友表示赞同！

冷嘲热讽i

想弄清楚 OpenAI 模型到底能做到什么程度？

有12位网友表示赞同！

余温散尽ぺ

未来的手机会不会用 OpenAI 模型来做语音助手？

有7位网友表示赞同！

┲﹊怅惘。

感觉 OpenAI 的模型越来越智能，跟我们人类的思维好像越来越接近了。

有5位网友表示赞同！

逾期不候

有没有人用 OpenAI 模型玩游戏？看效果怎么样？

有11位网友表示赞同！

麝香味

OpenAI 模型的学-能力到底是如何实现的？很想知道背后的原理。

有7位网友表示赞同！

终究会走-

将来人工智能会变得像人一样吗？我对 OpenAI 的模型有这种感觉...

有8位网友表示赞同！

拥菢过后只剰凄凉

开放平台是不是可以让我们更容易参与到 OpenAI 模型的发展中来？

有9位网友表示赞同！

落花忆梦

希望 OpenAI 可以继续做一些有益于人类的科技成果。

有10位网友表示赞同！

标题：openai、openai模型

链接：https://izhangwan.com/news/rj/40824.html

版权：文章转载自网络，如有侵权，请联系删除！

资讯推荐

做超声检查时，医生为什么要在患者肚子上涂粘粘的东西

做B超为什么要涂凝胶？在支付宝蚂蚁庄园每日一题中，2021年4月9日的问题是问做超声检查时，医生为什么要在患者肚

2025-01-18

小米mix fold有前置摄像头吗

小米mix fold有前置摄像头吗？作为小米的第一款折叠屏手机，这款手机可以说实话非常的强大，但是很多网友还是想要

2025-01-18

蚂蚁庄园4月10日答案最新

蚂蚁庄园4月10日答案最新是什么？在支付宝蚂蚁庄园每日一题中，你知道蚂蚁庄园2021年4月10日答案是什么吗？该怎么

2025-01-18

蚂蚁庄园4月13日答案最新

支付宝蚂蚁庄园今日答题答案是什么？在支付宝蚂蚁庄园每日一题中，每天都会刷新出现多个题目等待大家来回答，回答

2025-01-18