OpenAI 的第一个 Vincent 视频模型出现在街头! 整个视频行业要失业了吗?业内人士:现在还为时过早

摘要: 2月16日凌晨,OpenAI发布了首款Vincent视频模型Sora,可以使用文本命令生成1分钟的高清视频。目前大模型在各个领域的应用主要集中在文森文本和文森图片,但文森视频领域...

2月16日凌晨,OpenAI发布了首款Vincent视频模型Sora,可以使用文本命令生成1分钟的高清视频。

目前大模型在各个领域的应用主要集中在文森文本和文森图片,但文森视频领域进展缓慢。 文森特视频模型索拉的发布无疑令人兴奋。 不少行业分析人士指出,这将对广告行业、电影预告片、短视频行业带来巨大颠覆。 但一些从业者保持冷静:短期内颠覆的速度不一定那么快,更多的是利用新技术激发更多人的创造力。

▍短期内很难产生颠覆性影响

在官网已更新的48个视频实例中,Sora可以准确呈现视频细节,深入理解现实世界中物体的存在,并生成情感丰富的角色。

例如,一个提示(大型语言模型的提示词)描述了美丽、白雪皑皑、繁华的东京之城。 镜头穿过繁华的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。 绚丽的樱花花瓣随着雪花在风中飞舞。

_OpenAI首个文生视频模型炸街!整个视频行业饭碗要被端?业内人士:为时尚早_OpenAI首个文生视频模型炸街!整个视频行业饭碗要被端?业内人士:为时尚早

在Sora生成的视频中,镜头从俯瞰白雪覆盖的东京慢慢前进到两个手牵手走在街上的行人。 街上的樱花树、小摊都详细呈现。

不少业内人士认为,这一发展的意义难以想象,将对所有电影、小说、动漫、教育、游戏、自媒体行业产生深远影响。

不过,有视频剪辑从业者却泼了冷水:“大规模应用后是否会产生更多好作品还不清楚,但视频垃圾的产生速度肯定会成倍增长。”

百度产品委员会原主席宋健表示:Sora确实很棒,但认为三年内没人做视频、抖音很快就会被颠覆还为时过早。

“从平台角度来说,豆快视频号本质上是一个基于视频的社交平台,特效甚至视频本身都只是一种形式。做产品的人一定知道从零开始搭建一个社交平台是多么困难。天时、地利、人和,技术只是变量之一。另外,生成视频的信息量没有真实拍摄那么大。比如一个30岁的男人和一个20岁的男人对话”

宋健认为,如果希望借助Sora这样的视频生成技术,将视频行业变成“人们纯粹消费机器工业化内容”的局面,可能行不通。 但如果我们利用新技术在人与人之间建立新的联系并激活新的创造能力,这很有趣。 但我们也要尊重行业规则,通过“技术”日复一日地迭代“生态”,而不是直接把技术强加给用户。

▍有望缩短实现通用人工智能的时间

360集团创始人周鸿祎也表示,今天的Sora可能会给广告业、电影预告片、短视频行业带来巨大的颠覆,但速度可能没有那么快。

“人工智能不一定会这么快颠覆所有行业,但它可以激发更多人的创造力。很多人都在谈论Sora对影视行业的影响。我认为不是这样的,因为机器可以制作出很好的视频但视频的冲击力、主题、剧本和镜头策划、台词的配合等都需要人的创造力或者至少是提示文字,一个视频或电影是由无数个60秒组成的,今天Sora可能会为广告行业提供服务、电影预告片、短视频行业。它会带来巨大的颠覆,但不一定能这么快打败TikTok,但可能会成为TikTok的创作工具。”

周鸿祎认为,大语言模型的强大之处在于它们能够完全理解世界的知识。 之前所有的文森特图片和文森特视频都是在 2D 平面上的图形元素上运行的,并且没有应用物理定律。

“这次,很多人从技术角度和产品体验角度分析Sora,强调它可以输出60秒的视频,保持多个镜头的一致性,模拟自然世界和物理规律。其实这些都是比较肤浅,最重要的是Sora的技术思路完全不同,在Sora生成的视频中,它可以像人类一样理解坦克的冲击力巨大,坦克可以撞车,但不会出现撞车那样的情况进入坦克。”

周鸿祎认为,这也代表着未来的方向。 有了强大的大模型基础,基于对人类语言的理解、对人类知识和世界模型的理解,并加入许多其他技术,就可以创造出各个领域的超级工具。

“比如在生物医学蛋白质和基因研究中,包括物理、化学、数学,大型模型都会发挥作用。这次Sora对物理世界的模拟,至少会对机器人具身智能和自动驾驶产生巨大的影响。”最初的自动驾驶技术过分强调感知层面,并没有在认知层面发挥作用,事实上,人们在驾驶汽车时,很多判断都是基于对世界的认知,比如车速是多少​​。 “无论碰撞的严重程度如何,如果不了解世界,就很难制造出真正的自动驾驶汽车。”

周鸿祎预测,Sora的出现可能意味着AGI(通用人工智能)的实现将从10年缩短到一年。

OpenAI 训练这个模型来阅读大量视频。 一旦人工智能连接到摄像头并观看 YouTube 和 TikTok 上的所有电影和视频,它对世界的理解将远远超过文本学习。 一图胜千言,视频传达的信息量远远超过一张图片。 这确实离AGI不远了。 这不是10年、20年的问题。 可能一两年内很快就能实现。

▍多模态大模型将成为生成式AI的重点发展方向

随着文森图和图片对话技术的成熟,文森视频成为多模态大模型下一步发展的重点。 展望2024年,机构业内人士认为,大模型领域的竞争将进一步加剧,多模态大模型将成为生成式AI的重点发展方向,有望推动本轮AI市场进一步蔓延。

在国盛证券看来,AI文盛视频是多模态应用的下一站。 Vincent Video根据给定的文字提示直接生成视频。 随着文森特的视频技术日趋成熟和广泛应用,可能会给热门短剧市场带来改变。 该技术有望大幅降低短剧制作的整体成本,为“重制作轻创作”的通病提供解决方案。 短剧制作重心有望回归高质量剧本创作。

中信证券表示,多模态大模型算法的突破将带来自动驾驶、机器人等技术的革命性进步。 中信证券继续看好这一波生成式AI对科技行业的长期影响和变化,持续关注算力和算法。 、数据、应用等方面领先厂商。

东吴证券判断,多模态是AI商业野心的起点,有望真正为企业降本增效,企业可以利用节省下来的成本提高产品和服务质量或技术创新进一步提高生产力; 与此同时,新的、更大的用户生成内容平台也可能出现。

浮窗式百度分享代码,请勿使用文字或图标

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏