紧跟Sora,谷歌推出Genie,AI战火烧到了“世界模拟器”
紧跟Sora,谷歌推出Genie,AI战火烧到了“世界模拟器”
图片来源:视觉中国
2 月 26 日,谷歌 Deep Mind 团队发布基础世界模型 Genie,一个虚拟生成的可交互环境,110 亿参数,通过给模型投喂视频数据进行训练,生成照片、草图甚至可以操控的虚拟世界。
Genie 是在没有任何动作标签的情况下进行训练的,而传统 AI 是需要人给图片打标签来训练 AI 识别图片。这意味着 Genie 需要从视频中自行识别不同动作的特征和模式。
Genie 生成的视频。图片来源:Google Genie 官网
谷歌表示:"Genie 的独特之处在于它能够专门从互联网视频中学习细颗粒度的控制。这是一个挑战,因为互联网视频通常不会标注其正在执行哪个动作、应该控制图像中的哪一部分。Genie 不仅了解观察的哪些部分是可控制的,而且能根据生成的环境来推测出多种潜在的动作。请注意相同的潜在操作如何在不同的提示图像下产生相似的行为。"
根据蓝鲸财经记者观察,这是指当给 Genie 提供不同的图像(类似不同版本的马里奥通关环境)时,图像中的小人能在遇到障碍时表现出同样的弹跳、躲避障碍的动作,且符合物理规律。
从谷歌 Genie 目前展示的案例来看,这些视频非常卡通化。官网也表示:" 我们专注于 2D 平台游戏和机器人技术的视频,但我们的方法是通用的,应该适用于任何类型的领域,并且可以扩展到更大的互联网数据集。"
Genie 生成的机械臂视频。图片来源:Google Genie 官网
在官网上,Genie 也生成了模拟机器人动作的视频。Genie 团队训练了一个较小的 2.5B 模型,与游戏平台的情况一样,具有相同潜在动作序列的轨迹通常会表现出相似的行为。这表明 Genie 能够学习符合一贯规律的动作空间,可能适合训练多面手智能体(机械臂)。Genie 还可以模拟可以变形的物体。
与竞争对手 OpenAI 两周前火遍全球的文生视频模型 Sora 相同,Genie 同样是一个 " 物理世界模拟器 ",能够在虚拟世界中做物理世界的实验。不同的是,Sora 是直接从文字生成视频,这更加 " 大力出奇迹 ",且生成视频长度可达一分钟;而 Genie 从目前官网披露的情况看,大部分情况下需要先用文生图模型来生成起始帧图片,再用 Genie 生成视频,且视频在一两秒左右,更像是动图。
如果只把 Sora、Genie 当做生成视频的影视工具,就大材小用了。实际上,OpenAI 对于 Sora 的定位是作为 " 世界模拟器的视频生成模型 ",谷歌对 Genie 的定义是基础世界模型,能够合成可操控的虚拟世界。
那么 " 世界模拟器 " 到底是什么?OpenAI 官方早在 2016 年就作了诠释:
" 我们常常会忽略自己对世界的深刻理解:比如,你知道这个世界由三维空间构成,里面的物体能够移动、相撞、互动;人们可以行走、交谈、思考;动物能够觅食、飞翔、奔跑或吠叫;显示屏上能展示用语言编码的信息,比如天气状况、篮球比赛的胜者,或者 1970 年发生的事件。这样庞大的信息量就摆在那里,而且很大程度上容易获得——不论是在由原子构成的物理世界,还是由数字构成的虚拟世界。挑战在于,我们需要开发出能够分析并理解这些海量数据的模型和算法。生成模型是朝向这个目标迈进的最有希望的方法之一。要训练一个生成模型,我们首先会在某个领域收集大量的数据(想象一下,数以百万计的图片、文本或声音等),然后训练这个模型去创造类似的数据。这个方法的灵感来自于理查德 · 费曼的一句名言:" 我所无法创造的,我也不能理解。"(即:要真正理解一个事物,你需要去创造它)这个方法的妙处在于,我们使用的神经网络作为生成模型,其参数的数量远远少于训练它们的数据量,这迫使模型必须发现并有效地吸收数据的精髓,以便能够创造出新的数据。
Sora 生成的一个视频中,跑步机倒着跑。图片来源:OpenAI Sora 官网
Sora、Genie 的本质是 " 世界模拟器 ",让虚拟世界模仿现实物理世界的各种属性(重力、摩擦力、动能、光、声、电、材料、生物等等),在虚拟世界中操控物体动作,在仿真的物理条件下来做实验。
Sora 此前发布视频中的金毛犬、吹蜡烛的老太太、冰川上的猛犸象等,都是 Sora 通过视频数据集来 " 理解 " 现实世界是如何构成的、有什么物理规律、人类有怎样的行为,来模拟生成的。所以,Sora 自行理解提炼的模拟世界中的规律也可能不符合现实物理世界,比如老太太吹不灭蜡烛、人在跑步机上倒着走、篮球直接穿篮而过等等。
世界模型的一个好处或许在于,人类可以把需要试错的部分放在虚拟世界中进行。
在谷歌发布的 Genie 之前,有不少视频生成模型在全球火爆。2023 年 12 月底,Pika Labs 推出 Pika 1.0,生成视频长度在 3 秒左右,以单镜头为主。Runway 视频模型于 2023 年 2 月发布,支持最多 18s 视频生成,镜头相对固定。2024 年 2 月 16 日,全球明星 AI 创业公司 OpenAI 发布文生视频模型 Sora,有精细的画质、多镜头拍摄、多角度运镜,对于真实人类世界的模拟度极高。
-
- 16套房作抵押贷出16亿?贵阳银行回应
-
2024-02-28 05:02:01
-
- MWC 2024:小米荣耀拥抱AI,华为发通信大模型,联想透明电脑亮相
-
2024-02-28 04:59:45
-
- 救命,提前一年买出境游机票是不是太夸张了?
-
2024-02-28 04:57:29
-
- 英伟达食堂吃中国鸡蛋?Sora已经把某些股民搞疯了。。。
-
2024-02-28 04:55:14
-
- 铁打的“红利”翻车?现在买红利基金算是高位站岗吗?基金经理最新观点来了
-
2024-02-28 04:52:58
-
- 2024,Biotech高管变得越来越不重要?
-
2024-02-28 04:50:42
-
- 超万实习和住院医生请辞,逾9000人已离岗!首都圈多家大医院手术和诊疗量减半
-
2024-02-28 04:48:26
-
- 考公不过包退?知名教育机构被曝“退款难”!缺口竟高达4000万元…
-
2024-02-28 04:46:11
-
- 人民法院案例库今天正式上线并向社会开放
-
2024-02-28 04:43:55
-
- 春节档后,企业如何制胜全年消费市场?
-
2024-02-28 04:40:51
-
- 多位投资大佬调仓大曝光:夏俊杰、丘栋荣加仓新经典
-
2024-02-27 08:51:54
-
- 李一舟AI课程小程序因违规被暂停服务,个人视频号被禁止关注
-
2024-02-27 08:49:38
-
- 中国男篮公布亚预赛14人名单,胡明轩、徐杰、崔永熙在列
-
2024-02-27 08:47:22
-
- 煤炭市场或将维持紧平衡状态
-
2024-02-27 08:45:06
-
- 沙特公投基金旗下Alat与软银、大华技术等企业达成合作
-
2024-02-27 08:42:50
-
- 三峡水利:拟发行不超40亿元债务融资工具,用于新增项目投资贷款等
-
2024-02-27 08:40:35
-
- 爱旭股份:拟投建济南一期年产10GW高效晶硅太阳能电池及组件项目
-
2024-02-27 08:38:19
-
- 商务部新闻发言人就美以涉俄因素制裁多家中国实体答记者问
-
2024-02-27 08:36:03
-
- 保正的意思是什么「宋代保正相当现在什么官」
-
2024-02-27 08:33:47
-
- idm是什么意思「idm是什么意思的缩写」
-
2024-02-27 08:31:31