大模型价格“卷”起来了,幻方、字节和智谱纷纷下场,GPT4一年降价超80%
大模型价格“卷”起来了,幻方、字节和智谱纷纷下场,GPT4一年降价超80%
文 | 乌鸦智能说
不少人有这样一个判断:2024 会是推理的元年。据英伟达 2023 年财报电话会议披露,公司全年数据中心里已经有 40% 的收入来自推理业务,超出了绝大部分人预期。
让人没想到的是,推理端的爆发率先在大模型价格上卷了起来。今年 5 月,幻方、字节先后发布新模型,价格动辄市面上原有模型的 1%。同时,智谱也官宣了新的价格体系,将入门级产品 GLM-3 Turbo 模型的价格下调了 80%。
这样的趋势,同样也在国外发生。自去年以来,OpenAI 已经进行了 4 次降价。在刚刚结束的春季功能更新会上,OpenAI 宣布了其最新模型 GPT-4o,不仅性能有大幅提升,价格也下调了 50%。
那么,驱动这轮大模型推理成本下降的逻辑是什么?我们又应该如何理解推理成本下降对产业的意义?
降本超预期!GPT4 一年降价超 80%
从 5 月召开的发布会来看,各家在大模型价格上卷得越来越厉害了。
5 月 6 日,幻方量化旗下 DeepSeek(深度求索)发布第二代 MoE 模型 DeepSeek-V2,该模型 API 定价为每百万 Tokens 输入 1 元、输出 2 元(32K 上下文),价格为 GPT-4 Turbo 的近百分之一。
5 月 11 日,智谱大模型官宣新的价格体系,新注册用户可以获得额度从 500 万 tokens 提升至 2500 万 tokens,并且入门级产品 GLM-3 Turbo 模型调用价格从 5 元/百万 Tokens 降至 1 元/百万 Tokens,降幅高达 80%。
5 月 13 日,OpenAI 发布 GPT-4o,不仅在功能上大幅超越 GPT-4 Turbo,价格只有一半。
5 月 15 日,豆包主力模型为 0.0008 元 / 千 Tokens,即 0.8 厘就能处理 1500 多个汉字,宣称比行业便宜了 99.3%。在 32K(千字节)以下主力模型中,每 1000 Tokens(大模型文本中的一个最小单位)的企业市场使用价格,GPT-4(美国 AI 研究公司 OpenAI 旗下的大模型)为 0.42 元,百度文心一言和阿里通义千问为 0.12 元。
可以看到,大模型降价既有 GLM-3 Turbo 这样的入门模型,也有像性能接近 GPT-4 Turbo 的主力模型。而从 OpenAI 过去一年的动作看,降价也一直其升级的主线。
算上此次 GPT-4o 的发布,2023 年年初以来,OpenAI 已经进行了 4 次降价。去年 3 月,OpenAI 开放了 gpt-3.5-turbo,每 1000 个 token 的成本为 0.002 美元,价格比此前的 GPT-3.5 模型下降了 90%。
到去年 11 月,OpenAI 发布了 GPT-4 Turbo 的同时,也对整个平台的价格做出了调整。其中,GPT-4 Turbo 输入 tokens 价格是 GPT-4 的 1/3,为 0.01 美元 /1k tokens(折合人民币约 0.07 元),输出 tokens 价格是其 1/2,为,折合人民币约 0.22 元)。
今年 1 月,OpenAI 推出了新版的 GPT-3.5-Turbo,型号为 gpt-3.5-turbo-0125,gpt-3.5-turbo-0125 输入的价格降低了 50%,为 0.0005 美元 /1000 tokens,输出价格也降低了 25%,为 0.0015 美元 /1000 tokens。
此外,OpenAI 还推出饿了两个新一代 embedding 模型:text-embedding-3-small 和 text-embedding-3-large。其中,text-embedding-3-small 远比 OpenAI 之前的 text-embedding-ada-002 模型效率高,因此价格也大幅降低了 5 倍,从每千 token 的 0.0001 美元降至 0.00002 美元。
从去年 3 月 OpenAI 发布 GPT4 到现在,其产品从 GPT4 升级到 GPT-4o,输入价格从 0.03 美元 /1k tokens 下降到 0.005 美元 /1k tokens,降幅为 83%;输出价格从 0.06 美元 /1k tokens 下降到 0.015 美元 /1k tokens,降幅为 75%。
根据此前预期,大模型大致将按照每年 50-75% 幅度降本,也就是说,现在大模型的降本速度远超预期。
模型优化驱动下的成本下降
过去,大模型推理成本下降,很大程度要依赖于算力的升级。但纵观过去一年,推理成本的下降,是在算力没有升级的情况完成的,包括架构创新、推理优化、系统升级、甚至推理集群计算架构方面等等。
这意味着,除了算力升级外,模型优化本身也有着很大的空间。从目前看,算法框架革新主要有两条思路:轻量化和线性化。
其中,轻量化以 Mixtral 8*7B 模型为代表,其核心思路是采用混合专家模型 MoE,架构中基于多个专家并行机制,推理时只激活部分专家,以稀疏性压缩了参数数量和推理成本。
MoE 架构主要由两个关键部分组成:专家网络和门控机制。所谓的 " 专家网络 ",就是传统 Tranformer 架构的 FFN(前馈网络)层是一个完全连接的神经网络,MoE 架构的 FFN 层则划分成稀疏性的神经网络,这些被称之为 " 专家 " 的小 FFN,每个都有自己的权重和激活函数,它们并行工作、专注于处理特定类型的信息。而门控机制则用来决定每个 token 被发送到哪个专家网络的调配器。
MoE 架构强调 " 术业有专攻 ",把不同的问题交给相应领域的专家来解决,就好比一家公司有多个部门,在做决策的时候,公司的 CEO 会把具体的问题分配到相关的部门进行讨论,最终产生最优的决策。
与轻量化不同,线性化更注重对信息的压缩。Transformer 架构模型在推理时与上下文内容进行逐字对比,而线性化模型对前文信息进行了压缩,实现了复杂度线性化,意味着更快的推理速度和更低的计算成本。
此次 DeepSeek-V2 的降价,就是其通过架构创新,实现了大模型成本尤其是推理成本下降的结果。具体来说,DeepSeek-V2 在注意力机制和稀疏层方面做出了创新性的设计。
一方面,其稀疏 MoE 架构进行了共享专家等改进,相比 V1 的稠密模型,节约了 42.5% 的训练成本。另一方面,DeepSeek-V2 也创新性地运用先进的注意力机制 MLA,压缩 token 生成中对 key value 的缓存,极大降低了推理成本。
长期来看,在算力升级以及架构优化等一系列因素的推动下,模型推理成本下降的速度很有可能超出大家预期,并加速应用层的不断创新和生态繁荣。
一场成本驱动型生产力革命
从过去看,科技变革本质上都是伴随着边际成本的大幅下降。根据 A16Z 的合伙人 Martin Casado 的观点,过去几十年人类大致经历了两次大的科技变革,分别是芯片和互联网。
在新一波浪潮里,芯片的诞生,将计算的边际成本降到了趋近为零。在微芯片出现之前,计算是通过手工完成的。人们在大房间里做对数表。然后 ENIAC 被引入,计算速度提高了四个数量级,然后发生了计算机革命。这一时期出现了 IBM、惠普等公司。
到了互联网时代,互联网技术将分发的边际成本降到了零。以前无论你发送什么(一个盒子或者一封信)都需要一定的成本,互联网出现后,每 bit 的价格急剧下降。顺便说一下,这也是四个数量级改进。这引领了互联网革命。这一时期出现了亚马逊、谷歌和 Meta 等公司。
与上述两个技术类似,AI 也同样是一场成本驱动型生产力革命。大模型则是将创造的边际成本降到了零,比如创建图像和语言理解等等。
举个例子,以前创造一个漫画角色可能需要一个时薪 100 美元平面设计师,而现在大模型只需要 0.01 美元,而且只需要一秒钟。再以客服行业为例,目前普遍的 AI 客服定价都隐含相比人工客服接近 1:10 的 ROI,这意味着过去在美国一位年薪 5 万刀的客服人员,在应用大模型产品后成本会降低到 5000 刀。
目前受限于模型推理成本较高,AI 应用普遍面临较大的成本压力。
根据无问芯穹发起人汪玉,用公开数据做了一次针对算力成本数量级的测算,假设 GPT-4 Turbo 每天要为 10 亿活跃用户提供服务,每年的算力成本可能超过两千亿,这还不包括模型训练的投入。
绝大部分公司的收入仍然还在亿的级别,因此这种成本在打造商业闭环上,显然是不成立的。
从这个角度上说,推理成本下降将成为打开 AI 应用的重要 " 开关 "。更重要的是,过去的科技发展历史,告诉我们,如果需求具有弹性,那么随着成本下降,使用量也会因为可及性提升而答复增加。
几乎可以肯定的是,互联网大幅带动了全球经济的增长。而人工智能大概率也将经历同样的故事。
-
- 高铁调价,有何深意?
-
2024-05-19 04:14:55
-
- 5G异网漫游将至:联通电信将成最大赢家?
-
2024-05-19 04:12:39
-
- 顶尖专家监守自盗?在其曾任主编的期刊上狂发抄袭文章
-
2024-05-19 04:10:23
-
- 为2025年残特奥会预热!粤港澳大湾区(广东)残疾人艺术汇演在深圳举行
-
2024-05-18 01:48:20
-
- 电子猫眼正对邻居大门被判侵犯隐私权
-
2024-05-18 01:46:04
-
- 未佩戴护目镜,男子装修时铁钉射进左眼,医生小心翼翼取“眼中钉”
-
2024-05-18 01:43:48
-
- 火车票改签也要收手续费了?12306回应
-
2024-05-18 01:41:32
-
- 金与正驳斥所谓“朝鲜对俄出口武器”
-
2024-05-18 01:39:16
-
- 苹果在 4 年内阻止了 70 亿美元的 App Store 欺诈购买行为
-
2024-05-18 01:36:59
-
- 一损俱损!波音核心供应商宣布裁员数百人 “爆裂舱门”便出自其手
-
2024-05-18 01:34:43
-
- 放弃巨额订单只为专注激光强项!“小巨人”释放大能量
-
2024-05-18 01:32:27
-
- “湾区之翼”跃然呈现!广州白云机场T3航站楼钢网架结构屋盖全面封顶
-
2024-05-18 01:30:10
-
- 胡锡进:俄乌战争未了,中国该如何对待俄罗斯?
-
2024-05-18 01:27:54
-
- 某电商平台小二被抓,一年受贿9200万元
-
2024-05-16 21:34:54
-
- 全球巨头破产!
-
2024-05-16 21:32:39
-
- 小镇贵妇,被羡慕又被嫌弃?
-
2024-05-16 21:30:23
-
- 秉承AI驱动安全,智能汽车安全企业「木卫四」完成Pre-A轮融资
-
2024-05-16 21:28:07
-
- 揭秘“抖茶控”奶茶店加盟骗局,1200万元的加盟费都去哪儿了?
-
2024-05-16 21:25:51
-
- 新规颁布后“第一审”来了!马可波罗首发上会
-
2024-05-16 21:23:35
-
- 背瘫痪母亲上大学的湖南女孩,已是一对龙凤胎的妈妈!
-
2024-05-16 21:21:19