单价0.003元豆包视觉理解模型定价进入“厘时代”

豆包“全家桶”更新，抖音概念板块活跃

2024-12-19

商报讯（记者苗露）继大语言模型价格以厘计算之后，视觉理解模型也宣告进入“厘时代”。在昨日举办的火山引擎Force原动力大会上，字节跳动正式发布豆包视觉理解模型，为企业提供极具性价比的多模态大模型能力。据悉，豆包此次发布的视觉理解模型具备更强的内容识别、理解和推理、视觉描述等能力。更让广大用户感到兴奋的是，会上宣布，豆包视觉理解模型价格降至0.003元／千Tokens，比行业平均价格降低85%。

此外，字节豆包新一代视频生成大模型将明年1月正式发布。并且，抖音旗下图片和视频生成工具即梦AI，展示了新一代图片生成模型和动态海报功能。

一系列利好消息也刺激了二级市场表现，昨日盘中抖音概念（字节概念）板块持续活跃，AI相关板块均呈现不同程度的涨幅。

豆包“全家桶”迎来重磅更新视觉理解、视频生成功能都来了

在此之前，字节豆包大模型家族已包括了通用大语言、语音合成和识别、图片及视频等不同模态的生成式AI模型，但仍缺少具有视觉能力的可交互多模态大模型；并且，字节豆包之前已经以智能体耳机、智能玩偶、台灯为切入点，在AI硬件端开始布局，但同样受限于交互多模态模型的缺失，AI硬件产品仍只能实现语音层级交互。

昨日，字节跳动豆包大模型家族全面升级。其中，豆包视觉理解模型，通过视觉识别还可以进一步推理和计算，拥有更强的理解和推理能力。同时还有更细腻的视觉描述能力，比如孩子一幅涂鸦，豆包就可以创作一篇奇思妙想的故事；旅游场景方面，可以识别外文菜单、介绍建筑知识等。

业内人士分析指出，视觉能力是大模型能力的核心，因为视觉输入占据人类交互信息的绝大多数，在包括AI玩具或AI眼镜等的下一代AI硬件终端中，视觉SoC将有望成为标配，这也将新增对NAND存储芯片的需求。

另一方面，从豆包的文字大模型，到视觉理解模型和视频生成模型，可以看到，“豆包+”生态似乎也已初现雏形。若再加上猫箱、即梦等字节旗下更多AI应用，字节跳动的算力需求，或许又要再上一个台阶。国盛证券近日研报也指出，算力是字节AI产业链核心方向。

据媒体援引分析师测算，仅以豆包类似的文字模型来推算，以ChatGPT MAU（月活用户）为6亿来看，推理需求约需35万个A100显卡，训练需求需12万个A100显卡。

而相对于文字模型而言，视频大模型对算力的需求势必更高，例如在Sora正式上线后不久，OpenAI即出现算力不够用的问题。

上述分析师以即梦AI为例计算，即梦的视频生成模型Magic Video v2若MAU达到1亿，且每天有生成10分钟视频的需求，则需28万个英伟达H100 GPU，MAU达到2亿时，对H100的需求将达到55万个。

民生证券指出，豆包用户数的快速增长带来的将是算力中心的扩建，进而带动AI服务器需求提升；同时，算力中心扩建带来的不仅是基础建设需求，更多的是热管理的需求，字节AI端液冷有望拉动广阔市场空间。

豆包视觉理解模型定价进入“厘时代”

火山引擎总裁谭待在大会上介绍，豆包大模型发布以来，在7个月时间里，日均tokens增长超过33倍，日均tokens使用量超过4万亿。

而让广大用户更为关注的是价格要素。据悉，豆包视觉模型比行业平均价格低85%，单价为0.003元。这使视觉理解模型首次进入“厘时代”。

此前，豆包视觉理解模型已经接入豆包App和PC端产品。豆包战略研究负责人周昊表示，豆包产品非常注重多模态的输入和打磨，包括语音、视觉等能力，这些模型都已通过火山引擎开放给企业客户。

会上，豆包3D生成模型也首次亮相。该模型与火山引擎数字孪生平台veOmniverse结合使用，可以高效完成智能训练、数据合成和数字资产制作，成为一套支持AIGC创作的物理世界仿真模拟器。

大会透露，豆包大模型已经与八成主流汽车品牌合作，并接入到多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长100倍。

在公布豆包视觉理解模型超低定价的同时，火山引擎升级了火山方舟、扣子和HiAgent三款平台产品，帮助企业构建好自身的AI能力中心，高效开发AI应用。

云原生是过去十年最重要的计算范式，大模型时代则推动着云计算的变革。火山引擎认为，下一个十年，计算范式应该从云原生进入到AI云原生的新时代。

一系列利好消息也刺激了二级市场的表现。据同花顺数据，截至昨日下午收盘，抖音概念（字节概念）整体涨幅达1.36%，86只成分股上涨，近一月涨幅高达6.83%，与之相关的脑机接口概念板块整体涨幅达9.44%，AI眼镜板块收涨4.61%。个股层面，紫天科技20cm涨停，高伟达、宣亚国际、遥望科技、博瑞传播、中百集团等股涨停。

单价0.003元 豆包视觉理解模型定价进入“厘时代”

豆包“全家桶”更新，抖音概念板块活跃

单价0.003元豆包视觉理解模型定价进入“厘时代”