白山隔热条设备字节模型越Gemini 3 Pro！理解能力爆表，小时级素材也能直出剪辑方案

112 | 2025-12-20 18:42

字节新模型 Vidi2白山隔热条设备，理解能力过了 Gemini 3 Pro。

不仅会看还会"剪"，能根据数小时的素材和一个提示，生成 JSON 剪辑指令。

剪辑位置、台词、字幕、配乐等内容都完整涵盖，"照方抓药"之后果 be like：

这下子，电影里的小帅小美高光时刻，也能用 AI 批量生成了（手动狗头）。

一口气生成剪辑方案

Vidi2 还能像剪辑师一样帮你处理素材。你只需要把一大堆原始素材给它，再说个大概的创意方向，它就能自己去构思剧本。

它会生成一份非常详细的剪辑清单，精确规定好每个镜头截取哪几秒、播放速度是多少、字幕用什么样式，连配画面的吐槽旁白都会自动写好。

后你只要照着这份清单渲染，就能直接导出一支有剧情、有配乐、有特的完整。

能够实现这一操作的基础在于，Vidi2 在理解上的表现确实很突出。

以往的模型可能只能告诉你某个画面大概出现在几分钟白山隔热条设备，但 Vidi2 不仅能把时间段卡得很准，还能直接在画面上画个框，把你要找的人或物体实时圈出来。

这种精细的定位能力在处理长时非常关键，哪怕长达半小时，或者画面里的物体很小、运动很快，它也能稳稳地跟住。

从测试结果来看，它在这些任务上的准确度比 GPT-5 和 Gemini 3 Pro 都要高不少，基本解决了长里找不到关键细节的问题。

具体来说，Vidi2 在核心的时空定位任务上取得了压倒优势，其衡量时空对齐精度的关键指标（vIoU-Int.）高达 60.3%，几乎是 GPT-5（33.6%）的两倍，更是远 Gemini 3 Pro Preview（16.6%）。

特别是在长处理上，Vidi2 具有高的稳定，当时长过一小时，Vidi2 依然能保持 38.7% 的检索精度。

端到端时空定位

Vidi2 核心的技术突破在于实现了端到端的时空定位能力。

它能够在统一的输出中锁定目标事件的时间片段并同步生成空间边界框轨迹，从而解决长中复杂对象的持续追踪难题。

数据进入模型后，先通过统一的编码接口进行处理，单张静态图像被直接视为时长为一秒的静音。

针对时长从十秒到三十分钟不等的跨度，模型采用了重新设计的自适应 Token 压缩策略，根据总时长动态调节信息密度，在处理短时保留高密度特征，面对长时则通过压缩降低负载。

经过编码与压缩的特征流随即进入模型核心白山隔热条设备。

Vidi2 以 Vidi1 的架构为基础，将其中的模型替换成了 Google 新的开源模型 Gemma-3，并配增强的视觉编码器构建起参数量达 120 亿的底座。

其关键是采用了分解注意力（Decomposed Attention）机制，把传统 Transformer 的全注意力运算拆解为视觉内部的对角注意力、文本自注意力及跨模态注意力三个立部分。

该机制将多模态 Token 的计算复杂度从平方级降低为线级，使模型能以有限显存处理长达一小时的流。

为了解决时空定位数据度稀缺的难题，研发团队还设计了一套特的数据成路径，利用现有量图像级空间定位数据，通过滑动窗口算法来处理静态图像，塑料挤出设备在图像上模拟摄像机的运动轨迹。

这一过程将原始图像中的静态边界框动态映射到生成的每一个帧中，从而自动生成了随时间连续变化的边界框序列，在数据构造层面直接实现了将静态的空间定位扩展为动态的时间对齐。

此外，训练流程还引入了大量经过高精度人工标注的真实世界数据，以修正成数据可能带来的分布偏差并进一步提升定位精度。

在终训练阶段，Vidi2 采用了时间感知多模态对齐策略（Temporal-aware Multimodal Alignment）。

今年 9 月 10 日，小娄姐姐娄女士起诉事发地物业、夜市等单位的民事案件，在长春市朝阳区人民法院一审开庭，法院未当庭宣判。

白山隔热条设备

对于胡凌宸感情用事的不妥行为，观众们看法不一。部分网友觉得胡凌宸的行为不可思议，怕是拍戏拍得魔怔了，入戏太深以至于忘记了自己的本职工作并非霸道总裁，而是一名空有几分姿的短剧演员。部分网友觉得胡凌宸为爱奔赴的行为让人很有安全感。演戏对于演员来讲只是一份再普通不过的工作，他又正值血气方刚，欠缺考虑的年纪。或许在胡凌宸的认知里，将女朋友放在位很理。

11 月 30 日，记者以乘客身份致电铁路 12306。客服人员回应称，特等座座位相对宽敞，但不同车型的座位布局存在差异，具体需以实际情况为准。客服人员建议旅客可通过 12306 手机 App 中的"车站大屏"功能，选择对应车站与车次，查看列车编组信息以了解座位分布。

这是一种分阶段、双向强化的训练机制，先在成与真实数据训练中，利用双向预测任务——根据时间戳预测密集字幕，以及根据文本反时间范围——来训练模型对时间边界的敏感度。

随后在后训练阶段，融入了大量通用问答数据，通过回答开放式问题来验证并强化模型在视觉、听觉与文本之间的深层语义关联。

总之，在 Vidi2 当中，数据确实扮演了很重要的角，如这位网友所说，谷歌 Gemini 和 Veo 3 做的好，是因为手里有 YouTube 当中的数据。

而手握大量短的字节，同样拥有自己的数据优势。

更多的数据，意味着更强大的模型，AI 竞争的下一场，就看谁能拥有更多更好的数据了。

项目主页：

https://bytedance.github.io/vidi-website/

技术报告：

https://arxiv.org/abs/2511.19529

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 不到 2 周，量子位 MEET2026 智能未来大会就要来了！

‍张亚勤、孙茂松等 AI 行业重磅嘉宾，以及百度、高通、亚马逊等头部 AI 企业已确认出席，RockAI、太初元碁、自变量、小宿科技等业内新秀也将参与分享，还有更多嘉宾即将揭晓 � � 了解详情

‍ � � 12 月 10 日

� � 北京金茂万丽酒店

电话：0316--3233399

，期待与你共论 AI 行业破局之道

� � 点亮星标 � �

白山隔热条设备 字节模型越Gemini 3 Pro！理解能力爆表，小时级素材也能直出剪辑方案

白山隔热条设备字节模型越Gemini 3 Pro！理解能力爆表，小时级素材也能直出剪辑方案