视频 Agent 的另一层意义？

AI资讯 2025-05-20 10:29

+9480 阅读

视频 Agent 的另一层意义？

周末和一位在字节做视频 Agent 的 PM 聊天，想到了一个好问题。

这两天 Lovart、Medeo 等图像、视频 Agent 接连冒头。

但，除了让人人都能“一键做爆款”、“数字人生成”、“出大片”这些很有用，但离生活很远的生产力应用以外，「视频 Agent」还有什么现实意义？

对此，我有些个人想法，既有技术应用，也有人文思考。想以一种更轻松、更直接的对话风格，和你探讨。

请先看一支印象非常深刻的视频

视频 Agent 的另一层意义？

这是一支在 B 站有 227 万播放量的 Vlog，片名为《我用十年积蓄，拍了独属于我的 One Last Kiss》。

普普通通的素人 UP，用他自己普普通通的日常素材，做了一支并不普通的视频，拿下了全站的「每周必看」。

它的弹幕区是这样的，可以感受一下：

视频 Agent 的另一层意义？

评论区是这样的：

视频 Agent 的另一层意义？

充满了人与人之间的真情连接与感动。——「Peace & Love ！」

🧐 我不确定你们看完后是否有所触动？

会觉得这个视频绝了吗？（如果是 EVA 粉的话，可能震撼效果会翻倍吧

反正我每次回看这支视频时，总会觉得内心某处被狠狠击中。

尤其是，片子中 03:33 开始的快速闪回的画面，有种莫名的感动。（但请不要跳着看，效果会差）

甚至还想，要是能给自己做出这种视频，那该多好？

强烈建议先前往 B 站，在原版视频中，感受弹幕和评论区的真实氛围，再继续阅读本文。

原视频地址：https://www.bilibili.com/video/BV1pX4be5EJ3/

当推荐算法与 AI，对“人”发起冲击

相机的发明，旨在捕捉和保存现实世界的影像，使人们能记录和回顾那些瞬间。

有谁还记得「抖音」、「视频号」，这两家的 slogan 是“记录美好生活”和“记录真实生活”？

经过这两年的市场和算法的调教，现在提到“做抖音”、“做视频号”，我脑子里的刻板印象只剩“爆款对标”、“立人设”、“摆拍”和“擦边起号”。

再到在 AI 应用领域，也能看到 Coze 里一溜的“爆款创作”，莫得半点真人感情。

视频 Agent 的另一层意义？

coze 商店创作类的应用排序

（也可能是我自己的推荐算法问题吧，保命+1

当 AI 能完整地生成一整支视频时，我们只考虑用视频 Agent ，无中生有地制造更多同质的的“奶头乐”吗？

真人内容社区，会演变为不需要“人”的内容快消品批发市场么？

至少我个人不太希望这样。

“刷”短视频这个字眼，已经充满了暗喻。

在内容平台中，每个人制作的照片、视频，不再是独一无二的个人印记，而是可刷可不刷的“消遣物”。

我们更多的不再关注作品背后的“人”、也越来越难找到作品背后独一无二的“故事”，遑论被其所连接、触动。

放眼推荐流，更多是“搞笑段子”、“爆款爽剧”、“可爱猫狗”、“擦边卡点”等类目的“内容快消品”。

🤫 那，不如把「关注」功能删了吧？只要推荐算法能把“我所上瘾”的内容品类精准地推到我面前，又要关注功能有何用？

🤫 那，不如把「发布」功能删了吧？你看反正也快到 AIGC 批量生成的“新时代”了？

视频 Agent 的另一层意义？

当然，以上论述是有失偏颇的、不全面的。

也有很多 UP 在真实记录自己的见闻，他们也有很多的忠实关注者。

我最近就很喜欢 B 站的 @安然Nadia、@理论派甜点师小鱼、@陈师傅路亚，都很有自己的特点。（狂推 @安然Nadia 的碎碎念 Vlog）

从技术面来看，视频 Agent 应该能做到什么？

要理解视频 Agent 的能力边界，要同时考虑到 LLM 多模态理解、推理、文本生成，以及文生图、图生视频、Function Calling 的能力。

之前在 2050 大会，我分享了一张「AI 辅助视频创作」的框架，来呈现我理解的视频 Agent 应用：

视频 Agent 的另一层意义？

抛开“爆款”、“数据”部分不谈，可以关注以下这几个关键环节：

批量理解素材：用户打包导入要制作“故事”的图片、视频素材（比如某次旅游的素材、大学四年的照片回忆、孩子各年龄段的照片等），多模态 LLM 通过音轨字幕 or 画面图像，理解每段素材的含义与质量。
大纲分镜设计：根据素材自动推荐，或根据用户期望的故事，推理并生成作品的大致思路或分镜脚本。可以是给用户确认，也可以免打扰直接进入下一步。
自动剪辑：正式操作用户的素材，通过 FC 操作剪辑功能，排布素材顺序，剪辑素材长度，自动套用转场效果，逐步完成剪辑。
AIGC 补全：在遇到素材不足（比如需要把图片变成一段渐远、人物走动的视频，或生成一段配套抽象的 CG 动画），利用文生图、图生视频的手段，进行 AIGC 补全。
配乐、配音：可以是在一段完整的音乐给剪辑上素材，也可以是为边剪边配上不同的音乐、语音片段。

——至此，不难发现，现有的 AI，在理论上已经能“套壳”出相当完整的视频创作能力。

当视频 Agent 服务铺开，我们都能拥有一支虚拟的视频创意与剪辑团队。

甚至，视频 agent 不仅提供视频剪辑的服务，还能提供拍前指导。

“拍同款”不再是套用视频卡点模板，而是利用多模态推理，把某条心动视频，分解出拍摄取景点位和拍摄手法，形成完整的旅拍指引。

视频 Agent 的另一层意义？

正如《One Last Kiss》的官方 MV，歌手 @宇多田光本人 6 岁的儿子，在 @庵野秀明导演下，参与了 MV 的部分掌镜拍摄，获得日本境内最大音乐庆典的“最佳概念视频”。

视频 Agent 的另一层意义？

凭借视频 Agent 的帮助，我们也能超出自身摄影、审美的限制，更好地创作视频、传递我们的感情与经历。

【官方MV】《One Last Kiss》：https://www.bilibili.com/video/BV1Sg411w7T9/

视频 Agent 的大众化意义

所以，视频 Agent 的意义，绝不只在于追逐流量或商业交付，也不只是套用爆款套路或进行影视设计。

而是有更多机会唤醒不同用户手机、云盘里，成千上万的零散照片和视频片段。

以往，当我们在 P 图时，比如：

视频 Agent 的另一层意义？

美食摄影：我们会把照片的饱和度打高，色调更暖更浓烈；
伤心时：我们会把照片的颜色调得更蓝、更灰调；
夏季日本旅行：我们会把影片色调，调得对比更加明亮清新（过曝）的状态，以还原“日式风格”。

这都是通过滤镜手段，赋予照片更多特征点，把当时的记忆感受更加完整地呈现出来。

那视频 Agent 的意义就更丰富了。

每个人都能摆脱“剪辑的繁琐、画面导演的难度”，只需要用 AI 就能把自己记录过的素材重组为更完整的回忆。

它会有恰到好处的音乐、更好的叙事逻辑与分镜。

这些重组的“回忆录”，会取代零散的、都不太会去翻看的数千张照片和视频。或是美好丰富的旅行假期、或是一晃而逝的四年大学生活、或是淡淡酸涩味的半段恋情。

它们终将重新勾连，不仅是每个人独特的完整回忆，也可能成为家庭内、朋友之间传递情感和记忆的全新载体。

我们虽无“古代君王”之命，也不是拥有任何丰功伟绩的、需要立传的“重要人物”，但 AI 却能帮助我们每个普通人，拥有了更好、更身临其境的自我记录方式与人生回忆。

——这甚至比 Apple Vision Pro 的 Live Photo、空间视频会有更好的效果。

AI 视频 Agent，恰恰提供了这个工具，让我们能更好地“看见”自己的经历。

当人们再想起某个经历的时候，自然而然会去看 AI 重组的那段“故事”，这是非常有价值的，能够让人更加身临其境地回到原来的感动中。

而对于抖音、视频号来说，它们终于能成为记录“人”生活的社区。不再受剪辑技术、审美的限制，每个用户都能全然地分享记忆，连接感情。

比如，同样是《One Last Kiss》的风格，B 站还有很多其他的优秀 vlog 创作。

在东京，我拍出来了独属于我的《One Last Kiss》：https://www.bilibili.com/video/BV1AwYuegE5L/
含痞量极高庵野秀明风格拍摄剪辑 EVA主题曲宇多田光 One last kiss：https://www.bilibili.com/video/BV18Z4y1C7Eu/
哪个女孩不想在日本拍 One Last Kiss 呢？：https://www.bilibili.com/video/BV1ZG41117qx/

视频 Agent 的另一层意义？

在这些视频中，不再是给一段 BGM 拼凑上一段段不明所以的过场动画（短视频的实质是给快节奏 BGM 配画面）。

而是曾经经历的或美好、或酸涩、或苦痛的记忆瞬间，和一段与彼时 or 此刻心境契合的心情音乐交织在一起，让照片、视频不仅仅是回忆，更是一种可以被反复品味的情感体验。

这是我在方向性上的判断。

至于如何在技术上实现更加稳定的效果、如何确保 AI 的审美能力？

你肯定听过这类话：“上次去 xx 旅游，都半年了，还没开始剪 Vlog，素材太多了”。

那实际上，对于大多数人来讲（包括我们的父母、长辈），他们首先没精力去操作剪辑工具，更没能力去思考脚本。

即使是现阶段的 AI 来做，出来的质量也一定是比没有 AI 更好的。

况且，AI 还能在制作过程中，补充一些缺失的内容。它可以创作漫画插图，也可以直接用首尾帧的方式补全一段人物的动作过程。

这些都能比嵌套现有的简单视频过程有更好的效果，它会让整个故事串联得更加完整、沉浸。

我们应该相信这个方向，因为这是我们都所需要的。

今年 AI Agent 与 AIGC 技术，已经给出了去年做不到的水平。同样的，明年也会有今年做不到的新性能和审美水准。

只要方向没问题， AI 技术发展符合我们的人文需求，且技术理论可行性已经被验证，剩下只要等好事水到渠成就行。

小结

我们总会乐此不疲地“刷”他人展示的美好生活，也会在发布朋友圈时，学学调色指南，打磨自己的文案。

其实想要的是什么呢？

也还是希望自己也去享受这种美好生活，并像尽可能地记录自己的精彩生活，向朋友还原当时的体悟。

AI 视频 Agent 可以在这个方向，给予大多数人极大的帮助。

人生本身就是由一个个自己的故事交织而成，而不只是一张张终将“蒙尘”照片、视频片段。

利用 AI Agent 的创作与剪辑能力，把它们串联起来，人的故事自然回显。

我们终于开始记录故事，而不再是截取某幅碎片画面。

文章来自于“一泽Eze”，作者“一泽Eze”。

视频 Agent 的另一层意义？

AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用，可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址：https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用：https://aicomicfactory.app/

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！

项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址：https://github.com/n8n-io/n8n

在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。

项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file

【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用：https://vectorvein.ai/（付费）

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址：https://github.com/xszyou/Fay

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。

项目地址：https://github.com/Significant-Gravitas/AutoGPT

【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。

项目地址：https://github.com/Henry-23/VideoChat

在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址：https://github.com/PeterH0323/Streamer-Sales