视频 Agent 的另一层意义?

搜索
AI-TNT
正文
资源拓展
视频 Agent 的另一层意义?
2025-05-20 10:29

视频 Agent 的另一层意义?


周末和一位在字节做视频 Agent 的 PM 聊天,想到了一个好问题。


这两天 Lovart、Medeo 等图像、视频 Agent 接连冒头。

但,除了让人人都能“一键做爆款”、“数字人生成”、“出大片”这些很有用,但离生活很远的生产力应用以外,「视频 Agent」还有什么现实意义?


对此,我有些个人想法,既有技术应用,也有人文思考。想以一种更轻松、更直接的对话风格,和你探讨。


请先看一支印象非常深刻的视频


视频 Agent 的另一层意义?


这是一支在 B 站有 227 万播放量的 Vlog,片名为《我用十年积蓄,拍了独属于我的 One Last Kiss》


普普通通的素人 UP,用他自己普普通通的日常素材,做了一支并不普通的视频,拿下了全站的「每周必看」。


它的弹幕区是这样的,可以感受一下:


视频 Agent 的另一层意义?


评论区是这样的:


视频 Agent 的另一层意义?


视频 Agent 的另一层意义?


充满了人与人之间的真情连接与感动。——「Peace & Love !」


🧐 我不确定你们看完后是否有所触动?


会觉得这个视频绝了吗?(如果是 EVA 粉的话,可能震撼效果会翻倍吧


反正我每次回看这支视频时,总会觉得内心某处被狠狠击中。


尤其是,片子中 03:33 开始的快速闪回的画面,有种莫名的感动。(但请不要跳着看,效果会差)


甚至还想,要是能给自己做出这种视频,那该多好?


强烈建议先前往 B 站,在原版视频中,感受弹幕和评论区的真实氛围,再继续阅读本文。

原视频地址:https://www.bilibili.com/video/BV1pX4be5EJ3/


当推荐算法与 AI,对“人”发起冲击


相机的发明,旨在捕捉和保存现实世界的影像,使人们能记录和回顾那些瞬间。


有谁还记得「抖音」、「视频号」,这两家的 slogan 是“记录美好生活”和“记录真实生活”?


经过这两年的市场和算法的调教,现在提到“做抖音”、“做视频号”,我脑子里的刻板印象只剩“爆款对标”、“立人设”、“摆拍”和“擦边起号”。


再到在 AI 应用领域,也能看到 Coze 里一溜的“爆款创作”,莫得半点真人感情。


视频 Agent 的另一层意义?

coze 商店创作类的应用排序


(也可能是我自己的推荐算法问题吧,保命+1


当 AI 能完整地生成一整支视频时,我们只考虑用视频 Agent ,无中生有地制造更多同质的的“奶头乐”吗?


真人内容社区,会演变为不需要“人”的内容快消品批发市场么?


至少我个人不太希望这样。


“刷”短视频这个字眼,已经充满了暗喻。


在内容平台中,每个人制作的照片、视频,不再是独一无二的个人印记,而是可刷可不刷的“消遣物”。


我们更多的不再关注作品背后的“人”、也越来越难找到作品背后独一无二的“故事”,遑论被其所连接、触动。


放眼推荐流,更多是“搞笑段子”、“爆款爽剧”、“可爱猫狗”、“擦边卡点”等类目的“内容快消品”。


🤫 那,不如把「关注」功能删了吧?只要推荐算法能把“我所上瘾”的内容品类精准地推到我面前,又要关注功能有何用?


🤫 那,不如把「发布」功能删了吧?你看反正也快到 AIGC 批量生成的“新时代”了?


视频 Agent 的另一层意义?


当然,以上论述是有失偏颇的、不全面的。


也有很多 UP 在真实记录自己的见闻,他们也有很多的忠实关注者。


我最近就很喜欢 B 站的 @安然Nadia、@理论派甜点师小鱼、@陈师傅路亚,都很有自己的特点。(狂推 @安然Nadia 的碎碎念 Vlog)


从技术面来看,视频 Agent 应该能做到什么?


要理解视频 Agent 的能力边界,要同时考虑到 LLM 多模态理解、推理、文本生成,以及文生图、图生视频、Function Calling 的能力。


之前在 2050 大会,我分享了一张「AI 辅助视频创作」的框架,来呈现我理解的视频 Agent 应用:


视频 Agent 的另一层意义?


抛开“爆款”、“数据”部分不谈,可以关注以下这几个关键环节:


  • 批量理解素材:用户打包导入要制作“故事”的图片、视频素材(比如某次旅游的素材、大学四年的照片回忆、孩子各年龄段的照片等),多模态 LLM 通过音轨字幕 or 画面图像,理解每段素材的含义与质量。
  • 大纲分镜设计:根据素材自动推荐,或根据用户期望的故事,推理并生成作品的大致思路或分镜脚本。可以是给用户确认,也可以免打扰直接进入下一步。
  • 自动剪辑:正式操作用户的素材,通过 FC 操作剪辑功能,排布素材顺序,剪辑素材长度,自动套用转场效果,逐步完成剪辑。
  • AIGC 补全:在遇到素材不足(比如需要把图片变成一段渐远、人物走动的视频,或生成一段配套抽象的 CG 动画),利用文生图、图生视频的手段,进行 AIGC 补全。
  • 配乐、配音:可以是在一段完整的音乐给剪辑上素材,也可以是为边剪边配上不同的音乐、语音片段。


——至此,不难发现,现有的 AI,在理论上已经能“套壳”出相当完整的视频创作能力。


当视频 Agent 服务铺开,我们都能拥有一支虚拟的视频创意与剪辑团队。


甚至,视频 agent 不仅提供视频剪辑的服务,还能提供拍前指导


“拍同款”不再是套用视频卡点模板,而是利用多模态推理,把某条心动视频,分解出拍摄取景点位和拍摄手法,形成完整的旅拍指引。


视频 Agent 的另一层意义?


正如《One Last Kiss》的官方 MV,歌手 @宇多田光 本人 6 岁的儿子,在 @庵野秀明 导演下,参与了 MV 的部分掌镜拍摄,获得日本境内最大音乐庆典的“最佳概念视频”。


视频 Agent 的另一层意义?


视频 Agent 的另一层意义?


凭借视频 Agent 的帮助,我们也能超出自身摄影、审美的限制,更好地创作视频、传递我们的感情与经历。


【官方MV】《One Last Kiss》:https://www.bilibili.com/video/BV1Sg411w7T9/


视频 Agent 的大众化意义


所以,视频 Agent 的意义,绝不只在于追逐流量或商业交付,也不只是套用爆款套路或进行影视设计。


而是有更多机会唤醒不同用户手机、云盘里,成千上万的零散照片和视频片段。


以往,当我们在 P 图时,比如:


视频 Agent 的另一层意义?


  • 美食摄影:我们会把照片的饱和度打高,色调更暖更浓烈;
  • 伤心时:我们会把照片的颜色调得更蓝、更灰调;
  • 夏季日本旅行:我们会把影片色调,调得对比更加明亮清新(过曝)的状态,以还原“日式风格”。


这都是通过滤镜手段,赋予照片更多特征点,把当时的记忆感受更加完整地呈现出来。


那视频 Agent 的意义就更丰富了。

每个人都能摆脱“剪辑的繁琐、画面导演的难度”,只需要用 AI 就能把自己记录过的素材重组为更完整的回忆。


它会有恰到好处的音乐、更好的叙事逻辑与分镜。


这些重组的“回忆录”,会取代零散的、都不太会去翻看的数千张照片和视频。或是美好丰富的旅行假期、或是一晃而逝的四年大学生活、或是淡淡酸涩味的半段恋情。


它们终将重新勾连,不仅是每个人独特的完整回忆,也可能成为家庭内、朋友之间传递情感和记忆的全新载体


我们虽无“古代君王”之命,也不是拥有任何丰功伟绩的、需要立传的“重要人物”,但 AI 却能帮助我们每个普通人,拥有了更好、更身临其境的自我记录方式与人生回忆。


——这甚至比 Apple Vision Pro 的 Live Photo、空间视频会有更好的效果。


AI 视频 Agent,恰恰提供了这个工具,让我们能更好地“看见”自己的经历。


当人们再想起某个经历的时候,自然而然会去看 AI 重组的那段“故事”,这是非常有价值的,能够让人更加身临其境地回到原来的感动中。


而对于抖音、视频号来说,它们终于能成为记录“人”生活的社区。不再受剪辑技术、审美的限制,每个用户都能全然地分享记忆,连接感情。


比如,同样是《One Last Kiss》的风格,B 站还有很多其他的优秀 vlog 创作。


  • 在东京,我拍出来了独属于我的《One Last Kiss》:https://www.bilibili.com/video/BV1AwYuegE5L/
  • 含痞量极高 庵野秀明风格拍摄剪辑 EVA主题曲 宇多田光 One last kiss:https://www.bilibili.com/video/BV18Z4y1C7Eu/
  • 哪个女孩不想在日本拍 One Last Kiss 呢?:https://www.bilibili.com/video/BV1ZG41117qx/


视频 Agent 的另一层意义?


在这些视频中,不再是给一段 BGM 拼凑上一段段不明所以的过场动画(短视频的实质是给快节奏 BGM 配画面)。


而是曾经经历的或美好、或酸涩、或苦痛的记忆瞬间,和一段与彼时 or 此刻心境契合的心情音乐交织在一起,让照片、视频不仅仅是回忆,更是一种可以被反复品味的情感体验。


这是我在方向性上的判断


至于如何在技术上实现更加稳定的效果、如何确保 AI 的审美能力?


你肯定听过这类话:“上次去 xx 旅游,都半年了,还没开始剪 Vlog,素材太多了”。


那实际上,对于大多数人来讲(包括我们的父母、长辈),他们首先没精力去操作剪辑工具,更没能力去思考脚本。


即使是现阶段的 AI 来做,出来的质量也一定是比没有 AI 更好的。


况且,AI 还能在制作过程中,补充一些缺失的内容。它可以创作漫画插图,也可以直接用首尾帧的方式补全一段人物的动作过程。


这些都能比嵌套现有的简单视频过程有更好的效果,它会让整个故事串联得更加完整、沉浸。


我们应该相信这个方向,因为这是我们都所需要的。


今年 AI Agent 与 AIGC 技术,已经给出了去年做不到的水平。同样的,明年也会有今年做不到的新性能和审美水准。


只要方向没问题, AI 技术发展符合我们的人文需求,且技术理论可行性已经被验证,剩下只要等好事水到渠成就行。


小结


我们总会乐此不疲地“刷”他人展示的美好生活,也会在发布朋友圈时,学学调色指南,打磨自己的文案。


其实想要的是什么呢?


也还是希望自己也去享受这种美好生活,并像尽可能地记录自己的精彩生活,向朋友还原当时的体悟。


AI 视频 Agent 可以在这个方向,给予大多数人极大的帮助。


人生本身就是由一个个自己的故事交织而成,而不只是一张张终将“蒙尘”照片、视频片段。


利用 AI Agent 的创作与剪辑能力,把它们串联起来,人的故事自然回显。


我们终于开始记录故事,而不再是截取某幅碎片画面。


文章来自于“一泽Eze”,作者“一泽Eze”。


视频 Agent 的另一层意义?

1
AI漫画

【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。

项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file

在线使用:https://aicomicfactory.app/

2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

4
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

5
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales

IOS下载
安卓下载
微信群
沪ICP备2023015588号