周末和一位在字节做视频 Agent 的 PM 聊天,想到了一个好问题。
这两天 Lovart、Medeo 等图像、视频 Agent 接连冒头。
但,除了让人人都能“一键做爆款”、“数字人生成”、“出大片”这些很有用,但离生活很远的生产力应用以外,「视频 Agent」还有什么现实意义?
对此,我有些个人想法,既有技术应用,也有人文思考。想以一种更轻松、更直接的对话风格,和你探讨。
这是一支在 B 站有 227 万播放量的 Vlog,片名为《我用十年积蓄,拍了独属于我的 One Last Kiss》。
普普通通的素人 UP,用他自己普普通通的日常素材,做了一支并不普通的视频,拿下了全站的「每周必看」。
它的弹幕区是这样的,可以感受一下:
评论区是这样的:
充满了人与人之间的真情连接与感动。——「Peace & Love !」
🧐 我不确定你们看完后是否有所触动?
会觉得这个视频绝了吗?(如果是 EVA 粉的话,可能震撼效果会翻倍吧
反正我每次回看这支视频时,总会觉得内心某处被狠狠击中。
尤其是,片子中 03:33 开始的快速闪回的画面,有种莫名的感动。(但请不要跳着看,效果会差)
甚至还想,要是能给自己做出这种视频,那该多好?
强烈建议先前往 B 站,在原版视频中,感受弹幕和评论区的真实氛围,再继续阅读本文。
原视频地址:https://www.bilibili.com/video/BV1pX4be5EJ3/
相机的发明,旨在捕捉和保存现实世界的影像,使人们能记录和回顾那些瞬间。
有谁还记得「抖音」、「视频号」,这两家的 slogan 是“记录美好生活”和“记录真实生活”?
经过这两年的市场和算法的调教,现在提到“做抖音”、“做视频号”,我脑子里的刻板印象只剩“爆款对标”、“立人设”、“摆拍”和“擦边起号”。
再到在 AI 应用领域,也能看到 Coze 里一溜的“爆款创作”,莫得半点真人感情。
coze 商店创作类的应用排序
(也可能是我自己的推荐算法问题吧,保命+1
当 AI 能完整地生成一整支视频时,我们只考虑用视频 Agent ,无中生有地制造更多同质的的“奶头乐”吗?
真人内容社区,会演变为不需要“人”的内容快消品批发市场么?
至少我个人不太希望这样。
“刷”短视频这个字眼,已经充满了暗喻。
在内容平台中,每个人制作的照片、视频,不再是独一无二的个人印记,而是可刷可不刷的“消遣物”。
我们更多的不再关注作品背后的“人”、也越来越难找到作品背后独一无二的“故事”,遑论被其所连接、触动。
放眼推荐流,更多是“搞笑段子”、“爆款爽剧”、“可爱猫狗”、“擦边卡点”等类目的“内容快消品”。
🤫 那,不如把「关注」功能删了吧?只要推荐算法能把“我所上瘾”的内容品类精准地推到我面前,又要关注功能有何用?
🤫 那,不如把「发布」功能删了吧?你看反正也快到 AIGC 批量生成的“新时代”了?
当然,以上论述是有失偏颇的、不全面的。
也有很多 UP 在真实记录自己的见闻,他们也有很多的忠实关注者。
我最近就很喜欢 B 站的 @安然Nadia、@理论派甜点师小鱼、@陈师傅路亚,都很有自己的特点。(狂推 @安然Nadia 的碎碎念 Vlog)
要理解视频 Agent 的能力边界,要同时考虑到 LLM 多模态理解、推理、文本生成,以及文生图、图生视频、Function Calling 的能力。
之前在 2050 大会,我分享了一张「AI 辅助视频创作」的框架,来呈现我理解的视频 Agent 应用:
抛开“爆款”、“数据”部分不谈,可以关注以下这几个关键环节:
——至此,不难发现,现有的 AI,在理论上已经能“套壳”出相当完整的视频创作能力。
当视频 Agent 服务铺开,我们都能拥有一支虚拟的视频创意与剪辑团队。
甚至,视频 agent 不仅提供视频剪辑的服务,还能提供拍前指导。
“拍同款”不再是套用视频卡点模板,而是利用多模态推理,把某条心动视频,分解出拍摄取景点位和拍摄手法,形成完整的旅拍指引。
正如《One Last Kiss》的官方 MV,歌手 @宇多田光 本人 6 岁的儿子,在 @庵野秀明 导演下,参与了 MV 的部分掌镜拍摄,获得日本境内最大音乐庆典的“最佳概念视频”。
凭借视频 Agent 的帮助,我们也能超出自身摄影、审美的限制,更好地创作视频、传递我们的感情与经历。
【官方MV】《One Last Kiss》:https://www.bilibili.com/video/BV1Sg411w7T9/
所以,视频 Agent 的意义,绝不只在于追逐流量或商业交付,也不只是套用爆款套路或进行影视设计。
而是有更多机会唤醒不同用户手机、云盘里,成千上万的零散照片和视频片段。
以往,当我们在 P 图时,比如:
这都是通过滤镜手段,赋予照片更多特征点,把当时的记忆感受更加完整地呈现出来。
那视频 Agent 的意义就更丰富了。
每个人都能摆脱“剪辑的繁琐、画面导演的难度”,只需要用 AI 就能把自己记录过的素材重组为更完整的回忆。
它会有恰到好处的音乐、更好的叙事逻辑与分镜。
这些重组的“回忆录”,会取代零散的、都不太会去翻看的数千张照片和视频。或是美好丰富的旅行假期、或是一晃而逝的四年大学生活、或是淡淡酸涩味的半段恋情。
它们终将重新勾连,不仅是每个人独特的完整回忆,也可能成为家庭内、朋友之间传递情感和记忆的全新载体。
我们虽无“古代君王”之命,也不是拥有任何丰功伟绩的、需要立传的“重要人物”,但 AI 却能帮助我们每个普通人,拥有了更好、更身临其境的自我记录方式与人生回忆。
——这甚至比 Apple Vision Pro 的 Live Photo、空间视频会有更好的效果。
AI 视频 Agent,恰恰提供了这个工具,让我们能更好地“看见”自己的经历。
当人们再想起某个经历的时候,自然而然会去看 AI 重组的那段“故事”,这是非常有价值的,能够让人更加身临其境地回到原来的感动中。
而对于抖音、视频号来说,它们终于能成为记录“人”生活的社区。不再受剪辑技术、审美的限制,每个用户都能全然地分享记忆,连接感情。
比如,同样是《One Last Kiss》的风格,B 站还有很多其他的优秀 vlog 创作。
在这些视频中,不再是给一段 BGM 拼凑上一段段不明所以的过场动画(短视频的实质是给快节奏 BGM 配画面)。
而是曾经经历的或美好、或酸涩、或苦痛的记忆瞬间,和一段与彼时 or 此刻心境契合的心情音乐交织在一起,让照片、视频不仅仅是回忆,更是一种可以被反复品味的情感体验。
这是我在方向性上的判断。
至于如何在技术上实现更加稳定的效果、如何确保 AI 的审美能力?
你肯定听过这类话:“上次去 xx 旅游,都半年了,还没开始剪 Vlog,素材太多了”。
那实际上,对于大多数人来讲(包括我们的父母、长辈),他们首先没精力去操作剪辑工具,更没能力去思考脚本。
即使是现阶段的 AI 来做,出来的质量也一定是比没有 AI 更好的。
况且,AI 还能在制作过程中,补充一些缺失的内容。它可以创作漫画插图,也可以直接用首尾帧的方式补全一段人物的动作过程。
这些都能比嵌套现有的简单视频过程有更好的效果,它会让整个故事串联得更加完整、沉浸。
我们应该相信这个方向,因为这是我们都所需要的。
今年 AI Agent 与 AIGC 技术,已经给出了去年做不到的水平。同样的,明年也会有今年做不到的新性能和审美水准。
只要方向没问题, AI 技术发展符合我们的人文需求,且技术理论可行性已经被验证,剩下只要等好事水到渠成就行。
我们总会乐此不疲地“刷”他人展示的美好生活,也会在发布朋友圈时,学学调色指南,打磨自己的文案。
其实想要的是什么呢?
也还是希望自己也去享受这种美好生活,并像尽可能地记录自己的精彩生活,向朋友还原当时的体悟。
AI 视频 Agent 可以在这个方向,给予大多数人极大的帮助。
人生本身就是由一个个自己的故事交织而成,而不只是一张张终将“蒙尘”照片、视频片段。
利用 AI Agent 的创作与剪辑能力,把它们串联起来,人的故事自然回显。
我们终于开始记录故事,而不再是截取某幅碎片画面。
文章来自于“一泽Eze”,作者“一泽Eze”。
【开源免费】ai-comic-factory是一个利用AI生成漫画的创作工具。该项目通过大语言模型和扩散模型的组合使用,可以让没有任何绘画基础的用户完成属于自己的漫画创作。
项目地址:https://github.com/jbilcke-hf/ai-comic-factory?tab=readme-ov-file
在线使用:https://aicomicfactory.app/
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales