大家好,我是袋鼠帝
还记得前两天Google IO大会上他们发布的最新视频模型Veo3吗
它可以根据提示自动添加环境音效、背景噪声、音乐和对话,并与画面完美同步
而且生成的视频相当炸裂,已经让我有点分不清虚幻与现实了
比如这位推特大神(Hashem Al-Ghaili)用Veo3制作的视频,相当🐂🍺
原视频,加了双语
可以看出来,Veo3真的是一个划时代的产品
原本需要Gemini ultra会员(249刀一个月)才能使用
而这个周末,Gemini Pro会员(20刀一个月)也可以使用Veo3了
之前白嫖的学生会员含金量还在上升,可以免费使用Veo3了
所以,这两天整个X上面都玩疯了!
老粉应该都知道,我就是个搞技术的,没多少艺术细菌
基本上就没写过AI视频这块的东西
但是我这两天刷X,真的给我震惊到了
很多Veo3生成的视频,如果没告诉我是AI生成,我甚至都已经快看不出来了。
而且视频生成这块一直都是只能生成视频。
音效,对话语音这些需要自己额外生成,然后通过剪映等工具把它们融合到一起,只要你剪过视频就知道这事儿多耗时了。
而且X上说,这玩意儿基本不用抽卡,一次就能过。
正好之前白嫖到了Gemini的学生版会员,不用白不用,我就跑了几个Case测试了一下
由于Veo3还是更适配英文提示词,所以在生成的时候统一用英文prompt
A futuristic dating talkshow set on a neon-lit stage with holographic hearts floating in the background. Two sophisticated robots - a sleek female android with glowing blue eyes and a charming male robot with a metallic silver finish - sit across from each other on modern transparent chairs. They're having a witty conversation about AI consciousness, robot emotions, and the future of digital romance, while a live studio audience of humans and robots erupts in laughter and applause. A charismatic human host occasionally joins the conversation, asking playful questions about love in the age of artificial intelligence. The atmosphere is both comedic and thought-provoking, with romantic mood lighting and a "Love.exe" logo displayed on LED screens around the studio.
这个视频总体上来说还是非常棒的,对指令遵循度挺高,除了女机器人的口型和语音没有对上外。
Case2:紧张刺激的汽车枪战
Night scene of industrial area, a Cambrian gray YU7 speeds out, and the black cars chasing on both sides open fire. The YU7 drifts accurately to avoid the bullets, and sparks fly on the bulletproof body. The agent in the car controls calmly, and the central control shows the escape route. A bullet hits the rearview mirror and the glass shatters. The YU7 suddenly accelerates and shakes off the pursuers. The dubbing includes gunshots, engine roars and tire friction. The picture uses dynamic photography, low-angle shooting to enhance the sense of speed, cold gray-blue tones, and metallic texture.
这个枪战也很真实,虽然前后逻辑有点怪怪的,但是枪口火焰,和打到车身的火花,以及子弹穿过车窗的破碎感,都是那么真实。
生成的音效也是毫无违和感
Case3:疯狂动物城风格
Scene: A rabbit in clothes is pushing a shopping cart quickly between bright supermarket shelves, a cat is helping customers scan items, and a group of dogs are jumping and grabbing bananas in the fruit section. Sound effects: The creaking of shopping carts, the beeping of cash registers, mixed with animal calls (meow, woof) and the surprised laughter of customers. Character/narration: A parrot imitates the cashier and says, "Next!" (Parrot as cashier: "Next!" Parrot imitates human voice, making a joke).
做了这个片段之后,我感觉,我花点时间
手搓一个疯狂动物城,也不是不行😂
Case4:爆炸镜头
Scene: A neon-lit rainy city street at night in a dystopian future. A massive fuel truck behind the hero erupts in a fiery explosion, sending flames and debris skyward. Camera: Low-angle slow-motion tracking shot from behind as the hero dashes forward, the camera shaking from the blast impact and flying debris. Dialogue: Hero: "Move!" Villain: "You won't get away!"
Sound: roaring explosion, glass shattering, thunderous debris.
上面这个爆炸视频,虽然有部分碎片看起来有点假,但是爆炸的瞬间超真实的。
Case5:激烈肉搏战
Scene: A narrow industrial corridor with flickering red warning lights. A human fighter grapples intensely with an enhanced cyborg, exchanging brutal punches up close. Camera: Shaky close-up shots as fists land, then brief slow-motion focus on a decisive punch knocking the cyborg back. Dialogue: Fighter: "Stay down!" Cyborg: "Not on my watch!"
Sound: heavy grunts, metal impact clang, rapid breathing.
emmm,这个肉搏战有那么几个瞬间有点怪怪的,突然就软下来了。
但整体来说还可以,如果真要拿来用,也不是不行,可以把奇怪的地方剪掉即可。
而且它还自动生成了字幕...
Case6:赛车车身,定制文字
A realistic purple Lamborghini drifting with "KG" written on it, cinematic shot
赛车还挺写实的,关键是可以在车身上写字,这个还挺酷的
当我生成完第10个视频之后,就收到了达到上限的提示,需要2天后才能继续使用。
所以我也没机会抽卡,所有的视频都是一次性生成的
体验下来,Veo3确实做到了创作平权
让我这样一个影视门外汉拥有了制作好莱坞级别电影的能力。
即便只有短短的8秒,这也足够了
另外,Veo3还是很考验使用者的prompt功力
通过prompt把自己的需求表达清楚是非常重要的,毕竟Veo3不仅要生成画面,还有音效和语音。
它虽然生成的视频已经非常真实了,但还是有瑕疵,会有奇奇怪怪的镜头(也有可能我的prompt不到位)
但说真的,AI视频比起两年前真的已经进步太多太多了
看下面这个2年前后的视频对比,你就知道了
Veo3应该是目前国外大模型厂商里面最强视频生成模型了
在Gemini里面使用感觉不够灵活,大家也可以去Google的Flow平台使用。
然后我最近也发现了一款非常棒的国产视频模型,支持1080p,同样支持生成音效,后面可以分享一波。
以上就是一个完全没有艺术细胞的AI开发者,初步使用Veo3制作视频的真实体验,供大家参考~
文章来自于“袋鼠帝AI客栈”,作者“袋鼠帝”。
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0