豆包全新视频生成模型、视觉深度思考模型发布

搜索
AI-TNT
正文
资源拓展
豆包全新视频生成模型、视觉深度思考模型发布
2025-05-14 11:49

5月13日,在 FORCE LINK AI 创新巡展·上海站,火山引擎发布豆包·视频生成模型 Seedance 1.0 lite、豆包1.5·视觉深度思考模型,升级豆包·音乐模型。同时,Data Agent 正式亮相、Trae 接入豆包深度思考模型并全新升级。火山引擎正在以更强大的模型矩阵、更丰富的智能体工具,帮助企业打通从业务到智能体的应用链路。


巨人网络、礼来制药等行业龙头企业,也在会上分享了在生产实践中运用大模型的成果和经验。


豆包·视频生成模型

Seedance 1.0 lite发布

效果好、生成快、更便宜


此次全新发布的豆包视频生成模型 Seedance 1.0 lite,支持文生视频、图生视频,视频生成时长支持5s、10s,分辨率提供480P、720P。企业用户可在火山方舟平台使用该模型 API,个人用户也可在豆包 APP、即梦体验。


作为豆包视频生成模型系列的小参数量版本,Seedance 1.0 lite 模型实现了两大突破:影视级的视频生成质量、视频生成速度大幅提升,兼顾效果、速度、性价比。


更精准的指令遵循:通过强大的语义理解,可精细控制人物外貌气质、衣着风格、表情动作等,并在多主体动作解析、嵌入式文本响应、程度副词和镜头切换响应方面具有优势。


更丰富的影视级运镜:支持360度环绕、航拍、变焦、平移、跟随、手持等多种镜头语言,具备细腻高清的基础画质和影视级美感。


更合理的运动交互:分析动作时序与空间关系,提升人物、物体间自然流畅的交互动作,运动轨迹、受力反馈更加契合现实规律。


Seedance 1.0 lite 模型可广泛应用于电商广告、娱乐特效、影视创作、动态壁纸等场景。例如在电商领域,可帮助商家快速生成高质量的营销视频素材,精准匹配产品展示、活动推广等场景,降低制作成本与周期。


豆包1.5

视觉深度思考模型发布

取得38个SOTA表现


新发布的豆包1.5·视觉深度思考模型(Doubao-1.5-thinking-vision-pro),激活参数仅20B,但具备强大的多模态理解和推理能力,在60个公开评测基准中,有38个取得 SOTA 表现,在视频理解、视觉推理、GUI Agent 能力等方面均处于第一梯队。目前,该模型已在火山方舟上线(点击阅读原文即可体验)。


豆包全新视频生成模型、视觉深度思考模型发布


在视频理解方面,支持动态帧率采样,视频时序定位能力显著增强,结合向量搜索,可精准定位视频中与文本描述相对应的片段。


豆包全新视频生成模型、视觉深度思考模型发布

视频时序定位:准确定位钥匙位置和钥匙找到的时间


同时,新增视频深度思考能力。模型学习了数万亿多模态标记数据,掌握广泛视觉知识,结合强化学习,使视觉推理能力大幅提升。例如,在复杂的图形推理题中,模型提出假设,进行推理检验,当发现和假设不一样时,还能进行不断反思,提出新的猜测,直到得出正确答案。


豆包全新视频生成模型、视觉深度思考模型发布

复杂视觉推理:图形推理解题、元素关联解析、视觉精准定位


此外,该模型新增 GUI Agent 能力。基于强大的 GUI 定位性能,可在 PC 端、手机端等不同环境中完成复杂交互任务。例如,可对新开发的 APP 功能进行自动化检测,目前该功能已经应用于字节跳动多款 APP 产品的开发测试中。


豆包全新视频生成模型、视觉深度思考模型发布

多模态智能体:检测 APP 中朋友 Tab 点赞功能


去年火山引擎推出了豆包·音乐模型,用户仅通过一张图、一句话就可以创作10多种不同风格的高品质音乐。此次大会上,豆包·音乐模型升级,不仅支持英文歌曲创作,还可以通过理解视频,自动适配纯音乐 BGM。目前豆包·音乐模型已全量上线,个人和企业用户可在海绵音乐、火山引擎官网体验。


豆包全新视频生成模型、视觉深度思考模型发布


Data Agent正式亮相

Trae接入豆包深度思考模型


Data Agent 是火山引擎推出的企业数据全场景智能体,具备主动思考、洞察、分析、行动能力,可以帮助企业挖掘数据资产价值,功能覆盖数据分析、智能营销等关键领域。


在数据分析上,Data Agent 能融合企业内结构化与非结构化数据,结合联网知识,精准理解业务需求,快速生成专业深度研究报告。通过自动化制定分析方案、追溯指标波动、运用自助分析工具及搭建预警系统,实现数据处理全流程智能化,将复杂报表生成的时间从2天缩短至30分钟,显著提升数据获取与决策效率。


在智能营销领域,Data Agent 实现从策略制定到执行优化的全链路闭环管理,高效完成人群圈选与策略拆解,基于个性化引擎实现精准营销。此外,其智能会话辅助与自动复盘优化功能,可不断提升转化率与客户满意度,动态迭代营销策略。


此外,为帮助开发者更便捷地利用 AI 提升开发效率,国内首款 AI 原生 IDE 产品 Trae 也带来多个重点功能升级,例如统一的 AI 对话面板(所有交互仅需一个对话框)、支持自定义 @Agent(构建你的专属 AI 团队)、新增联网搜索 #Web 和文档 #Doc 的上下文理解类型(AI 执行需求更准确高效)、通过 MCP 让 AI 主动调用外部工具等。


目前,Trae 已配置豆包1.5·深度思考模型(Doubao-1.5-thinking-pro),基于模型主动深度思考和20毫秒极低延迟,让代码生成的质量更好、效率更高。


豆包大模型产业落地加速

为游戏、医药行业智能化提效


目前,豆包大模型已在汽车、智能终端、互联网、金融、教育科研、零售消费等行业广泛落地,覆盖4亿终端设备、八成主流车企、70%系统重要性银行和数十家证券基金公司、近七成的 C9顶级高校和100多家科研院所。


豆包全新视频生成模型、视觉深度思考模型发布

巨人网络 AI 事业部负责人 丁超凡


在游戏行业,巨人网络正在借助大模型能力重塑游戏体验和玩法创新。通过火山方舟接入豆包大模型及 DeepSeek,巨人网络已在旗下《太空杀》中推出 Al 原生游戏玩法“内鬼挑战”,基于大模型深度思考等能力打造 Al 玩家,与真实玩家进行实时策略对抗,重新定义了社交推理游戏的智能边界。


同时,《原始征途》也接入大模型能力打造 AI 智能 NPC“小师妹”,在游戏策略指导、情感陪伴等方面提供更智能、更人性化的交互体验,显著提升了玩家粘性。


此外,借助火山引擎机器学习平台所提供的大模型训练及资源保障,巨人网络亦推进了自研大模型的迭代优化。


豆包全新视频生成模型、视觉深度思考模型发布

礼来制药 IT 业务伙伴 AI 负责人 Ellen Xu


在医疗行业,礼来制药搭建了专属 AI 应用开发平台,支撑从药物研发到疾病诊疗的全场景创新。通过可视化工作流编排,礼来制药搭建了 HCP Chatbot,地区经理辅导报告等智能体,在学术沟通、销售培训、疾病教育等多个场景中形成应用,实现了企业 AI 资产的沉淀与持续化运营。


豆包全新视频生成模型、视觉深度思考模型发布

英特尔云与行业解决方案架构师 陈治文


此外,火山引擎也携手英特尔,持续提升大模型部署效率、降低算力成本。


文章来自于“火山引擎”,作者“面向AI时代的”。


豆包全新视频生成模型、视觉深度思考模型发布

1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

IOS下载
安卓下载
微信群
沪ICP备2023015588号