一种基于多模态大模型的音频生成方法

正文

推荐专利

一种基于多模态大模型的音频生成方法

申请号：CN202510098036

申请日期：2025-01-22

公开号：CN119785761A

公开日期：2025-04-08

类型：发明专利

摘要

本发明涉及一种基于多模态大模型的音频生成方法，包括以下步骤：S1：采集并标注数据，数据包括两类，分别是文本‑音频对和视频‑音频‑文本对；S2：基于文本、视频和音频训练得到多模态大模型；S3：进行第一阶段训练：固定文本编码器、视频编码器、音频编码器和多模态大模型的参数，将采集并标注的数据输入多模态大模型，以输出音频为目标，训练音频解码器；S4：进行第二阶段训练：固定文本编码器、视频编码器和音频编码器的参数，将采集并标注的数据输入多模态大模型，以输出音频和文本为目标，同时训练多模态大模型和音频解码器。本发明可以准确、高质量的生成与文本描述和视频相对应的音频，同时音视频可以实现很好的对齐效果。

技术关键词

音频生成方法多模态音频编码器音频解码器文本编码器视频编码器序列帧数据音视频参数

系统为您推荐了相关专利信息

一种基于多模态融合的医学图像增强方法及系统

语义标签医学影像数据主成分分析算法医学图像增强方法模态特征

一种基于人工智能大模型的客户服务营销数据分析方法

数据分析方法时间序列预测模型模型分析技术客户服务效率智能客服系统

一种多模态柔性挡土墙变形基坑开挖模拟试验装置及方法

柔性挡土墙基坑开挖模拟位移电机试验装置土压力传感器

一种社会舆情风险智能预测系统

智能预测系统预警机制分布式系统架构深度语义分析多模态数据融合

基于智能体的脑血管病健康监测方法

健康监测方法高风险健康状态数据脑血容量脱敏数据

一种基于多模态大模型的音频生成方法

站点导航

APP 下载