一种基于多模态大模型的音频生成方法

AITNT
正文
推荐专利
一种基于多模态大模型的音频生成方法
申请号:CN202510098036
申请日期:2025-01-22
公开号:CN119785761A
公开日期:2025-04-08
类型:发明专利
摘要
本发明涉及一种基于多模态大模型的音频生成方法,包括以下步骤:S1:采集并标注数据,数据包括两类,分别是文本‑音频对和视频‑音频‑文本对;S2:基于文本、视频和音频训练得到多模态大模型;S3:进行第一阶段训练:固定文本编码器、视频编码器、音频编码器和多模态大模型的参数,将采集并标注的数据输入多模态大模型,以输出音频为目标,训练音频解码器;S4:进行第二阶段训练:固定文本编码器、视频编码器和音频编码器的参数,将采集并标注的数据输入多模态大模型,以输出音频和文本为目标,同时训练多模态大模型和音频解码器。本发明可以准确、高质量的生成与文本描述和视频相对应的音频,同时音视频可以实现很好的对齐效果。
技术关键词
音频生成方法 多模态 音频编码器 音频解码器 文本编码器 视频编码器 序列帧 数据 音视频 参数
系统为您推荐了相关专利信息
1
一种基于多模态融合的医学图像增强方法及系统
语义标签 医学影像数据 主成分分析算法 医学图像增强方法 模态特征
2
一种基于人工智能大模型的客户服务营销数据分析方法
数据分析方法 时间序列预测模型 模型分析技术 客户服务效率 智能客服系统
3
一种多模态柔性挡土墙变形基坑开挖模拟试验装置及方法
柔性挡土墙 基坑开挖模拟 位移电机 试验装置 土压力传感器
4
一种社会舆情风险智能预测系统
智能预测系统 预警机制 分布式系统架构 深度语义分析 多模态数据融合
5
基于智能体的脑血管病健康监测方法
健康监测方法 高风险 健康状态数据 脑血容量 脱敏数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号