摘要
本申请实施例公开音频描述方法、系统、电子设备和存储介质,其中,方法包括:在对比语言‑音频预训练时,联合训练音频编码器和文本编码器,以便在共享的嵌入空间中对齐语义相似的音频文本对;在训练过程中,使用大语言模型学习解码真实字幕经由所述文本编码器产生的CLAP文本嵌入以重建字幕;在推理过程中,用所述音频编码器替换所述文本编码器,经由所述音频编码器提取音频嵌入,最后经由所述大语言模型产生最终字幕。
技术关键词
大语言模型
文本编码器
音频编码器
字幕
数据存储库
线性
网络
策略
电子设备
解码
语义
信息检索
阶段
处理器通信
存储器
系统为您推荐了相关专利信息
启发式算法
大语言模型
蒙特卡洛树搜索
节点
规划
智能审计系统
大语言模型
服务集群
交互式问答
多源异构数据
图像生成模型
图像编码器
文本编码器
图像解码器
生成输出图像
三维场景建模
地理实体
语义知识图谱
参数化三维建模
场景三维建模