音频描述方法、系统、电子设备和存储介质

正文

推荐专利

音频描述方法、系统、电子设备和存储介质

申请号：CN202411463254

申请日期：2024-10-18

公开号：CN119517010B

公开日期：2025-12-16

类型：发明专利

摘要

本申请实施例公开音频描述方法、系统、电子设备和存储介质，其中，方法包括：在对比语言‑音频预训练时，联合训练音频编码器和文本编码器，以便在共享的嵌入空间中对齐语义相似的音频文本对；在训练过程中，使用大语言模型学习解码真实字幕经由所述文本编码器产生的CLAP文本嵌入以重建字幕；在推理过程中，用所述音频编码器替换所述文本编码器，经由所述音频编码器提取音频嵌入，最后经由所述大语言模型产生最终字幕。

技术关键词

大语言模型文本编码器音频编码器字幕数据存储库线性网络策略电子设备解码语义信息检索阶段处理器通信存储器

系统为您推荐了相关专利信息

基于大语言模型的自动启发式算法规划方法

启发式算法大语言模型蒙特卡洛树搜索节点规划

一种自动化构建长视频问答数据集的方法与系统

视频数据字幕大语言模型模块

一种基于大语言模型驱动的智能审计系统和方法

智能审计系统大语言模型服务集群交互式问答多源异构数据

图像生成模型及其训练和图像生成方法

图像生成模型图像编码器文本编码器图像解码器生成输出图像

大语言模型驱动的地理场景参数化三维建模方法、系统、存储介质及程序产品

三维场景建模地理实体语义知识图谱参数化三维建模场景三维建模

音频描述方法、系统、电子设备和存储介质

站点导航

APP 下载