音频描述方法、系统、电子设备和存储介质

AITNT
正文
推荐专利
音频描述方法、系统、电子设备和存储介质
申请号:CN202411463254
申请日期:2024-10-18
公开号:CN119517010B
公开日期:2025-12-16
类型:发明专利
摘要
本申请实施例公开音频描述方法、系统、电子设备和存储介质,其中,方法包括:在对比语言‑音频预训练时,联合训练音频编码器和文本编码器,以便在共享的嵌入空间中对齐语义相似的音频文本对;在训练过程中,使用大语言模型学习解码真实字幕经由所述文本编码器产生的CLAP文本嵌入以重建字幕;在推理过程中,用所述音频编码器替换所述文本编码器,经由所述音频编码器提取音频嵌入,最后经由所述大语言模型产生最终字幕。
技术关键词
大语言模型 文本编码器 音频编码器 字幕 数据存储库 线性 网络 策略 电子设备 解码 语义 信息检索 阶段 处理器通信 存储器
系统为您推荐了相关专利信息
1
基于大语言模型的自动启发式算法规划方法
启发式算法 大语言模型 蒙特卡洛树搜索 节点 规划
2
一种自动化构建长视频问答数据集的方法与系统
视频 数据 字幕 大语言模型 模块
3
一种基于大语言模型驱动的智能审计系统和方法
智能审计系统 大语言模型 服务集群 交互式问答 多源异构数据
4
图像生成模型及其训练和图像生成方法
图像生成模型 图像编码器 文本编码器 图像解码器 生成输出图像
5
大语言模型驱动的地理场景参数化三维建模方法、系统、存储介质及程序产品
三维场景建模 地理实体 语义知识图谱 参数化三维建模 场景三维建模
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号