摘要
本发明公开了一种基于预训练自动语音识别模型的跨语言语音文本检索方法。该方法将预训练自动语音识别模型拓展到语音文本检索系统中,并结合对比学习和低秩自适应方法对模型进行微调,实现高效的跨语言语音文本检索功能。本发明基于预训练模型初始化的编码器‑解码器结构,首先,语音数据和文本数据分别通过编码模块转换为高维特征向量,映射到统一的嵌入空间。随后,模型在嵌入空间中最小化匹配的语音与文本嵌入距离。最后,通过相似性匹配算法,模型能够将查询语音与文本库中的文本高效匹配,从而返回最相关的文本数据。实验结果表明,本发明在测试数据集上的检索精度和效率均接近或超越现有公开模型,证明其具有广泛的应用前景和显著的实用价值。
技术关键词
自动语音识别
文本检索方法
音频编码器
文本检索系统
预训练模型
令牌
交叉注意力机制
数据
高维特征向量
编码模块
更新模型参数
网络结构
随机梯度下降
解码器结构
双塔结构
系统为您推荐了相关专利信息
山洪预警
山洪灾害
无人机遥感图像
预报方法
空间感知技术
事件抽取方法
事件触发词
焦点损失函数
句法信息
实体