摘要
本发明提供一种语音大模型的自适应层次表征对齐训练方法及装置,涉及自然语言处理技术领域;该方法包括:基于内部语音适应器,根据候选语音大模型,使用源语音以及文本提示词进行模型训练,获得第一语音大模型;基于跨模态语义检索任务,根据源语音以及源语音转录文本,对第一语音大模型的进行语义检索能力筛选,获得最优神经网络层级;基于最优神经网络层级,根据源语音、文本提示词和源语音转录文本,通过第一语音大模型进行预测,并计算模型预测损失;根据模型预测损失,对第一语音大模型进行参数优化,获得第二语音大模型;本发明是一种充分利用源语音和转录文本的映射关系的高效且准确的自适应层次表征对齐训练方法。
技术关键词
注意力
层级
语义
矩阵
计算机可读取存储介质
跨模态
文本生成模型
计算机可读指令
训练设备
训练装置
语音编码器
模型训练模块
数据获取模块
自然语言
处理器
度量