基于跨模态注意力、全局记忆和动态卷积的语音翻译模型训练方法、语音翻译方法及装置

正文

推荐专利

申请号：CN202511206341

申请日期：2025-08-27

公开号：CN120877720A

公开日期：2025-10-31

类型：发明专利

摘要

本申请公开了一种基于跨模态注意力、全局记忆和动态卷积的语音翻译模型训练方法、语音翻译方法及装置，涉及语音处理与机器翻译技术领域，通过设计语音翻译模型包括语音编码器、文本嵌入层、跨模态注意力适配器、大语言模型解码器、全局记忆网络、动态卷积解码器和输出层。跨模态注意力适配器将音频特征投影并与文本嵌入多头交叉注意力融合；全局记忆网络基于门控机制和Transformer Encoder更新并增强历史记忆；动态卷积译码器对解码隐藏表示进行多尺度卷积提取并与记忆融合，提高译文质量。能够实现语音与文本的深度融合、上下文连贯的持续记忆和高质量翻译生成，显著提升端到端语音翻译性能，满足复杂场景下实时、高质量的端到端语音翻译实际需求。

技术关键词

翻译模型训练方法语音翻译方法跨模态注意力音频特征记忆文本大语言模型卷积解码器语音编码器输入端序列动态令牌输出端多尺度适配器

系统为您推荐了相关专利信息

基于深度学习技术对眼肌面积进行快速检测的方法及系统

眼肌面积深度学习技术图像采集系统数字图像采集设备深度学习模型

一种模型训练方法、目标检测方法、装置及电子设备

注意力前馈神经网络样本模块多层感知机

一种利用多源数据的智能医疗诊断与决策支持方法

智能医疗诊断决策支持方法医疗诊断模型浮点型数据模态特征

基于因果推理的知识检索方法、终端及存储介质

知识检索方法语义生成文档节点前馈神经网络

一种基于人工智能的语音纠错方法及系统

语音输入信息汉字语音纠错方法校验模型序列

基于跨模态注意力、全局记忆和动态卷积的语音翻译模型训练方法、语音翻译方法及装置

站点导航

APP 下载