基于跨模态注意力、全局记忆和动态卷积的语音翻译模型训练方法、语音翻译方法及装置

AITNT
正文
推荐专利
基于跨模态注意力、全局记忆和动态卷积的语音翻译模型训练方法、语音翻译方法及装置
申请号:CN202511206341
申请日期:2025-08-27
公开号:CN120877720A
公开日期:2025-10-31
类型:发明专利
摘要
本申请公开了一种基于跨模态注意力、全局记忆和动态卷积的语音翻译模型训练方法、语音翻译方法及装置,涉及语音处理与机器翻译技术领域,通过设计语音翻译模型包括语音编码器、文本嵌入层、跨模态注意力适配器、大语言模型解码器、全局记忆网络、动态卷积解码器和输出层。跨模态注意力适配器将音频特征投影并与文本嵌入多头交叉注意力融合;全局记忆网络基于门控机制和Transformer Encoder更新并增强历史记忆;动态卷积译码器对解码隐藏表示进行多尺度卷积提取并与记忆融合,提高译文质量。能够实现语音与文本的深度融合、上下文连贯的持续记忆和高质量翻译生成,显著提升端到端语音翻译性能,满足复杂场景下实时、高质量的端到端语音翻译实际需求。
技术关键词
翻译模型训练方法 语音翻译方法 跨模态 注意力 音频特征 记忆 文本 大语言模型 卷积解码器 语音编码器 输入端 序列 动态 令牌 输出端 多尺度 适配器
系统为您推荐了相关专利信息
1
基于深度学习技术对眼肌面积进行快速检测的方法及系统
眼肌面积 深度学习技术 图像采集系统 数字图像采集设备 深度学习模型
2
一种模型训练方法、目标检测方法、装置及电子设备
注意力 前馈神经网络 样本 模块 多层感知机
3
一种利用多源数据的智能医疗诊断与决策支持方法
智能医疗诊断 决策支持方法 医疗诊断模型 浮点型数据 模态特征
4
基于因果推理的知识检索方法、终端及存储介质
知识检索方法 语义 生成文档 节点 前馈神经网络
5
一种基于人工智能的语音纠错方法及系统
语音输入信息 汉字 语音纠错方法 校验模型 序列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号