摘要
本发明公开了一种基于多模态集成的航空语音转写方法、装置及介质,所述方法包括:获取输入方的初始语音信号;将输入方的初始语音信号转换为目标语言文本;基于多模态大模型对目标语言文本生成纠正建议,并输出至输入方;获取输入方根据纠正建议进行表达修正后的最终语音信号,根据最终语音信号生成以目标语言呈现的指令并发送至接收方。本发明提出一种基于多模态集成的航空语音转写方法、装置及介质,通过多模态大模型驱动的闭环纠错机制和双向实时通信框架,可以将输入方修正后的语音以目标语言的形式生成精准指令发送至接收方,能够解决难以降低塔台与飞行员之间的语言沟通门槛,以及提升空地通信的准确性与效率的问题。
技术关键词
语音转写方法
文本
航空
多模态特征
双向长短期记忆网络
双向通信机制
转写装置
语音特征
接收方
信号
音频特征
序列
文字特征
数据
一维卷积神经网络
声码器
塔台
系统为您推荐了相关专利信息
鸭蛋
分拣系统
图像处理
分拣执行机构
多光谱成像
情感识别方法
语义特征
状态空间模型
样本
数据生成图像
智能保障系统
量子退火算法
三元组
语义向量
表面缺陷图像
误差模型
特征筛选器
容量预测模块
电池老化状态
重构