摘要
本申请公开了一种多模态生成式对话任务处理方法、装置及设备,包括:接收输入的文本内容、视觉内容和流式语音提问内容;当利用目标生成式对话任务处理模型中的全双工检测头检测到流式语音提问内容接收完成时,利用音频编码器对流式语音提问内容进行编码,并利用音频适配器将编码得到的音频特征向量转化为预设统一语义空间的第一词元;利用文本编码器对文本内容进行编码,得到预设统一语义空间的第二词元;利用视觉编码器对视觉内容进行编码,并利用视觉适配器将编码得到的图像特征向量转化为预设统一语义空间的第三词元;根据第一词元、第二词元和第三词元预测生成应答内容。本申请提升了语音判停效果,提高了应答内容的准确性。
技术关键词
音频适配器
多模态
音频编码器
图像特征向量
语义
文本编码器
全双工
视觉
检测头
预测误差
样本
可读存储介质
存储计算机程序
生成语音
模块
系统为您推荐了相关专利信息
洪涝灾害监测
电力设备台账
数字高程模型
电力设备信息
水位监测站
多智能体协作
图像编辑方法
框架
阶段
图像编辑系统
令牌
组件数据处理方法
设计工具
变量
数据处理单元