一种多模态生成式对话任务处理方法、装置及设备

AITNT
正文
推荐专利
一种多模态生成式对话任务处理方法、装置及设备
申请号:CN202511455152
申请日期:2025-10-13
公开号:CN120932648A
公开日期:2025-11-11
类型:发明专利
摘要
本申请公开了一种多模态生成式对话任务处理方法、装置及设备,包括:接收输入的文本内容、视觉内容和流式语音提问内容;当利用目标生成式对话任务处理模型中的全双工检测头检测到流式语音提问内容接收完成时,利用音频编码器对流式语音提问内容进行编码,并利用音频适配器将编码得到的音频特征向量转化为预设统一语义空间的第一词元;利用文本编码器对文本内容进行编码,得到预设统一语义空间的第二词元;利用视觉编码器对视觉内容进行编码,并利用视觉适配器将编码得到的图像特征向量转化为预设统一语义空间的第三词元;根据第一词元、第二词元和第三词元预测生成应答内容。本申请提升了语音判停效果,提高了应答内容的准确性。
技术关键词
音频适配器 多模态 音频编码器 图像特征向量 语义 文本编码器 全双工 视觉 检测头 预测误差 样本 可读存储介质 存储计算机程序 生成语音 模块
系统为您推荐了相关专利信息
1
关键音视频的提取方法
音视频 节点 生成事件 视频流 时间段
2
一种基于卫星遥感的电力设备洪涝灾害监测方法
洪涝灾害监测 电力设备台账 数字高程模型 电力设备信息 水位监测站
3
基于时序建模和提示微调的多模态目标跟踪方法及系统
时间提示器 红外光 多模态 引导器 适配器
4
基于多智能体协作框架的情感图像编辑方法及系统
多智能体协作 图像编辑方法 框架 阶段 图像编辑系统
5
一种基于设计令牌的UI组件数据处理方法及系统
令牌 组件数据处理方法 设计工具 变量 数据处理单元
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号