一种多模态生成式对话任务处理方法、装置及设备

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
推荐专利
一种多模态生成式对话任务处理方法、装置及设备
申请号:CN202511455152
申请日期:2025-10-13
公开号:CN120932648A
公开日期:2025-11-11
类型:发明专利
摘要
本申请公开了一种多模态生成式对话任务处理方法、装置及设备,包括:接收输入的文本内容、视觉内容和流式语音提问内容;当利用目标生成式对话任务处理模型中的全双工检测头检测到流式语音提问内容接收完成时,利用音频编码器对流式语音提问内容进行编码,并利用音频适配器将编码得到的音频特征向量转化为预设统一语义空间的第一词元;利用文本编码器对文本内容进行编码,得到预设统一语义空间的第二词元;利用视觉编码器对视觉内容进行编码,并利用视觉适配器将编码得到的图像特征向量转化为预设统一语义空间的第三词元;根据第一词元、第二词元和第三词元预测生成应答内容。本申请提升了语音判停效果,提高了应答内容的准确性。
技术关键词
音频适配器 多模态 音频编码器 图像特征向量 语义 文本编码器 全双工 视觉 检测头 预测误差 样本 可读存储介质 存储计算机程序 生成语音 模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号