摘要
本申请公开了一种多层次视觉引导的多模态对话摘要方法,涉及互联网、人工智能技术领域,本申请使用预训练的CLIP模型提取对话所包含的视觉信息的全局特征和局部特征,使用预训练模型T5对对话的文本进行文本特征提取,获得富含深层语义信息的视觉特征和文本特征,通过局部多模态注意力交叉模块和全局多模态注意力交叉模块,将全局视觉信息和局部视觉信息与文本特征进行融合对齐,并通过模态融合模块,将全局视觉引导的文本特征和语义引导的局部视觉特征进行融合和拼接,使得多模态对话信息能够相互补充,并且关注对话的上下文,从而提高生成摘要的质量和准确性。
技术关键词
局部视觉特征
多模态注意力
摘要方法
文本
交叉模块
全局视觉特征
长短期记忆网络
多层次
多模态对话
语义
跨模态
多头注意力机制
编码器
双线性
更新模型参数
系统为您推荐了相关专利信息
智能应答系统
手持式设备
实时语音
客户
长短期记忆网络
语音识别模型
文本
情感识别模型
声纹识别模型
错误率