一种基于多层次视觉引导的多模态对话摘要方法

正文

推荐专利

申请号：CN202411732284

申请日期：2024-11-29

公开号：CN119918545A

公开日期：2025-05-02

类型：发明专利

摘要

本申请公开了一种多层次视觉引导的多模态对话摘要方法，涉及互联网、人工智能技术领域，本申请使用预训练的CLIP模型提取对话所包含的视觉信息的全局特征和局部特征，使用预训练模型T5对对话的文本进行文本特征提取，获得富含深层语义信息的视觉特征和文本特征，通过局部多模态注意力交叉模块和全局多模态注意力交叉模块，将全局视觉信息和局部视觉信息与文本特征进行融合对齐，并通过模态融合模块，将全局视觉引导的文本特征和语义引导的局部视觉特征进行融合和拼接，使得多模态对话信息能够相互补充，并且关注对话的上下文，从而提高生成摘要的质量和准确性。

技术关键词

局部视觉特征多模态注意力摘要方法文本交叉模块全局视觉特征长短期记忆网络多层次多模态对话语义跨模态多头注意力机制编码器双线性更新模型参数

系统为您推荐了相关专利信息

一种基于双向实体关系联合抽取模型的傣药知识图谱构建方法

知识图谱构建方法实体抽取头文本三元组

基于AI的手持式服务通话质量监控与智能应答系统

智能应答系统手持式设备实时语音客户长短期记忆网络

基于语音分离的质检方法及装置、存储介质和电子设备

机器人音频文本质检方法意图分类模型

基于人工智能的接口测试方法、装置、设备及介质

接口测试方法自然语言文本指令语义

一种可定制化的语音合成方法、装置及电子设备

语音识别模型文本情感识别模型声纹识别模型错误率

一种基于多层次视觉引导的多模态对话摘要方法

站点导航

APP 下载