一种基于多层次视觉引导的多模态对话摘要方法

AITNT
正文
推荐专利
一种基于多层次视觉引导的多模态对话摘要方法
申请号:CN202411732284
申请日期:2024-11-29
公开号:CN119918545A
公开日期:2025-05-02
类型:发明专利
摘要
本申请公开了一种多层次视觉引导的多模态对话摘要方法,涉及互联网、人工智能技术领域,本申请使用预训练的CLIP模型提取对话所包含的视觉信息的全局特征和局部特征,使用预训练模型T5对对话的文本进行文本特征提取,获得富含深层语义信息的视觉特征和文本特征,通过局部多模态注意力交叉模块和全局多模态注意力交叉模块,将全局视觉信息和局部视觉信息与文本特征进行融合对齐,并通过模态融合模块,将全局视觉引导的文本特征和语义引导的局部视觉特征进行融合和拼接,使得多模态对话信息能够相互补充,并且关注对话的上下文,从而提高生成摘要的质量和准确性。
技术关键词
局部视觉特征 多模态注意力 摘要方法 文本 交叉模块 全局视觉特征 长短期记忆网络 多层次 多模态对话 语义 跨模态 多头注意力机制 编码器 双线性 更新模型参数
系统为您推荐了相关专利信息
1
一种基于双向实体关系联合抽取模型的傣药知识图谱构建方法
知识图谱构建方法 实体 抽取头 文本 三元组
2
基于AI的手持式服务通话质量监控与智能应答系统
智能应答系统 手持式设备 实时语音 客户 长短期记忆网络
3
基于语音分离的质检方法及装置、存储介质和电子设备
机器人 音频 文本 质检方法 意图分类模型
4
基于人工智能的接口测试方法、装置、设备及介质
接口测试方法 自然语言 文本 指令 语义
5
一种可定制化的语音合成方法、装置及电子设备
语音识别模型 文本 情感识别模型 声纹识别模型 错误率
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号