一种基于视觉信息融合的多模态摘要方法及系统

AITNT
正文
推荐专利
一种基于视觉信息融合的多模态摘要方法及系统
申请号:CN202410991657
申请日期:2024-07-23
公开号:CN118964603A
公开日期:2024-11-15
类型:发明专利
摘要
本申请公开了一种基于视觉信息融合的多模态摘要方法及系统,涉及数据处理、人工智能技术,包括:将提取的视觉特征与文本特征拼接,并将拼接后的视觉‑文本特征输入编码器的多头注意力模块和前馈网络模块;将提取的视觉特征以及所述前馈网络模块的输出作为编码器的模态融合层的输入,以获得结合视觉信息的文本特征;将获得的结合视觉信息的文本特征、以及摘要文本特征输入解码器;将提取的视觉特征以及解码器前馈网络模块的输出作为解码器模态融合层的输入,以获得解码器输出的文本特征;将解码器输出的文本特征经过线性层,将输出的向量输入到Softmax层,依据概率分布和词汇表,获得所需的摘要文本。本申请的方法能够提高生成摘要的质量和准确性。
技术关键词
视觉特征 文本 摘要方法 网络模块 输入解码器 双曲正切函数 双线性 跨模态 注意力机制 摘要系统 更新模型参数 非线性 图像编码器
系统为您推荐了相关专利信息
1
一种基于大数据的非物质文化遗产多模态知识图谱构建方法及系统
多模态 知识图谱构建系统 大数据 跨模态 非物质文化遗产
2
基于有限医学文本的乳腺癌pCR早期预测系统
早期预测系统 特征提取模块 形态学特征 医学 文本编码器
3
基于大语言模型的文本协调性检测方法
文本 大语言模型 文件属性信息 排版 标识
4
一种服务平台的知识库建立方法及系统
知识库建立方法 关系 实体 更新知识图谱 文本
5
一种基于大语言模型的文本任务处理控制方法及装置
大语言模型 文本 队列 节点更新 非暂态计算机可读存储介质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号