一种基于视觉信息融合的多模态摘要方法及系统

正文

推荐专利

申请号：CN202410991657

申请日期：2024-07-23

公开号：CN118964603A

公开日期：2024-11-15

类型：发明专利

摘要

本申请公开了一种基于视觉信息融合的多模态摘要方法及系统，涉及数据处理、人工智能技术，包括：将提取的视觉特征与文本特征拼接，并将拼接后的视觉‑文本特征输入编码器的多头注意力模块和前馈网络模块；将提取的视觉特征以及所述前馈网络模块的输出作为编码器的模态融合层的输入，以获得结合视觉信息的文本特征；将获得的结合视觉信息的文本特征、以及摘要文本特征输入解码器；将提取的视觉特征以及解码器前馈网络模块的输出作为解码器模态融合层的输入，以获得解码器输出的文本特征；将解码器输出的文本特征经过线性层，将输出的向量输入到Softmax层，依据概率分布和词汇表，获得所需的摘要文本。本申请的方法能够提高生成摘要的质量和准确性。

技术关键词

视觉特征文本摘要方法网络模块输入解码器双曲正切函数双线性跨模态注意力机制摘要系统更新模型参数非线性图像编码器

系统为您推荐了相关专利信息

一种基于大数据的非物质文化遗产多模态知识图谱构建方法及系统

多模态知识图谱构建系统大数据跨模态非物质文化遗产

基于有限医学文本的乳腺癌pCR早期预测系统

早期预测系统特征提取模块形态学特征医学文本编码器

基于大语言模型的文本协调性检测方法

文本大语言模型文件属性信息排版标识

一种服务平台的知识库建立方法及系统

知识库建立方法关系实体更新知识图谱文本

一种基于大语言模型的文本任务处理控制方法及装置

大语言模型文本队列节点更新非暂态计算机可读存储介质

一种基于视觉信息融合的多模态摘要方法及系统

站点导航

APP 下载