一种基于多模态模型的非法集资图像描述生成方法及系统

正文

推荐专利

申请号：CN202510057759

申请日期：2025-01-14

公开号：CN120107981A

公开日期：2025-06-06

类型：发明专利

摘要

本发明提供了一种基于多模态模型的非法集资图像描述生成方法及系统，具体包括如下步骤：S1，图像特征提取；划分图像块，将图像数据输入到ViT模型中，提取出图像特征向量；S2，OCR提取文本信息；利用OCR技术从非法集资图像中提取文本信息，并将这些文本信息编码为高维特征；S3，跨模态信息交互；将文本特征和图像特征输入到ViLBERT模型中，进行跨模态信息交互，生成融合两者信息的联合表示；以及S4，图像描述生成；基于联合表示生成图像描述文本，揭示更多非法集资要素。

技术关键词

文本注意力机制生成方法系统解码器前馈神经网络图像块跨模态多模态交互注意力图像特征提取双向长短期记忆网络图像特征向量序列特征区域特征提取线性变换矩阵

系统为您推荐了相关专利信息

基于转换器深度学习的流域洪水多步长预报方法及装置

深度学习模型转换器注意力机制分解器预报方法

基于大语言模型的智慧病历生成系统

病历生成系统大语言模型医疗知识图谱智慧医疗技术医院信息系统

一种基于拓扑语义结构损失的无人机红外图像着色方法

无人机红外图像补丁彩色图像着色方法语义结构

一种自动化攻击溯源反制流程方法

编码向量时序欺骗环境蜜罐模式

一种企业技术成果评估方法、装置、设备及介质

双向注意力机制深度学习算法节点图谱企业

一种基于多模态模型的非法集资图像描述生成方法及系统

站点导航

APP 下载