摘要
本发明提供了一种基于多模态模型的非法集资图像描述生成方法及系统,具体包括如下步骤:S1,图像特征提取;划分图像块,将图像数据输入到ViT模型中,提取出图像特征向量;S2,OCR提取文本信息;利用OCR技术从非法集资图像中提取文本信息,并将这些文本信息编码为高维特征;S3,跨模态信息交互;将文本特征和图像特征输入到ViLBERT模型中,进行跨模态信息交互,生成融合两者信息的联合表示;以及S4,图像描述生成;基于联合表示生成图像描述文本,揭示更多非法集资要素。
技术关键词
文本
注意力机制
生成方法系统
解码器
前馈神经网络
图像块
跨模态
多模态
交互注意力
图像特征提取
双向长短期记忆网络
图像特征向量
序列特征
区域特征提取
线性变换矩阵
系统为您推荐了相关专利信息
深度学习模型
转换器
注意力机制
分解器
预报方法
病历生成系统
大语言模型
医疗知识图谱
智慧医疗技术
医院信息系统
无人机红外图像
补丁
彩色图像
着色方法
语义结构