一种基于多模态模型的非法集资图像描述生成方法及系统

AITNT
正文
推荐专利
一种基于多模态模型的非法集资图像描述生成方法及系统
申请号:CN202510057759
申请日期:2025-01-14
公开号:CN120107981A
公开日期:2025-06-06
类型:发明专利
摘要
本发明提供了一种基于多模态模型的非法集资图像描述生成方法及系统,具体包括如下步骤:S1,图像特征提取;划分图像块,将图像数据输入到ViT模型中,提取出图像特征向量;S2,OCR提取文本信息;利用OCR技术从非法集资图像中提取文本信息,并将这些文本信息编码为高维特征;S3,跨模态信息交互;将文本特征和图像特征输入到ViLBERT模型中,进行跨模态信息交互,生成融合两者信息的联合表示;以及S4,图像描述生成;基于联合表示生成图像描述文本,揭示更多非法集资要素。
技术关键词
文本 注意力机制 生成方法系统 解码器 前馈神经网络 图像块 跨模态 多模态 交互注意力 图像特征提取 双向长短期记忆网络 图像特征向量 序列特征 区域特征提取 线性变换矩阵
系统为您推荐了相关专利信息
1
基于转换器深度学习的流域洪水多步长预报方法及装置
深度学习模型 转换器 注意力机制 分解器 预报方法
2
基于大语言模型的智慧病历生成系统
病历生成系统 大语言模型 医疗知识图谱 智慧医疗技术 医院信息系统
3
一种基于拓扑语义结构损失的无人机红外图像着色方法
无人机红外图像 补丁 彩色图像 着色方法 语义结构
4
一种自动化攻击溯源反制流程方法
编码向量 时序 欺骗环境 蜜罐 模式
5
一种企业技术成果评估方法、装置、设备及介质
双向注意力机制 深度学习算法 节点 图谱 企业
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号