摘要
本发明提供了一种基于视觉语言交互式学习的AI图像检测模型优化方法,涉及视觉语言处理技术领域。所述模型优化方法包括:提取图像训练集的视觉特征和文本特征,基于文本特征对视觉特征进行加权处理获得重建文本,基于视觉特征对文本特征进行加权处理获得重建图像,基于均方误差损失优化跨模态交互式重建过程的重建文本和重建图像;获取跨模态交互式重建过程中的视觉特征及文本特征,计算粗粒度代理点特征和细粒度代理点特征并构建四个字典,基于余弦相似性损失函数拉近模态之间的空间分布,并基于动量更新机制更新所述四个字典,获得优化后的AI图像检测模型。本发明通过设计跨模态交互式重建与字典学习更新,提升了模型检测AI图像的准确率。
技术关键词
视觉特征
图像检测模型
交互式学习
交叉注意力机制
图像解码器
跨模态
图像字典
细粒度特征
文本编码器
图像编码器
模型优化方法
输出特征
样本
系统为您推荐了相关专利信息
哈希检索方法
大语言模型
汉明距离
报告
医学图像模态
监测站点数据
深度学习网络模型
多模态
气象
空气
车辆交互方法
风险
语音播报信息
多模态
车辆状态信息
车辆控制参数
全局路径规划
深度网络模型
非标准
立体视觉系统