基于多模态大模型的图像隐私定位识别方法及装置

正文

推荐专利

申请号：CN202510348747

申请日期：2025-03-21

公开号：CN119863691B

公开日期：2025-06-06

类型：发明专利

摘要

本申请提供一种基于多模态大模型的图像隐私定位识别方法及装置，该方法包括：基于语义token获取初始查询特征，基于初始查询特征、局部视觉token序列和全局视觉token生成条件查询特征；基于融合特征和条件查询特征确定目标查询特征；将目标查询特征输入给多模态大模型得到预测位置和预测类别；若预测类别与隐私对象描述的相似度大于语义相似度阈值，确定待检测图像存在用户关注的隐私对象，对与预测位置匹配的内容进行脱敏；若相似度不大于语义相似度阈值，确定待检测图像存在用户不关注的隐私对象，对与预测位置匹配的内容不进行脱敏。通过本申请方案，能够有效识别图像中隐私信息。

技术关键词

查询特征预测类别视觉融合特征语义特征对象定位识别方法序列多模态机器可读存储介质词语文本图像块上下文特征定位识别装置网络特征值注意力

系统为您推荐了相关专利信息

一种基于稀疏惯性传感器的人体运动捕获方法

人体运动捕获方法惯性传感器传感器特征传感器编码器文本编码器

插画提示语生成方法、装置、电子设备和存储介质

融合特征交叉注意力机制生成方法电子设备预训练模型

智能纸箱堆垛方法及系统

滑动时间窗口智能纸箱堆垛方法轮廓特征编码向量

图像处理方法、装置、介质、设备及产品

边缘结构信息边缘检测模型空间注意力模型融合特征图像处理方法

语音合成方法、装置、直播系统、电子设备及存储介质

音频编码音色特征大语言模型文本语音

基于多模态大模型的图像隐私定位识别方法及装置

站点导航

APP 下载