摘要
本申请公开了一种基于图像识别的新媒体素材内容采集管理方法及系统,其首先通过光学字符识别(OCR)技术,精准提取图像画面中的显性信息,并利用预训练的视觉‑语言大模型(VLM)对图像进行整体性的视觉叙事分析,从而深入挖掘图像的隐性内涵;接着,将这两种信息源合并,并从中识别并提取出候选标签;进一步通过大模型对候选标签与原始图像的匹配度进行置信度评估,并基于此筛选出最相关的最终标签集。这样,不仅能够全面覆盖显性文本与隐性视觉叙事,而且通过独特的双重验证机制,显著提升了标签的准确性和可靠性,实现了对海量新媒体素材自动化、精细化且高质量的标引,从而根本性地改善了素材库的管理效率和检索体验。
技术关键词
显示文本信息
采集管理方法
编码向量
自然语言
图像
语义
标签
编码特征
关键词提取模型
媒体
命名实体识别
视觉
列表
采集管理系统
双重验证机制
光学字符识别
概念
过滤模块