摘要
本发明公开了一种自然场景对象检测方法、系统、设备存储介质,它是一个用于自然场景下对象检测任务的视觉语言大模型微调训练方案,利用上下文学习策略和微调技术,保证自然场景文本检测准确率同时,展现出更快的训练速度和更少的服务器资源消耗;提出了视觉特征和文本特征交错技术,结合上下文学习策略,使语言大模型充分理解文本信息和视觉信息,并进行有效交互,根据上下问,模型充分学习文本与图像中所描述对象之间的联系,获得更加精确的预测结果;此外,采用监督训练方式进行训练,将视觉信息和文本信息有效结合,提高了模型预测的准确度。
技术关键词
对象检测模型
对象检测方法
图像
视觉特征提取
数据
特征提取模块
标签
设备存储介质
自然场景文本检测
对象检测系统
转换器
交错策略
交错技术
微调技术
系统为您推荐了相关专利信息
视频监控子系统
三维图像生成装置
楼宇自控设备
切片
能耗
参数获取方法
线路
分布算法
超参数
参数获取装置
无线传输单元
阻抗传感器
食管
机器学习算法模型
数据处理单元
数据挖掘分析系统
定位单元
定位系统
云端
判断系统