摘要
本说明书公开了一种模型训练以及页面检测方法、装置、介质及设备。获取样本页面图像,样本页面图像对应的导航文本以及标签文本。将样本页面图像与导航文本输入到预设的大语言模型,以使大语言模型根据导航文本,确定输出文本,输出文本中包含有目标控件在页面中所在位置的预测坐标表征。将预测坐标表征输入到待训练的坐标解码器,得到目标控件在页面中所在位置的预测坐标。根据预测坐标与实际页面坐标之间的差异,确定综合损失值,以根据综合损失值,对坐标解码器进行训练。使得训练完成的坐标解码器能够对大语言模型输出的预测坐标表征进行纠正,提高页面检测准确性。
技术关键词
坐标
解码器
标签文本
页面检测方法
大语言模型
多层感知机
控件
文本编码器
样本
图像编码器
页面检测装置
模型训练装置
模型训练方法
数据获取模块
数据解码
处理器
系统为您推荐了相关专利信息
雷达点云数据
密度聚类算法
识别方法
AdaBoost算法
计算机程序指令
医学图像分割方法
交互特征
图像分割模型
编码特征
分割医学图像
特征提取网络
识别方法
编码器架构
解码器架构
模态特征