摘要
本发明公开了一种基于多模态模型的RPA元素锚点自动寻找方法,按下述步骤进行:步骤S1:获取网页中目标元素以及候选锚点元素的坐标、文本信息和区域截图;步骤S2:根据区域截图,通过目标检测模型获取目标元素以及候选锚点元素的元素类别;步骤S3:将目标元素和候选锚点元素的坐标、文本信息、区域截图以及元素类别输入多模态模型内,利用多模态模型进行向量转化、向量对齐、元素区分、元素关注和元素判断,检测确定目标锚点元素;步骤S4:记录目标元素与锚点元素之间的相对关系,用于机器人流程自动化运行时的目标元素定位;本发明通过网页截图、元素坐标和元素类别动态识别网页的锚点元素,具有适用范围广及识别可靠的优点。
技术关键词
元素
锚点
多模态
文本
坐标
BERT模型
非极大值抑制方法
Softmax函数
识别网页
图像
特征提取网络
机器人
注意力
关系
编码
对象
动态
模块