摘要
本申请公开了一种多模态融合的RPA软件操作元素提取方法及相关产品。该方案中,接收针对元素提取方式的选择指令。根据选择指令,确定元素提取方式,其中,元素提取方式为基于元素提取界面的结构化文档或界面图像的提取方式。基于元素提取方式,获取目标操作元素的定位信息,并将定位信息输出至RPA工作流。本申请技术方案中,通过融合结构化文档和界面图像识别的多模态元素提取机制,使得RPA系统在面对不同场景时都能保持稳定高效的元素提取能力,减少了因页面变动导致的定位失效问题,降低了路径修正频率,从而显著提升了RPA系统的稳定性和效率。
技术关键词
元素
工作流
界面
生成结构化数据
坐标
多模态
图像
存储程序代码
指令
软件
可读存储介质
索引
文本
模块单元
有效性
视觉
关系
计算机
系统为您推荐了相关专利信息
行人轨迹预测方法
时空融合特征
编码器
邻居
模拟行人
寿命预测方法
无人机数字
寿命预测模型
训练无人机
构建无人机
敏感数据识别
大语言模型
数据同步
敏感数据脱敏
脱敏数据