摘要
本发明公开了一种基于用户操作视频的RPA指令生成方法,包括如下步骤:步骤1、基于目标检测算法识别用户操作视频中网页内的界面元素,并获取界面元素变化的时间戳;步骤2、基于视频理解模型对用户操作录制视频进行分析,获取单帧图像和文本特征,将时间戳注入单帧图像中形成视觉特征,再将视觉特征和文本特征融合得到多模态特征;步骤3、对多模态特征进行解码,获得界面元素与用户操作行为的映射关系,然后将映射关系封装成RPA指令。本发明实现对用户操作行为的深度理解和RPA指令的自动化生成,从而提高自动化流程的准确性和完整性。
技术关键词
指令生成方法
视觉特征
视频
多模态特征
跨模态
元素
时间定位
文本
操作界面
注意力机制
损失函数优化
解码器
图像
数据
算法
系统为您推荐了相关专利信息
智能生成方法
生成规则
智能生成系统
人物特征
画像
运动轨迹数据
动作捕捉模块
动作捕捉系统
作业现场
高清摄像头
配准方法
深度特征提取网络
训练深度学习模型
灾害遥感
多尺度特征金字塔
充放电数据
电池单体
轨迹预测模型
电池健康状态
轨迹预测方法
识别方法
模态特征
多头注意力机制
可见光图像
多模态图像数据