一种基于用户操作视频的RPA指令生成方法

正文

推荐专利

申请号：CN202510171987

申请日期：2025-02-17

公开号：CN119629406A

公开日期：2025-03-14

类型：发明专利

摘要

本发明公开了一种基于用户操作视频的RPA指令生成方法，包括如下步骤：步骤1、基于目标检测算法识别用户操作视频中网页内的界面元素，并获取界面元素变化的时间戳；步骤2、基于视频理解模型对用户操作录制视频进行分析，获取单帧图像和文本特征，将时间戳注入单帧图像中形成视觉特征，再将视觉特征和文本特征融合得到多模态特征；步骤3、对多模态特征进行解码，获得界面元素与用户操作行为的映射关系，然后将映射关系封装成RPA指令。本发明实现对用户操作行为的深度理解和RPA指令的自动化生成，从而提高自动化流程的准确性和完整性。

技术关键词

指令生成方法视觉特征视频多模态特征跨模态元素时间定位文本操作界面注意力机制损失函数优化解码器图像数据算法

系统为您推荐了相关专利信息

一种基于大模型的剧本智能生成方法、系统及设备

智能生成方法生成规则智能生成系统人物特征画像

一种继电保护专家指导动作捕捉系统

运动轨迹数据动作捕捉模块动作捕捉系统作业现场高清摄像头

一种多模态遥感影像渐进式配准方法和系统

配准方法深度特征提取网络训练深度学习模型灾害遥感多尺度特征金字塔

基于去噪扩散模型的实车动力电池容量衰减轨迹预测方法

充放电数据电池单体轨迹预测模型电池健康状态轨迹预测方法

一种多模态图像融合与识别方法

识别方法模态特征多头注意力机制可见光图像多模态图像数据

一种基于用户操作视频的RPA指令生成方法

站点导航

APP 下载