摘要
本发明公开了一种基于HTML和图像的RPA代码生成方法,包括以下步骤:S1、接收用户提供的多模态输入数据,所述多模态输入数据包括目标业务系统的HTML结构文件、界面截图图像和自然语言操作需求描述;S2、对所述HTML结构文件进行标准化解析,提取DOM树结构信息,并对所述界面截图图像进行视觉特征增强处理;S3、将处理后的HTML结构信息、界面截图图像和自然语言操作需求输入预训练的视觉语言模型,通过视觉语言模型输出目标XPath路径和Python代码序列。本发明通过结合HTML结构信息和界面图像,实现对复杂业务系统的全面理解,从而自动生成高效、准确且能在多平台执行的RPA脚本代码。
技术关键词
代码生成方法
文本特征向量
文本编码器
多模态
自然语言
高维向量空间
图像
交叉注意力机制
解码器
序列
界面
业务系统
DOM树结构
多任务损失函数
视觉特征
标签
像素块
交互组件