摘要
本发明涉及企业流程自动化领域,尤其涉及一种多模态Action Transformer模型及其智能化任务执行方法;技术问题:现有Web页面操作自动化技术中存在的灵活性和适应性不足、泛化能力弱、上下文理解能力有限、多模态信息整合不足及数据利用效率低的问题;技术方案:一种多模态Action Transformer模型及其智能化任务执行方法,包括有多模态输入处理模块、多模态融合模块、Transformer编码器和操作预测模块;本发明通过同时处理图像、文本、DOM结构等多种输入,提高了对页面变化的容错能力和适应性,通过注意力机制能够有效捕捉和利用操作序列中的长程依赖关系,通过注意力机制和特征融合层,实现了图像、文本、DOM结构等多种模态信息的深度融合。
技术关键词
交叉注意力机制
编码器
页面
子模块
前馈神经网络
文本
模态特征
视觉特征
多层感知机
图像处理
指令
元素
参数
融合特征
多模态信息
序列
系统为您推荐了相关专利信息
风险管理系统
自然语言
消防安全管理
风险智能评估
大语言模型
知识提取方法
实体命名识别
铝合金材料
长短记忆网络
门控循环单元
组合编码器
编码器芯片
二维码识别方法
批量
电路板