一种多模态Action Transformer模型及其智能化任务执行方法

AITNT
正文
推荐专利
一种多模态Action Transformer模型及其智能化任务执行方法
申请号:CN202411518658
申请日期:2024-10-29
公开号:CN119494078A
公开日期:2025-02-21
类型:发明专利
摘要
本发明涉及企业流程自动化领域,尤其涉及一种多模态Action Transformer模型及其智能化任务执行方法;技术问题:现有Web页面操作自动化技术中存在的灵活性和适应性不足、泛化能力弱、上下文理解能力有限、多模态信息整合不足及数据利用效率低的问题;技术方案:一种多模态Action Transformer模型及其智能化任务执行方法,包括有多模态输入处理模块、多模态融合模块、Transformer编码器和操作预测模块;本发明通过同时处理图像、文本、DOM结构等多种输入,提高了对页面变化的容错能力和适应性,通过注意力机制能够有效捕捉和利用操作序列中的长程依赖关系,通过注意力机制和特征融合层,实现了图像、文本、DOM结构等多种模态信息的深度融合。
技术关键词
交叉注意力机制 编码器 页面 子模块 前馈神经网络 文本 模态特征 视觉特征 多层感知机 图像处理 指令 元素 参数 融合特征 多模态信息 序列
系统为您推荐了相关专利信息
1
一种基于人工智能的自然语言对话式风险管理系统
风险管理系统 自然语言 消防安全管理 风险智能评估 大语言模型
2
基于自然语言处理的铝合金科学文献自动化知识提取方法
知识提取方法 实体命名识别 铝合金材料 长短记忆网络 门控循环单元
3
一种批量二维码识别方法及相关设备
组合编码器 编码器芯片 二维码识别方法 批量 电路板
4
一种基于云计算的环境数据分析系统
子模块 数据分析系统 模式识别 资源分配 策略
5
页面处理方法及装置
页面 交互组件 终端 控件 计算机可执行指令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号