摘要
本发明涉及视觉语言领域,公开了一种基于机器学习的视觉语言模型构建方法,包括以下步骤:S1:模型架构:结合PaLI架构和Pix2struct的灵活补丁策略,本发明中,通过融合PaLI架构和Pix2struct的灵活补丁策略,采用多模态编码器块,包括视觉编码器(如ViT)和语言编码器(如mT5),以及自回归解码器,实现了视觉和语言信息的深度整合,模型还通过OCR引擎提取和标注屏幕上的文本内容,结合先前的注释生成屏幕描述,提供了屏幕内容的详细表示,通过人工验证确保生成数据的质量,进一步提升了模型的泛化能力和性能,该发明模型在UI和信息图表理解领域展现出卓越的创新性和有效性,为该领域的研究和应用提供了重要的技术支持,并在实际应用中具备实现显著性能提升的潜力。
技术关键词
语言模型构建方法
语言编码器
屏幕
视觉
补丁
多模态
文本
训练语言模型
光学字符识别
答案
数据
元素
图表
图像分割
摘要
策略
像素
序列
解码器