一种基于视觉强监督的通用阅读序构造方法

正文

推荐专利

一种基于视觉强监督的通用阅读序构造方法

申请号：CN202510388449

申请日期：2025-03-31

公开号：CN120496080A

公开日期：2025-08-15

类型：发明专利

摘要

本发明公开了一种基于视觉强监督的通用阅读序构造方法，属于自然语言处理技术领域，其包括如下步骤：S1、数据收集：收集包含文本和对应视觉信息的大规模数据集；S2、数据预处理：对收集的文本信息和视觉信息进行预处理；S3、特征提取：对于文本，使用预训练的语言模型提取文本的特征向量，以捕捉文本的语义信息；S4、特征融合；S5、阅读序构造；S6、应用评估。本发明通过经过预训练的模型能够更全面地理解文档内容，从而提高阅读理解的准确性，这种结合不仅增强了对文本含义的把握，也使得模型能够更好地捕捉到图像中的关键元素，从而在多模态环境下提供更准确的理解，通过学习不同类型文档的结构特点，模型可以自动识别并处理复杂的文本结构。

技术关键词

文本特征向量卷积神经网络提取引入注意力机制预训练语言模型视觉特征提取长短期记忆网络训练数据量图像处理算法答案指标图像缩放插值算法语义词典自然语言

系统为您推荐了相关专利信息

基于强化学习优化的多轮自动机器学习智能体系统

生成可执行代码智能体系统指标评价器优化器

一种CAD图纸解析与空间数据转换的方法

图纸格式地图房间 Delaunay三角网节点

一种通用的非结构化数据索引构建方法、装置及介质

数据索引构建方法高维特征向量大语言模型样本摘要

一种基于CNN-LSTM的电机转矩波动抑制方法

转矩波动抑制方法谐波坐标系电压电机控制系统

基于双向顺序图卷积网络的生产业务流程活动预测方法

活动预测方法引入注意力机制神经网络单元日志节点特征

一种基于视觉强监督的通用阅读序构造方法

站点导航

APP 下载