摘要
本公开提供了文本信息的生成方法、模型训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域,可应用于光学字符识别和人机交互场景。该文本信息的生成方法的具体实现方案为:提取待处理图像的多尺度图像特征,其中,待处理图像的内容包括文本;多尺度图像特征包括用于表征文本的结构信息和内容信息的特征;基于注意力机制,对多尺度图像特征进行处理,得到与文本相匹配的目标图像特征;以及基于文本生成指令,对目标图像特征进行处理,生成与文本生成指令对应的目标文本信息。
技术关键词
文本
样本
生成指令
像素块
图像
多尺度
查询特征
大语言模型
子模块
特征提取模块
交叉注意力机制
预训练模型
标签
处理单元
矩阵
生成方法
参数
系统为您推荐了相关专利信息
学习训练方法
样本
文档关键词
查询特征
查询关键词
编码器
多源信息融合
移动装置
二维码
高精度定位装置