摘要
本发明涉及一种基于多模态大语言模型的场景文本识别方法及装置,属于人工智能技术领域。该方法包括:获取文本生成过程中与输入图像的相关性满足设定要求token构成的第一token集合,以及获取文本生成过程中语义稳定性满足设定要求的token构成的第二token集合,根据第一token集合和第二token集合的交集中连续出现的token形成语义锚点段落,并记录文本生成过程中各个token位置的采样温度;基于语义锚点段落对文本生成过程中各个token位置的采样温度进行调整,根据调整的采样温度重新进行文本生成,实现了图像文本的识别中对视觉文本的精确识别与语义幻觉抑制,提高场景文本识别的准确性和鲁棒性。
技术关键词
场景文本识别方法
大语言模型
多模态
语义
锚点
图像
交叉注意力机制
图文
识别模块
置信度阈值
人工智能技术
指标
解码
鲁棒性
编码
标记
系统为您推荐了相关专利信息
数据建模方法
元素
关键词
计算机可读指令
生成数据建模
深度学习模型
全景效果图
空间优化方法
大语言模型
图片
注意力机制
点云数据预处理
图像语义分割
邻域
定义