基于多模态大语言模型的场景文本识别方法及装置

正文

推荐专利

申请号：CN202511299511

申请日期：2025-09-12

公开号：CN120808329B

公开日期：2025-12-16

类型：发明专利

摘要

本发明涉及一种基于多模态大语言模型的场景文本识别方法及装置，属于人工智能技术领域。该方法包括：获取文本生成过程中与输入图像的相关性满足设定要求token构成的第一token集合，以及获取文本生成过程中语义稳定性满足设定要求的token构成的第二token集合，根据第一token集合和第二token集合的交集中连续出现的token形成语义锚点段落，并记录文本生成过程中各个token位置的采样温度；基于语义锚点段落对文本生成过程中各个token位置的采样温度进行调整，根据调整的采样温度重新进行文本生成，实现了图像文本的识别中对视觉文本的精确识别与语义幻觉抑制，提高场景文本识别的准确性和鲁棒性。

技术关键词

场景文本识别方法大语言模型多模态语义锚点图像交叉注意力机制图文识别模块置信度阈值人工智能技术指标解码鲁棒性编码标记

系统为您推荐了相关专利信息

一种数据建模方法、装置、计算机设备及存储介质

数据建模方法元素关键词计算机可读指令生成数据建模

一种工业设备的状态识别方法、系统、设备及介质

状态识别方法工业设备大语言模型文本音频

基于深度学习的大模型生成内容风险识别与干预方法

风险干预方法模态特征多模态参数

一种使用全景图片的城市微空间优化方法及系统

深度学习模型全景效果图空间优化方法大语言模型图片

一种基于几何与距离因素融合的注意力机制方法

注意力机制点云数据预处理图像语义分割邻域定义

基于多模态大语言模型的场景文本识别方法及装置

站点导航

APP 下载