基于多模态大语言模型的场景文本识别方法及装置

AITNT
正文
推荐专利
基于多模态大语言模型的场景文本识别方法及装置
申请号:CN202511299511
申请日期:2025-09-12
公开号:CN120808329B
公开日期:2025-12-16
类型:发明专利
摘要
本发明涉及一种基于多模态大语言模型的场景文本识别方法及装置,属于人工智能技术领域。该方法包括:获取文本生成过程中与输入图像的相关性满足设定要求token构成的第一token集合,以及获取文本生成过程中语义稳定性满足设定要求的token构成的第二token集合,根据第一token集合和第二token集合的交集中连续出现的token形成语义锚点段落,并记录文本生成过程中各个token位置的采样温度;基于语义锚点段落对文本生成过程中各个token位置的采样温度进行调整,根据调整的采样温度重新进行文本生成,实现了图像文本的识别中对视觉文本的精确识别与语义幻觉抑制,提高场景文本识别的准确性和鲁棒性。
技术关键词
场景文本识别方法 大语言模型 多模态 语义 锚点 图像 交叉注意力机制 图文 识别模块 置信度阈值 人工智能技术 指标 解码 鲁棒性 编码 标记
系统为您推荐了相关专利信息
1
一种数据建模方法、装置、计算机设备及存储介质
数据建模方法 元素 关键词 计算机可读指令 生成数据建模
2
一种工业设备的状态识别方法、系统、设备及介质
状态识别方法 工业设备 大语言模型 文本 音频
3
基于深度学习的大模型生成内容风险识别与干预方法
风险 干预方法 模态特征 多模态 参数
4
一种使用全景图片的城市微空间优化方法及系统
深度学习模型 全景效果图 空间优化方法 大语言模型 图片
5
一种基于几何与距离因素融合的注意力机制方法
注意力机制 点云数据预处理 图像语义分割 邻域 定义
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号