基于多模态大模型与光学字符识别的盲用点图自动转换方法和装置

正文

推荐专利

申请号：CN202510937520

申请日期：2025-07-08

公开号：CN120877261A

公开日期：2025-10-31

类型：发明专利

摘要

基于多模态大模型与光学字符识别的盲用点图自动转换方法和装置，其方法：收集场景的图文混排图像并标注文本、图形信息，构建图文混排专用数据集；用模型对预处理后的图像提取特征并检测文本区域，输出多边形坐标框，实现图像中文本位置的精准定位；依据文本框坐标裁剪对应区域，利用CNN提取文本图像特征，经RNN建模字符上下文关系，再由CTC解码器解码，完成图像文本的识别与提取；接收识别文本，先清洗、分词预处理，再通过Transformer模型建模语义，由解码器逐步生成盲文字符序列，实现文本到盲文的翻译转换；整合原始图像、掩码及盲文等信息设计专用prompt，输入大模型，通过LoRA技术冻结并微调模型参数，将原图内容转换为符合规范的盲用点图。

技术关键词

自动转换方法光学字符识别图文混排多模态文本盲文字符专用数据集图像提取特征解码器设计专用多尺度特征多边形二值化阈值坐标分词序列轮廓提取

系统为您推荐了相关专利信息

基于AIGC构建仿真环境模型的方法、系统和存储介质

仿真环境地理模型障碍物 CRF模型生成对抗网络

一种基于大模型的基础设施安全分析方法和系统

统一时间轴网络流量数据语义分析方法多源异构数据

一种多模态组合视频检索方法及装置

语义特征文字特征视觉特征视频检索方法图像匹配

一种桌面清理方法及系统

桌面清理方法机械臂控制器语音识别模块指令驱动机械臂

一种基于大语言模型的AI数字人家教方法及装置

大语言模型教学视频生成模型文本音频

基于多模态大模型与光学字符识别的盲用点图自动转换方法和装置

站点导航

APP 下载