基于多模态大模型与位置感知的乐谱图像到盲文转译方法

正文

推荐专利

申请号：CN202510938126

申请日期：2025-07-08

公开号：CN120877311A

公开日期：2025-10-31

类型：发明专利

摘要

基于多模态大模型与位置感知的乐谱图像到盲文转译方法，包括：收集MusicXML数据集，利用MuseScore软件，转换MusicXML为盲文，获取盲文乐谱数据集；利用BPE算法通过统计相邻盲文字符频率并迭代合并高频对，逐步扩展初始盲文词汇表至目标大小，扩展大模型的盲文词库；通过二值化五线谱图像、垂直投影求像素和、检测谱线位置、计算平均间距，并根据间距阈值划分乐谱系统，确定每个乐谱系统的上下边界坐标；将预处理的乐谱图像通过视觉编码器提取特征，并融合检测出的五线谱系统边界的位置编码，生成融合嵌入特征；通过构建多模态训练样本并微调预训练模型，实现乐谱图像到盲文的自动转译。本发明通过融合乐谱图片结构中的乐谱系统的坐标信息，依托多模态大模型的图文理解能力，并将五线谱图片映射为符合盲文规范的语义表达，有效提升转译质量,实现从原始图像输入到最终盲文输出自动完成。

技术关键词

乐谱系统转译方法五线谱多模态盲文字符盲文乐谱图像嵌入特征系统边界预训练模型坐标间距图片像素数组算术平均值解码器数据软件

基于多模态大模型与位置感知的乐谱图像到盲文转译方法

站点导航

APP 下载