基于多模态大模型与位置感知的乐谱图像到盲文转译方法

AITNT
正文
推荐专利
基于多模态大模型与位置感知的乐谱图像到盲文转译方法
申请号:CN202510938126
申请日期:2025-07-08
公开号:CN120877311A
公开日期:2025-10-31
类型:发明专利
摘要
基于多模态大模型与位置感知的乐谱图像到盲文转译方法,包括:收集MusicXML数据集,利用MuseScore软件,转换MusicXML为盲文,获取盲文乐谱数据集;利用BPE算法通过统计相邻盲文字符频率并迭代合并高频对,逐步扩展初始盲文词汇表至目标大小,扩展大模型的盲文词库;通过二值化五线谱图像、垂直投影求像素和、检测谱线位置、计算平均间距,并根据间距阈值划分乐谱系统,确定每个乐谱系统的上下边界坐标;将预处理的乐谱图像通过视觉编码器提取特征,并融合检测出的五线谱系统边界的位置编码,生成融合嵌入特征;通过构建多模态训练样本并微调预训练模型,实现乐谱图像到盲文的自动转译。本发明通过融合乐谱图片结构中的乐谱系统的坐标信息,依托多模态大模型的图文理解能力,并将五线谱图片映射为符合盲文规范的语义表达,有效提升转译质量,实现从原始图像输入到最终盲文输出自动完成。
技术关键词
乐谱系统 转译方法 五线谱 多模态 盲文字符 盲文乐谱 图像 嵌入特征 系统边界 预训练模型 坐标 间距 图片 像素数组 算术平均值 解码器 数据 软件
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号