一种针对全模态大模型的模态对齐方法及其系统

AITNT
正文
推荐专利
一种针对全模态大模型的模态对齐方法及其系统
申请号:CN202510766248
申请日期:2025-06-10
公开号:CN120745797A
公开日期:2025-10-03
类型:发明专利
摘要
本申请公开了一种针对全模态大模型的模态对齐方法,方法包括:构建和训练全模态大模型,全模态大模型用于统一接收文本、视觉和语音模态的输入,基于大语言模型,根据文本进行多模态对齐;将视觉模态输入全模态大模型,采用序列维度的拼接方法,将视觉特征与文本嵌入进行拼接,进行视觉模态对齐;将语音模态输入全模态大模型,通过语音与文本映射机制实时生成中间文本结果,将语音特征与文本进行映射,进行语音模态对齐。本发明方法推动了全模态大模型在实时多模态交互场景中的性能提升和应用拓展。
技术关键词
对齐方法 文本 语音特征 拼接方法 大语言模型 时序分类方法 对齐模块 序列 语音编码器 对齐系统 令牌 生成用户 视觉特征提取 多模态交互
系统为您推荐了相关专利信息
1
用于组态软件人机交互界面开发的批量化处理方法
组态软件 人机交互界面 格式 语句 批量
2
实体关系抽取方法、装置、设备、介质及程序产品
非结构化文本 实体关系抽取方法 大语言模型 标记 三元组
3
一种知识增强大语言模型驱动的再制造工艺智能规划方法
大语言模型 智能规划方法 文本 废旧零部件 数学模型
4
节点复制
节点 存储事务 序列 呼叫会话控制功能 大语言模型
5
一种基于人工智能技术的用户满意度分析方法及系统
满意度分析方法 人工智能技术 数据 多模态 语音编码器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号