摘要
本申请公开了一种针对全模态大模型的模态对齐方法,方法包括:构建和训练全模态大模型,全模态大模型用于统一接收文本、视觉和语音模态的输入,基于大语言模型,根据文本进行多模态对齐;将视觉模态输入全模态大模型,采用序列维度的拼接方法,将视觉特征与文本嵌入进行拼接,进行视觉模态对齐;将语音模态输入全模态大模型,通过语音与文本映射机制实时生成中间文本结果,将语音特征与文本进行映射,进行语音模态对齐。本发明方法推动了全模态大模型在实时多模态交互场景中的性能提升和应用拓展。
技术关键词
对齐方法
文本
语音特征
拼接方法
大语言模型
时序分类方法
对齐模块
序列
语音编码器
对齐系统
令牌
生成用户
视觉特征提取
多模态交互
系统为您推荐了相关专利信息
非结构化文本
实体关系抽取方法
大语言模型
标记
三元组
大语言模型
智能规划方法
文本
废旧零部件
数学模型
节点
存储事务
序列
呼叫会话控制功能
大语言模型
满意度分析方法
人工智能技术
数据
多模态
语音编码器