摘要
本发明涉及数字人交互技术领域,公开了一种基于大模型和RAG的数字人实时交互方法,通过基于ASR模型解析用户输入的语音语义,并将解析结果输入至RAG模块中,通过RAG模块从知识库中检索与用户指令语义相关的数据段,再通过大模型生成回答文本,提高了回答文本的精准性和上下文的相关性。此外,本发明的知识库还支持业务场景化配置,以及在大模型的推理过程中,还基于包括用户输入的语音特征、手势信息的多模态向量进行回答文本的推理,满足了复杂业务场景中对语义理解和多模态交互的更高要求。
技术关键词
语义向量
交互方法
多层注意力机制
文本
语音特征
指令
物联网设备数据
逻辑
索引
企业内部数据
动态更新
场景上下文
自动语音识别
推理架构
节点
语音同步
系统为您推荐了相关专利信息
语音生成方法
语音生成模型
邻域
文本
语音生成技术
图像生成模型
文本
图像生成方法
生成噪声
噪声图像