一种基于视觉和大模型的仿真数字人实时智能语音交互系统及其方法

AITNT
正文
推荐专利
一种基于视觉和大模型的仿真数字人实时智能语音交互系统及其方法
申请号:CN202511245640
申请日期:2025-09-02
公开号:CN120998199A
公开日期:2025-11-21
类型:发明专利
摘要
本发明涉及一种基于视觉和大模型的仿真数字人实时智能语音交互系统及其方法,旨在解决复杂场景下数字人语音交互中目标说话人识别不精准、响应延迟高等问题。系统通过摄像头圈画有效识别范围,结合人脸检测触发音频采集,利用唇动识别、声像融合技术锁定目标说话人并降噪,经语音唤醒转换为文本后,借助大语言模型(LLM)与知识检索增强(RAG)技术生成回答,再通过vLLM加速的语音合成技术生成低延迟语音,驱动预加载的数字人形象合成视频流并实时推送至前端渲染。本发明实现了复杂环境下精确拾音、低延迟交互及数字人形象快速切换,提升了智能语音问答的准确性与实时性,适用于政务大厅、展馆等场景。
技术关键词
智能语音交互系统 流媒体服务器 音频 文本 人脸检测算法 智能语音交互方法 语义 音色特征 对象 降噪算法 大语言模型 麦克风 视频帧 唤醒词检测 进程 模块 说话人识别
系统为您推荐了相关专利信息
1
一种基于多模型融合的文本检索方法和系统
文本检索方法 语义 多模型 子模块 文本检索系统
2
基于大语言模型的智能数据报表生成系统及生成方法
企业知识库 大语言模型 数据存储模块 生成系统 数据报表生成方法
3
基于知识图谱生成问答的方法和装置
检索策略 文本分类模型 图谱 BERT模型 实体识别模型
4
基于提示学习的业务规则挖掘与业务流程构建的方法
大语言模型 业务流程模型 金融服务设备 文本 依赖关系分析
5
多声道环绕音频系统的控制方法及多声道环绕音频系统
环绕音频系统 定位蓝牙设备 主播放设备 音效 多声道
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号