AITNT全球AI需求对接平台

多模态融合交互大模型

1、希望解决的主要技术问题：多模态融合交互大模型通过多种硬件设备(包括话筒、眼动追踪仪、手势传感器等)采集多模态数据(包括声音、文本、明动、手势等)，通过多模态大模型实现复杂车载环境下的用户意图理解与响应。 2、需求提出背景及主要应用领域方向: 在面向复杂环境无人车操控方面，多模态人机交互技术支持语音、按键、触屏、手势、视线等多种交互方式，通过多种交耳方式融合，能多维提取用户交互意图，利用各通道优势互补，弥补单通道识别准确率和交互效率不高的问题，也能平衡感官通道之间的使用负担，减轻无人车操控人员的认知负担，使其能够投入更多注意力到决策中。可部署在有人车或单人便携使用，具备对无人车通用化操控能力，有较强的实用性和推广性。 3、技术难点： (1)多模态融合交互的准确性需达到 95%以上; (2)具备声纹识别功能，识别准确率达到 90%以上; (2)需具备对用户自然交互意图的分析与理解能力; (3)适配国产化智能计算平台，完成本地化部署。 4、对主要技术指标、成本、周期等有关要求: 主要技术指标: ①具备语义理解功能，可对用户视觉注意力区域的视频图像信息进行语义分析，理解视觉场景的结构化关系; ②具备知识库检索与更新功能，可对文档、规则、协议、操作习惯等知识库进行检索，并可根据用户输入，动态更新知识库; ③具备自然语音识别和结构化语音指令识别功能，其中自然语音识别准确率≥90%，结构化指令识别准确率≥95%，语音识别延时≤0.5秒； ④具备语音合成功能，支持将文字信息转换为自然流畅的语音输出，语音合成模型支持以汉语为主并混合英语短语的跨语言合成，支持合成音色、语速设置。 ⑤具备多模态融合交互功能，实现语音、手势、眼动、头动等多模态交互指令的融合，生成格式化的指令或文本消息; ⑥具有用户意图理解功能，可根据声音、文本、眼动、手势等交互输入推理用户操作意图，理解用户下达的模糊指令，生成格式化的指令或文本消息; ⑦具备操作推荐功能，为用户提供多样化可选操作推荐，简化用户操作流程; ⑧用户多模态融合交互意图识别准确率≥95%; ⑨ 多模态融合交互意图识别延时≤1秒。

已过期：截止至2025-12-31

150万元-150万元

→