@18612183942 2026-01-22T01:30:25.000000Z 字数 1776 阅读 32

硬件接口文档

接口地址：wss://xiaojinghoutai.shuziwenlv.com/DashScope/VoiceChatWebSocket

1 客户端报文

客户端与服务端首先通过 WebSocket建立连接，随后客户端发送开始录音指令。服务端在收到指令后，会判断是否需要向客户端推送欢迎语音。客户端开始录音后，可直接将音频流通过已建立的WebSocket连接发送至服务端。服务端在处理过程中，会向客户端反馈任务相关的报文信息。

1.1 开始录音

调用方：客户端
响应方：服务端
接口说明：本指令用于客户端向服务端发送开始录音指令，收到指令后，服务端开始建立和阿里云的语音识别连接。
报文：

{"cmd":"start-record","deviceId":"1000000001","sessionId":"","taskId":"task_1768440418334_fbsi00cyy"}

注意：asrFormatType： 10 wav 20 opus ttsFormatType： 10 mp3 20 opus

1.2 发送音频流

客户端开始录音后，可直接将音频流通过已建立的WebSocket连接发送至服务端。

1.3 停止录音

调用方：客户端
响应方：服务端
接口说明：本指令用于客户端向服务端发送停止录音指令，服务端后到指令后结束和阿里云的语音识别任务。
报文：

{"cmd":"stop-record","taskId":"task_1768440418334_fbsi00cyy"}

2 服务端报文

客户端与服务端建立 WebSocket 连接后，服务端确认连接并进入指令监听状态。收到客户端发送的 “开始录音” 指令后，服务端将启动语音识别、AI问答及文本转语音（TTS）任务，并返回相关任务报文。其中，文本转语音功能将直接通过已建立的 WebSocket 连接，将语音流实时推送至客户端。收到客户端发送的 “停止录音” 指令后，服务端不再接收客户端的语音流。

2.1 欢迎语

服务端收到开始录音指令后，自动判断是否需要发送欢迎语，如果需要发送，会通过建立的websocket连接直接发送。

2.2 语音识别

调用方：服务端
响应方：客户端
接口说明：本指令用于服务端向客户端反馈语音识别任务的状态。
任务开始报文：

{"type":"asr-started","msg":"任务开启成功","taskId":"task_1768440418334_fbsi00cyy"}

流式输出报文：

{"type":"asr-reponse","msg":"上午，","duration":0,"taskId":"task_1768440418334_fbsi00cyy"}

识别成功报文：

{"type":"asr-reponse","msg":"上午好啊。","duration":2,"taskId":"task_1768440418334_fbsi00cyy"}

2.3 AI问答

调用方：服务端
响应方：客户端
接口说明：本指令用于服务端向客户端反馈AI问答任务的状态。
流式输出报文：

{"type":"chat-response","msg":"上午好","taskId":"task_1768440418334_fbsi00cyy"}

问答结束报文：

{"type":"chat-finished","taskId":"task_1768440418334_fbsi00cyy","msg":"完成大模型对话"}

2.4 文本转语音

调用方：服务端
响应方：客户端
接口说明：本指令用于服务端向客户端反馈文本转语音任务的状态，其中音频流通过建立的websocket连接直接发送。
任务开始报文：

{"type":"tts-started","taskId":"task_1768440418334_fbsi00cyy","msg":"tts任务开始","volume":50}

任务结束报文：

{"type":"tts-finished","taskId":"task_1768440418334_fbsi00cyy","msg":"tts任务结束"}

任务失败报文：

{"type":"tts-error","taskId":"task_1768440418334_fbsi00cyy","msg":"request timeout after 23 seconds."}