概述 - Mtu API-DOC

Qwen-Omni 系列模型支持输入多种模态的数据，包括视频、音频、图片、文本，并输出文本。

支持的模型

相比于 Qwen-VL 与 Qwen-Audio 模型，Qwen-Omni 模型可以：

理解视频文件中的视觉与音频信息；

理解多种模态的数据；

在视觉理解、音频理解等能力上，Qwen-Omni 模型也表现出色。

模型名称	版本	上下文长度	最大输入	最大输出	免费额度（注）
（Token数）
qwen-omni-turbo当前等同qwen-omni-turbo-2025-01-19	稳定版	32,768	30,720	2,048	各100万Token（不区分模态）有效期：百炼开通后180天内
qwen-omni-turbo-latest始终等同最新快照版	最新版
qwen-omni-turbo-2025-01-19又称qwen-omni-turbo-0119	快照版

当免费额度用完后，输入与输出的计费规则如下：

其中，稳定版模型qwen-omni-turbo支持Batch调用，费用为以下价格的50%。注：Batch调用不支持抵扣免费额度。

输入计费项单价（每千 Token）输入：文本0.0004元输入：音频0.025元输入：图片/视频0.0015元	输出计费项单价（每千 Token）输出：文本0.0016元（输入仅包含文本时）0.0045元（输入包含图片/音频/视频时）
计费示例：某次请求输入了1000 Token 的文本和1000 Token 的图片，输出了1000 Token 的文本，则该请求花费：0.0004元（文本输入）+ 0.0015元（图片输入）+ 0.0045元（文本输出）= 0.0064元。在Batch调用模式下，该请求花费按50%计收，为0.0032元。

音频与图片转换为Token数的规则

支持以下输入组合：

无法在一个 User Message中输入多种非文本模态的数据。

输入的图片、音频、视频文件支持 Base64 编码与公网 URL 进行传入。以下示例代码均以传入公网 URL 为例，如果需要传入 Base64 编码，请参见输入 Base64 编码的本地文件。

当前仅支持以流式输出的形式调用 Qwen-Omni 模型。

重要

当前仅支持文本输出，后续会推出音频输出功能。

输出模态由**modalities**参数控制，当前仅支持设置为["text"]。

	``

输出模态	`modalities`参数值
文本	["text"]（默认值）