Mtu API-DOC
首页应用对话
首页应用对话
WeChat ID:F25F91
  1. 概念
  • Mtu API简介
  • Model-Studio-Pricing模型列表价格
  • Model限时免费模型列表
  • 1206更新(接入纯搜索baidu接口)
  • 1204模型更新Mistral-Large-3(675B)
  • 1120模型更新Jina DeepSearch v1
  • 1119模型更新列表Gemini 3 API
  • 1116模型更新列表GPT-5.1系列
  • 1114模型更新列表
  • 1106模型更新列表
  • 1021模型更新列表
  • 1013模型更新列表
  • 1003模型更新列表
  • 0922模型更新列表
  • Migrate to the Responses API
  • GPT-5-codex API上线 0924更新
  • OpenAI Web search 网络搜索
  • Using tools OpenAI官方文档
  • Chat
    • Create chat completion
    • List chat completions
    • Get chat completion
    • Update chat completion metadata
    • Delete chat completion
    • Get chat messages
  • Images
    • Create image
    • Create image edit
    • Create image variation
  • Audio
    • Create speech
    • Create transcription
    • Create translation
  • Embeddings
    • Create embeddings
  • Moderations
    • Create moderation
  • Files
    • Upload file
    • List files
    • Retrieve file
    • Delete file
    • Retrieve file content
  • Models
    • List models
    • Retrieve model
    • Delete a fine-tuned model
  • MCP开发
    • MCP开始使用
      • 简介
      • 示例 Servers
      • 示例 Clients
      • 快速上手
        • 服务器开发
        • 客户端开发
        • Claude 桌面版开发
    • 教程
      • 使用 LLMs 构建 MCP
      • 调试 Debugging
      • 调试器 Inspector
    • 概念
      • 核心架构
      • 资源 Resources
      • 提示词 Prompts
      • 工具 Tools
      • 采样 Sampling
      • 根 Roots
      • 传输 Transports
    • 开发
      • 新计划
      • 规划
      • 贡献
  • OpenAI 项目
    • 介绍
    • 项目说明
    • 导言
    • 身份验证
    • 发出请求
    • 参数详情
    • 聊天(Chat)
      • Chat Completions 对象
      • Chat Completions 对象块
      • 创建 Chat Completions
    • 音频(Audio)
      • 创建语音
      • 创建转录
      • 创建翻译
    • 自动补全(Completions)
      • Completions 对象
      • 创建 Completions
    • 嵌入(Embeddings)
      • 嵌入对象
      • 创建嵌入
    • 微调(Fine-tuning)
      • 微调作业对象
      • 微调作业事件对象
      • 创建微调作业
      • 列出微调作业
      • 检索微调作业
      • 取消微调
      • 列出微调事件
    • 图像(Images)
      • README
      • 图像对象
      • 创建图像
      • 创建图片编辑
      • 创建图像变体
    • 模型(Models)
      • 模型对象
      • 列出模型
      • 检索模型
      • 删除微调模型
    • 文件(Files)
      • README
      • 文件对象
      • 列出文件
      • 上传文件
      • 删除文件
      • 检索文件
      • 检索文件内容
    • 审查(Moderations)
      • 调节对象
      • 创建内容审核
    • 助手测试版(AssistantsBeta)
      • 辅助对象
      • 辅助文件对象
      • 创建助手
      • 检索助手
      • 修改助手
      • 删除助手
      • 列出助手
      • 创建辅助文件
      • 检索助手文件
      • 删除辅助文件
      • 列出助手文件
    • 线程(Threads)
      • 线程对象
      • 创建线程
      • 检索线程
      • 修改线程
      • 删除话题
    • 留言(Messages)
      • 消息对象
      • 消息文件对象
      • 创建消息
      • 检索消息
      • 修改留言
      • 列出消息
      • 检索消息文件
      • 列出消息文件
    • 运行(Runs)
      • 运行对象
      • 运行步骤对象
      • 创建运行
      • 检索运行
      • 修改运行
      • 列表运行
      • 提交工具输出以运行
      • 取消运行
      • 创建线程并运行
      • 检索运行步骤
      • 列出运行步骤
    • 已弃用-音频(Audio)
      • 创建转录
      • 创建翻译
  • 通义千问 项目
    • 首次调用通义千问API
    • 文本生成
      • 深度思考(QwQ)
        • 深度思考(QwQ)概括
        • 快速开始
        • 多轮对话
      • 长上下文
        • 通过file-id传入文档信息
          • 简单示例
          • 传入多文档
          • 追加文档
        • 通过纯文本传入信息
          • 简单示例
          • 传入多文档
          • 追加文档
        • 通过JSON字符串传入文档信息
          • 简单示例
          • 传入多文档
          • 追加文档
      • 翻译能力
        • Qwen-MT模型
        • 支持的语言
        • 简单示例
        • 流式输出
        • 术语干预翻译
        • 使用翻译记忆
        • 领域提示
      • 数学能力
        • 模型概览
        • 示例代码
      • 代码能力
        • 模型概览
        • 简单示例
        • 代码补全
        • 根据前缀和后缀生成中间内容
      • 多轮对话
        • 开始使用
      • 流式输出(Stream)
        • 概述
        • 开始使用
      • 工具调用(Function Calling)
        • 概述
      • 结构化输出(Json Mode)
        • 支持的模型
        • 开始使用
      • 前缀续写(Partial Mode)
        • 支持的模型
        • 开始使用
      • 批量推理(Batch)
        • 概述
      • 上下文缓存(Context Cache)
        • 概述
    • 视觉理解
      • 全模态(Qwen-Omni )
        • 概述
        • 开始使用
        • 图片+文本输入
        • 音频+文本输入
        • 视频+文本输入
        • 多轮对话
  • Claude code 部署教程
    • Claude code 部署教程接入MTUAPI
    • Claude Code Router 配置指南
  • 数据模型
    • Schemas
      • ChatCompletionRequest
      • ChatCompletionObject
      • EmbeddingsRequest
      • ChatMessage
      • ImageCreateRequest
      • ModerationsRequest
      • FileObject
  1. 概念

采样 Sampling

让您的服务器请求来自 LLM 的补全#

采样 (Sampling) 是一项强大的 MCP 功能,它允许服务器通过客户端请求 LLM 完成,从而实现复杂的代理行为,同时保持安全性和隐私。
此 MCP 功能在 Claude 桌面客户端 (Claude Desktop client)中尚不支持。

采样的工作原理#

采样流程包括以下步骤:
1.
服务器向客户端发送 sampling/createMessage 请求
2.
客户端审核请求并可以修改它
3.
客户端从 LLM 采样
4.
客户端审核完成结果
5.
客户端将结果返回给服务器
这种人机协作的设计确保用户保持对 LLM 所见和所生成内容的控制。

消息格式#

采样请求使用标准化的消息格式:

请求参数#

消息#

messages 数组包含要发送到 LLM 的对话历史记录。 每条消息都有:
role: “user” 或 “assistant”
content
: 消息内容,可以是:
带有 text 字段的文本内容
带有 data(base64 编码)和 mimeType 字段的图像内容

模型偏好#

modelPreferences 对象允许服务器指定其模型选择偏好:
hints: 客户端可用于选择合适模型的模型名称建议数组:
name: 可以匹配完整或部分模型名称的字符串(例如,“claude-3”,“sonnet”)
客户端可以将提示(hints)映射到来自不同提供商的等效模型
多个提示(hints)按偏好顺序评估
优先级值(0-1 归一化):
costPriority: 最小化成本的重要性
speedPriority: 低延迟响应的重要性
intelligencePriority: 高级模型能力的重要性
客户端根据这些偏好及其可用模型进行最终模型选择。

系统提示#

可选的 systemPrompt 字段允许服务器请求特定的系统提示(system prompt)。 客户端可以修改或忽略此提示。

上下文包含#

includeContext 参数指定要包含的 MCP 上下文:
"none":无其他上下文
"thisServer":包含来自请求服务器的上下文
"allServers":包含来自所有连接的 MCP 服务器的上下文
客户端控制实际包含哪些上下文。

采样参数#

使用以下方法微调 LLM 采样:
temperature: 控制随机性(0.0 到 1.0)
maxTokens: 要生成的最大令牌(token)数
stopSequences: 停止生成的序列数组
metadata: 其他特定于提供程序的参数

响应格式#

客户端返回一个完成结果:

示例请求#

以下是请求从客户端进行采样的示例:
{
  "method": "sampling/createMessage",
  "params": {
    "messages": [
      {
        "role": "user",
        "content": {
          "type": "text",
          "text": "What files are in the current directory?"
        }
      }
    ],
    "systemPrompt": "You are a helpful file system assistant.",
    "includeContext": "thisServer",
    "maxTokens": 100
  }
}

最佳实践#

实施采样时:
1.
始终提供清晰、结构良好的提示(prompts)
2.
适当地处理文本和图像内容
3.
设置合理的令牌(token)限制
4.
通过 includeContext 包含相关上下文
5.
在使用响应之前对其进行验证
6.
优雅地处理错误
7.
考虑对采样请求进行速率限制(rate limiting)
8.
记录预期的采样行为
9.
使用各种模型参数进行测试
10.
监控采样成本

人机回路控制#

采样的设计考虑到了人工监督:

对于提示#

客户端应向用户显示建议的提示(prompt)
用户应该能够修改或拒绝提示(prompts)
系统提示(system prompts)可以被过滤或修改
上下文包含由客户端控制

对于完成#

客户端应向用户显示完成结果
用户应该能够修改或拒绝完成结果
客户端可以过滤或修改完成结果
用户控制使用哪个模型

安全注意事项#

实施采样时:
验证所有消息内容
清理敏感信息
实施适当的速率限制(rate limits)
监控采样使用情况
加密传输中的数据
处理用户数据隐私
审核采样请求
控制成本风险
实施超时
优雅地处理模型错误

常见模式#

代理工作流#

采样支持诸如以下代理模式:
阅读和分析资源
根据上下文做出决策
生成结构化数据
处理多步骤任务
提供互动式帮助

上下文管理#

上下文的最佳实践:
请求最少的必要上下文
清晰地构建上下文
处理上下文大小限制
根据需要更新上下文
清理过时的上下文

错误处理#

强大的错误处理应:
捕获采样失败
处理超时错误
管理速率限制(rate limits)
验证响应
提供回退行为
适当地记录错误

局限性#

请注意以下限制:
采样取决于客户端功能
用户控制采样行为
上下文大小有限制
速率限制(rate limits)可能适用
应考虑成本
模型可用性各不相同
响应时间各不相同
并非支持所有内容类型

扫码加入 Mtu api 微信交流群

获得 Mtu api 使用上的任何帮助,效率得到大幅提升,技术客服WeChat:F25F91

扫码关注公众号
修改于 2025-09-12 09:50:17
上一页
工具 Tools
下一页
根 Roots
Built with