仅本页所有页面
由 GitBook 提供支持
1 / 94

简体中文

Cherry Studio

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

基础教程

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

知识库教程

Loading...

Loading...

Loading...

Loading...

进阶教程

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

Loading...

项目贡献

Loading...

Loading...

问题&反馈

Loading...

Loading...

Loading...

Loading...

联系我们

Loading...

Loading...

关于

Loading...

其他内容

Loading...

Loading...

功能介绍

项目规划

Cherry Studio Rodemap

Cherry Studio Project

客户端下载

当前最新正式版:v1.7.2

直链下载

Windows 版本

注意:Windows 7 系统不支持安装 Cherry Studio。

安装版(Setup)

x64 版本

主线路:

【】 【】

备用线路:

【】 【】 【】

ARM64 版本

主线路:

【】 【】

备用线路:

【】 【】 【】

便携版(Portable)

x64 版本

主线路:

【】 【】

备用线路:

【】 【】 【】

ARM64 版本

主线路:

【】 【】

备用线路:

【】 【】 【】


macOS 版本

Intel 芯片版本(x64)

主线路:

【】 【】

备用线路:

【】 【】 【】

Apple Silicon 版本(ARM64,M 系列芯片)

主线路:

【】 【】

备用线路:

【】 【】 【】


Linux 版本

x86_64 版本

主线路:

【】 【】

备用线路:

【】 【】 【】

ARM64 版本

主线路:

【】 【】

备用线路:

【】 【】 【】


网盘下载

项目简介

关注我们的社交账号:、、、、

加入我们的社群:、、、


Cherry Studio 是一款集多模型对话、知识库管理、AI 绘画、翻译等功能于一体的全能 AI 助手平台。 Cherry Studio 高度自定义的设计、强大的扩展能力和友好的用户体验,使其成为专业用户和 AI 爱好者的理想选择。无论是零基础用户还是开发者,都能在 Cherry Studio 中找到适合自己的 AI 功能,提升工作效率和创造力。


Cherry Studio 官网
GitHub
线路1
线路2
线路3
Cherry Studio 官网
GitHub
线路1
线路2
线路3
Cherry Studio 官网
GitHub
线路1
线路2
线路3
Cherry Studio 官网
GitHub
线路1
线路2
线路3
Cherry Studio 官网
GitHub
线路1
线路2
线路3
Cherry Studio 官网
GitHub
线路1
线路2
线路3
Cherry Studio 官网
GitHub
线路1
线路2
线路3
Cherry Studio 官网
GitHub
线路1
线路2
线路3
夸克

知识库

知识库使用可参考进阶教程中的 知识库教程。

设置

快捷键设置

在该界面可以启(停)用和设置一些功能的快捷键,具体按照界面指示设置。

常规设置

在此页面可设置软件的界面语言、设置代理等。

免费联网模式

文件

文件界面会展示所有对话、绘画、知识库等相关的文件,可以在此页面集中管理和查看。

核心功能与特色

1. 基础对话功能

  • 一问多答:支持同一问题通过多个模型同时生成回复,方便用户对比不同模型的表现,详见 对话界面。

  • 自动分组:每个助手的对话记录会自动分组管理,便于用户快速查找历史对话。

  • 对话导出:支持将完整对话或部分对话导出为多种格式(如 Markdown、Word 等),方便储存与分享。

  • 高度自定义参数:除了基础参数调整外,还支持用户填写自定义参数,满足个性化需求。

  • 助手市场:内置千余个行业专用助手,涵盖翻译、编程、写作等领域,同时支持用户自定义助手。

  • 多种格式渲染:支持 Markdown 渲染、公式渲染、HTML 实时预览等功能,提升内容展示效果。

2. 多种特色功能集成

  • AI 绘画:提供专用绘画面板,用户可通过自然语言描述生成高质量图像。

  • AI 小程序:集成多种免费 Web 端 AI 工具,无需切换浏览器即可直接使用。

  • 翻译功能:支持专用翻译面板、对话翻译、提示词翻译等多种翻译场景。

  • 文件管理:对话、绘画和知识库中的文件统一分类管理,避免繁琐查找。

  • 全局搜索:支持快速定位历史记录和知识库内容,提升工作效率。

3. 多服务商统一管理机制

  • 服务商模型聚合:支持 OpenAI、Gemini、Anthropic、Azure 等主流服务商的模型统一调用。

  • 模型自动获取:一键获取完整模型列表,无需手动配置。

  • 多秘钥轮询:支持多个 API 秘钥轮换使用,避免速率限制问题。

  • 精准头像匹配:为每个模型自动匹配专属头像,提升辨识度。

  • 自定义服务商:支持符合 OpenAI、Gemini 、Anthropic 等规范的三方服务商接入,兼容性强。

4. 高度自定义界面和布局

  • 自定义 CSS:支持全局样式自定义,打造专属界面风格。

  • 自定义对话布局:支持列表或气泡样式布局,并可自定义消息样式(如代码片段样式)。

  • 自定义头像:支持为软件和助手设置个性化头像。

  • 自定义侧边栏菜单:用户可根据需求隐藏或排序侧边栏功能,优化使用体验。

5. 本地知识库系统

  • 多种格式支持:支持 PDF、DOCX、PPTX、XLSX、TXT、MD 等多种文件格式导入。

  • 多种数据源支持:支持本地文件、网址、站点地图甚至手动输入内容作为知识库源。

  • 知识库导出:支持将处理好的知识库导出并分享给他人使用。

  • 支持搜索检查:知识库导入后,用户可实时检索测试,查看处理结果和分段效果。

6. 特色聚焦功能

  • 快捷问答:在任何场景(如微信、浏览器)中呼出快捷助手,快速获取答案。

  • 快捷翻译:支持快速翻译其他场景中的词汇或文本。

  • 内容总结:对长文本内容进行快速总结,提升信息提取效率。

  • 解释说明:无需复杂提示词,一键解释说明不懂的问题。

7. 数据保障

  • 多种备份方案:支持本地备份、WebDAV 备份和定时备份,确保数据安全。

  • 数据安全:支持全本地场景使用,结合本地大模型,避免数据泄漏风险。


项目优势

  1. 小白友好:Cherry Studio 致力于降低技术门槛,零基础用户也能快速上手,让用户专注于工作、学习或者创作。

  2. 文档完善:提供详细的使用文档和常见问题处理手册,帮助用户快速解决问题。

  3. 持续迭代:项目团队积极响应用户反馈,持续优化功能,确保项目健康发展。

  4. 开源与扩展性:支持用户通过开源代码进行定制和扩展,满足个性化需求。


适用场景

  • 知识管理与查询:通过本地知识库功能,快速构建和查询专属知识库,适用于研究、教育等领域。

  • 多模型对话与创作:支持多模型同时对话,帮助用户快速获取信息或生成内容。

  • 翻译与办公自动化:内置翻译助手和文件处理功能,适合需要跨语言交流或文档处理的用户。

  • AI 绘画与设计:通过自然语言描述生成图像,满足创意设计需求。

Star History

Star History

关注我们的社交账号

推特(X)
小红书
微博
哔哩哔哩
抖音
QQ群(575014769)
Telegram
Discord
微信群(点击查看)

网络搜索黑名单配置

Cherry Studio支持手动和添加订阅源两种方式配置黑名单。配置规则参考

手动配置

您可以为搜索结果添加规则或点击工具栏图标以屏蔽指定的网站。规则可以通过以下方式指定: (示例:*://*.example.com/*) 或使用 (示例:/example\.(net|org)/).

OneAPI

  • 登录并进入令牌页面

  • 创建新令牌(也可以直接使用default令牌↑)

  • 复制令牌

macOS

macOS 版本安装教程

  1. 首先到官网下载页面点击下载 Mac 版本,或点击下方直达

请注意下载 自己 Mac 对应的芯片版本

如果不知道自己的 Mac 应当使用什么芯片版本:

Windows

Windows 版本安装教程

打开官方网站

注意:Windows 7 系统不支持安装 Cherry Studio。

MCP 使用教程

模型服务配置

安装教程

数据设置

免费模型

小程序

在小程序页面你可以在客户端内使用各大服务商 AI 相关程序的网页版,目前暂不支持自定义添加和删除。

个性化设置

订阅源配置

您还可以订阅公共规则集。该网站列出了一些订阅: https://iorate.github.io/ublacklist/subscriptions

以下是一些比较推荐的订阅源链接:

名称
链接
类型

https://git.io/ublacklist

中文

https://raw.githubusercontent.com/laylavish/uBlockOrigin-HUGE-AI-Blocklist/main/list_uBlacklist.txt

AI生成

订阅源配置
ublacklist
匹配模式
正则表达式
  • 打开CherryStudio的服务商设置点击服务商列表最下方的添加

  • 输入备注名称,提供商选OpenAI,点击确定

  • 填入刚刚复制的key

  • 回到获取API Key的页面,在对应浏览器地址栏复制根地址,例:

只需要复制https://xxx.xxx.com即可,“/”及其之后的内容不需要
  • 当地址为IP+端口时填http://IP:端口即可,如:http://127.0.0.1:3000

  • 严格区分http和https,如果没有开启SSL就不要填https

  • 添加模型(点击管理自动获取或手动输入)打开右上角开关即可使用。

OneAPI其他主题可能界面有所不同,但添加方法跟上述操作流程一致。

点击 Mac 左上角菜单栏 
  • 在展开菜单中点击关于本机

  • 在弹出窗口中查看处理器信息

  • 如果为 Intel 芯片则下载 Intel 版本安装包

    如果为 Apple M* 芯片则下载 Apple 芯片安装包

    1. 下载完成后点击这里

    1. 拖拽图标安装

    到启动台中寻找 Cherry Studio 图标并点击,能打开 Cherry Studio 主界面则安装成功。

    下载
    打开官方网站

    安装

    软件安装界面

    软件依赖库

    本软件依赖 Visual C++ Redistributable 运行库,如果遇到安装提示请点击是来安装软件依赖

    或者手动下载安装:https://aka.ms/vs/17/release/vc_redist.x64.exe

    小红书

    哔哩哔哩

    微博

    抖音

    推特(X)

    Cover
    Cover
    Cover
    Cover
    Cover

    显示设置

    在此页面你可以设置软件的颜色主题、页面布局或者 自定义 CSS 来进行一些个性化的设置。

    主题选择

    你可以在此处设置默认的界面颜色模式(浅色模式、深色模式或跟随系统)

    话题设置

    该设置是针对对话界面的布局的设置。

    话题位置

    自动切换到话题

    当打开该设置时点击助手名称页面会自动切换到对应话题页面。

    显示话题时间

    打开时会在话题下方显示话题 创建 的时间。

    自定义 CSS

    通过此设置可灵活的对界面做一些个性化的更改和设置。具体方法参考进阶教程中的 。

    思源笔记配置教程

    支持将话题、消息导出到思源笔记。

    第一步

    打开思源笔记,创建一个笔记本

    点击新建笔记本

    第二步

    打开笔记本打开设置,并复制笔记本ID

    第三步

    复制笔记本ID填写到 Cherry Studio 设置里

    第四步

    填写思源笔记地址

    • 本地 通常为 http://127.0.0.1:6806

    • 自部署 为你的域名 http://note.domain.com

    第五步

    复制思源笔记 API Token

    填入 Cherry Studio 设置里并检查

    第六步

    恭喜你,思源笔记的配置已经完成了 ✅ 接下来就可以将 Cherry Studio 内容导出到你的思源笔记中了

    S3 兼容存储备份

    Cherry Studio 数据备份支持通过 S3 兼容存储(对象存储)的方式进行备份。常见的 S3 兼容存储服务有:AWS S3、Cloudflare R2、阿里云 OSS、腾讯云 COS 以及 MinIO 等。

    基于 S3 兼容存储可以通过 A电脑 →备份\xrightarrow{\text{备份}}备份​ S3存储 →恢复\xrightarrow{\text{恢复}}恢复​ B电脑 的方式来实现多端数据同步。

    配置 S3 兼容存储

    1. 创建对象存储桶(Bucket),并记录下存储桶名称。强烈建议将存储桶设置为私有读写以避免备份数据泄露!!

    2. 参考文档,前往云服务控制台获取 S3 兼容存储的 Access Key ID、Secret Access Key、Endpoint、Bucket、Region 等信息。

      • Endpoint:S3 兼容存储的访问地址,通常形如 https://<bucket-name>.<region>.amazonaws.com 或 https://<ACCOUNT_ID>.r2.cloudflarestorage.com。

    3. 在 S3 备份设置中填写上述信息,点击备份按钮即可进行备份,点击管理按钮可以查看和管理备份文件列表。

    Google Gemini

    获取APIKey

    • 获取 Gemini 的 api key 前,你需要有一个 Google Cloud 项目(如果你已有,此过程可跳过)

    • 进入 Google Cloud 创建项目,填写项目名称并点击创建项目

    • 在官方 点击 密钥 创建API密钥

    • 将生成的 key 复制,并打开 CherryStudio 的

    • 找到服务商 Gemini,填入刚刚获取到的 key

    • 点击最下方管理或者添加,加入支持的模型并打开右上角服务商开关就可以使用了。

    • 中国除台湾之外其他地区无法直接使用 Google Gemini 服务,需自行解决代理问题;

    配置和使用 MCP

    1. 打开 Cherry Studio 设置。

    2. 找到 MCP 服务器 选项。

    3. 点击 添加服务器。

    4. 将 MCP Server 的相关参数填入()。可能需要填写的内容包括:

      • 名称:自定义一个名称,例如 fetch-server

      • 类型:选择 STDIO

      • 命令:填写 uvx

    5. 点击 保存。

    完成上述配置后,Cherry Studio 会自动下载所需的 MCP Server - fetch server。下载完成后,我们就可以开始使用了!注意:当 mcp-server-fetch 配置不成功的时候,可以尝试重启一下电脑。

    在聊天框中启用 MCP 服务

    • 在 MCP 服务器 设置成功添加了 MCP 服务器

    使用效果展示

    从上图可以看出,结合了 MCP 的 fetch 功能后,Cherry Studio 能够更好地理解用户的查询意图,并从网络上获取相关信息,给出更准确、更全面的回答。

    GitHub Copilot

    使用 GitHub Copilot 需要先拥有一个 GitHub 账号,并订阅 GitHub Copilot 服务,free 版本的订阅也可以,但 free 版本不支持最新的 Claude 3.7 模型,具体请参考 GitHub Copilot 官网。

    获取 Device Code

    点击「登录 GitHub」,获取 Device Code 并复制。

    获取 Device Code

    在浏览器中填写 Device Code 并授权

    成功获取 Device Code 后,点击链接打开浏览器,在浏览器中登录 GitHub 账号,输入 Device Code 并授权。

    授权成功后,返回 Cherry Studio,点击「连接 GitHub」,成功后会显示 GitHub 用户名和头像。

    点击「管理」获取模型列表

    点击下方的「管理」按钮,会自动联网获取当前支持的模型列表。

    常见问题

    获取 Device Code 失败,请重试

    目前使用 Axios 构建请求,Axios 不支持 socks 代理,请使用系统代理或 HTTP 代理,或者直接不在 CherryStudio 中设置代理,使用全局代理。首先请确保您的网络连接正常,以避免获取 Device Code 失败的情况。

    Vertex AI

    暂时不支持Claude模型

    教程概述

    1. 获取 API Key

    • 获取 Gemini 的 API Key 前,你需要有一个 Google Cloud 项目(如果你已有,此过程可跳过)

    • 进入 创建项目,填写项目名称并点击创建项目

    • 进入

    • 在创建的项目中开通

    2. 设置 API 访问权限

    • 打开 权限界面,创建服务账号

    • 在服务账号管理页面找到刚刚创建的服务账号,点击密钥并创建一个新的 JSON 格式密钥

    • 创建成功后,密钥文件将会以 JSON 文件的格式自动保存到你的电脑上,请 妥善保存

    3. 在Cherry Studio中配置Vertex AI

    • 选择Vertex AI服务商

    • 将JSON文件的对应字段填入

    点击添加 ,就可以愉快地开始使用了!

    清除 CSS 设置

    当设置了错误的css,或者在设置了css后无法进入设置界面时,使用该方法清除css设置。

    • 打开控制台,点击CherryStudio窗口,按下快捷键Ctrl+Shift+I(MacOS:command+option+I)。

    • 在弹出的控制台窗口中,点击Console

    • 然后手动输入document.getElementById('user-defined-custom-css').remove() ,复制粘贴大概率不会执行。

    • 输入完成后回车确认即可清除css设置,然后再次进入CherryStudio的显示设置当中,删除有问题的css代码。

    知识库数据

    在 Cherry Studio 知识库中添加的数据全部存储在本地,在添加过程中会复制一份文档放在 Cherry Studio 数据存储目录

    知识库处理流程图

    向量数据库:https://turso.tech/libsql

    当文档被添加到 Cherry Studio 知识库之后,文件会被切分为若干个片段,然后这些片段会交给嵌入模型进行处理

    当使用大模型进行问答的时候,会查询和问题相关的文本片段一并交个大语言模型处理

    如果对数据隐私有要求,建议使用本地嵌入数据库和本地大语言模型

    配置 Dify 知识库

    Dify 知识库 MCP 需要将 Cherry Studio 升级至 v1.2.9 或更高版本。

    添加 Dify 知识库 MCP 服务器

    1. 打开 搜索MCP。

    2. 添加 dify-knowledge 服务器。

    配置 Dify 知识库

    需要配置参数和环境变量

    1. Dify知识库key可以通过以下方式获取

    使用Dify知识库mcp

    默认模型设置

    默认助手模型

    当助手未设置默认助手模型时,其新对话当中默认选择的模型为此处设置的模型。

    优化提示词、划词助手使用的也是此处设置的模型。

    话题命名模型

    每次对话后会调用模型为对话生成一个话题名称,此处设置的模型为命名时所使用的模型。

    翻译模型

    对话、绘画等输入框当中的翻译功能,翻译界面的翻译模型都使用的是此处设置的模型。

    快捷助手模型

    快捷助手功能使用的模型,详见

    绘画

    绘画功能目前支持 DMXAPI、TokenFlux、AiHubMix 和 硅基流动 的绘画模型,你可以到 硅基流动 注册一个账户 添加到服务商 来使用。

    有关参数的疑问可以鼠标悬停在对应区域的 ? 处查看介绍。

    后续将会增加更多服务商,敬请期待。

    PPIO 派欧云

    Cherry Studio 接入 PPIO LLM API

    教程概述

    Cherry Studio 是一款多模型桌面客户端,目前支持:Windows 、Linux 、MacOS 系电脑安装包。它聚合主流 LLM 模型,提供多场景辅助。用户可通过智能会话管理、开源定制、多主题界面来提升工作效率。

    模型服务设置

    当前页面仅做界面功能的介绍,配置教程可以参考基础教程中的 教程。

    • 在使用内置服务商时只需要填写对应的秘钥即可。

    • 不同服务商对秘钥的叫法可能有所不同,秘钥、Key、API Key、令牌等都指的是同一个东西。

    CherryIN

    1. 点击 CherryIN 服务商的 "点击这里获取密钥"

    1. 在 CherryIN 的控制台中创建密钥,注意创建密钥时,根据令牌分组不同,模型倍率不同,即折扣不同。

    1. 点击密钥后方的按钮,复制密钥到剪贴板

    阿里云百炼

    1. 登录 ,没有阿里云账号的话需要注册。

    2. 点击右上角的 创建我的 API-KEY 按钮。

    1. 在弹出的窗口中选择默认业务空间(或者你也可以自定义),如果你想要的话可以填入描述。

    数据设置

    该界面可以进行数据本地和云端备份与恢复、本地数据目录查询和清除缓存、导出设置以及第三方连接等操作。

    数据备份

    数据备份目前支持本地备份、WebDAV 备份与 S3 兼容存储(对象存储)备份三种方式。具体介绍与教程请参考以下文档:

    MCP 环境安装

    MCP(Model Context Protocol) 是一种开源协议,旨在以标准化的方式向大语言模型(LLM)提供上下文信息。更多关于 MCP 的介绍请见

    在 Cherry Studio 中使用 MCP

    下面以 fetch 功能为例,演示如何在 Cherry Studio 中使用 MCP,可以在 中查找详情。

    隐私协议

    欢迎使用 Cherry Studio(以下简称“本软件”或“我们”)。我们高度重视您的隐私保护,本隐私协议将说明我们如何处理与保护您的个人信息和数据。请在使用本软件前仔细阅读并理解本协议:

    一、我们收集的信息范围

    为了优化用户体验和提升软件质量,我们仅可能会匿名收集以下非个人化信息:

    • 软件版本信息;

    • 软件功能的活跃度、使用频次;

    • 匿名的崩溃、错误日志信息;

    上述信息完全匿名,不会涉及任何个人身份数据,也无法关联到您的个人信息。

    字体推荐

    常见问题

    1. mcp-server-time

    解决方案

    在“参数”一栏填写:

    商务合作

    联系人:王先生

    📮:[email protected]

    📱:18954281942 (非客服电话)

    使用问题咨询,可以在官网首页底部加入我们的用户交流群,也可邮件 [email protected]

    或提交 issues:

    贡献代码

    我们欢迎对 Cherry Studio 的贡献!您可以通过以下方式贡献:

    1. 贡献代码:开发新功能或优化现有代码。

    2. 修复错误:提交您发现的错误修复。

    3. 维护问题:帮助管理 GitHub 问题。

    4. 产品设计:参与设计讨论。

    5. 撰写文档:改进用户手册和指南。

    6. 社区参与:加入讨论并帮助用户。

    7. 推广使用:宣传 Cherry Studio。

    二、我们不会收集的任何信息

    为了最大限度保护您的隐私安全,我们明确承诺:

    • 不会收集、保存、传输或处理您输入到本软件中的模型服务 API Key 信息;

    • 不会收集、保存、传输或处理您在使用本软件过程中产生的任何对话数据,包括但不限于聊天内容、指令信息、知识库信息、向量数据及其他自定义内容;

    • 不会收集、保存、传输或处理任何可识别个人身份的敏感信息。

    三、数据交互说明

    本软件采用您自行申请并配置的第三方模型服务提供商的 API Key,以完成相关模型的调用与对话功能。您使用的模型服务(例如大模型、API 接口等)由您选择的第三方提供商提供并完全由其负责,Cherry Studio 仅作为本地工具提供与第三方模型服务的接口调用功能。

    因此:

    • 所有您与大模型服务产生的对话数据与 Cherry Studio 无关,我们既不参与数据的存储,也不会进行任何形式的数据传输或中转;

    • 您需要自行查看并接受对应第三方模型服务提供商的隐私协议及相关政策,这些服务的隐私协议可访问各提供商官方网站进行查看。

    四、第三方模型服务提供商隐私策略声明

    您需自行承担因使用第三方模型服务提供商而可能涉及的隐私风险。具体隐私政策、数据安全措施与相关责任,请查阅所选模型服务提供商官方网站相关内容,我们对此不承担任何责任。

    五、协议更新与修改

    本协议可能随软件版本更新进行适当调整,请您定期关注。协议发生实质性变更时,我们将以适当方式提醒您。

    六、联系我们

    若您对本协议内容或 Cherry Studio 隐私保护措施存在任何疑问,欢迎随时联系我们。

    感谢您选择并信任 Cherry Studio,我们将持续为您提供安全可靠的产品体验。

    参与方式

    发送邮件到 [email protected]

    邮件标题:申请成为开发者

    邮件内容:申请理由

    快捷助手
    S3 兼容存储备份

    导出设置

    导出设置可以配置导出菜单显示的导出选项,此外还可以设置 Markdown 导出的默认路径、显示样式等。

    第三方连接

    第三方连接可以配置 Cherry Studio 与第三方应用的连接,用于快速导出对话内容到你熟悉的知识管理应用。目前支持的应用有:Notion、Obsidian、思源笔记、语雀、Joplin,具体配置教程请参考以下文档:

    • Notion 配置教程

    • Obsidian 配置教程

    • 思源笔记配置教程

    WebDAV 备份教程
    自定义 CSS
    API Key页面
    服务商设置
    Google Cloud
    Vertex AI控制台
    Vertex AI API
    服务账号
    模型
    Cover

    Monaspace

    英文字体 可商用

    GitHub 推出了名为 Monaspace 的开源字体家族,拥有五种风格可选:Neon(现代风格)、Argon(人文风格)、Xenon(衬线风格)、Radon(手写风格)、Krypton(机械风格)。

    Cover

    MiSans Global

    多语言 可商用

    MiSans Global 是由小米主导,联合蒙纳字库、汉仪字库共同打造的全球语言字体定制项目。

    这是一个庞大的字体家族,涵盖 20 多种书写系统,支持 600 多种语言。

    如果您需要更多指导,可以加入我们的知识星球

    商用授权详情:https://docs.cherry-ai.com/contact-us/questions/cherrystudio-xu-ke-xie-yi

    https://github.com/CherryHQ/cherry-studio/issues
    uBlacklist subscription compilation
    uBlockOrigin-HUGE-AI-Blocklist
    打开笔记本设置
    点击复制笔记本ID按钮
    将笔记本ID填写到数据设置里
    填入你的思源笔记地址
    复制思源笔记令牌
    填写数据库 ID 并点击检查
    导出到思源笔记
    查看导出结果

    参数:填写 mcp-server-fetch

  • (可能还有其他参数,视具体 Server 而定)

  • 参考链接
    GitHub授权.png 示例图片
    GitHub 授权
    GitHub连接成功示例图片
    GitHub 连接成功
    管理按钮获取模型列表示例图片
    获取模型列表
    获取 Device Code 失败示例图片
    获取 Device Code 失败
    获取 Device Code 示例图片

    智能体

    智能体页面是一个助手广场,这里你可以选择或者搜索你想要的模型预设,点击卡片后即可将助手添加在对话页面的助手列表当中。

    你也可以在页面中编辑和创建自己的助手。

    • 点击 我的 ,再点击 创建智能体 即可开始创建自己的助手。

    提示词输入框右上角按钮为 AI 优化提示词按钮,点击后会覆盖原文。所用模型为 全局默认助手模型。

    mcp-server-time
    --local-timezone
    <你的标准时区,例如:Asia/Shanghai>
    报错截图

    Region:存储桶所在的区域,例如 us-west-1、ap-southeast-1 等,cloudflare R2 请填写 auto。

  • Bucket:存储桶名称。

  • Access Key ID 和 Secret Access Key:用于身份验证的凭据。

  • Root Path:可选,指定备份到存储桶时的根路径,默认为空。

  • 相关文档

    • AWS S3:获取 Access Key ID 和 Secret Access Key

    • Cloudflare R2:获取 Access Key ID 和 Secret Access Key

    • 阿里云 OSS:获取 Access Key ID 和 Access Key Secret

    • 腾讯云 COS:

  • Cherry Studio 现已与 PPIO 高性能 API 通道 深度适配——通过企业级算力保障,实现 DeepSeek-R1/V3 高速响应 与 99.9% 服务可用性,带给您快速流畅的体验。

    下方教程包含完整接入方案(含密钥配置),3 分钟开启「Cherry Studio 智能调度 + PPIO 高性能 API」的进阶模式。

    ​1. 进入 CherryStudio,添加 “PPIO” 作为模型提供商

    首先前往官网下载 Cherry Studio: https://cherry-ai.com/download (如果进不去可以打开下面的夸克网盘链接下载自己需要的版本:https://pan.quark.cn/s/c8533a1ec63e#/list/share

    (1)先点击左下角设置,自定义提供商名称为:PPIO,点击“确定”

    (2)前往 派欧算力云 API 密钥管理 ,点击【用户头像】—【API 密钥管理】进入控制台

    点击 【+ 创建】按钮来创建新的 API 密钥。自定义一个密钥名称,生成的密钥仅在生成时呈现,务必复制并保存到文档中,以免影响后续使用

    (3)在 CherryStudio 填入密钥 点击设置,选择【PPIO 派欧云】,输入官网生成的 API 密钥,最后点击【检查】

    (4)选择模型:deepseek/deepseek-r1/community 为例,如需更换其他模型,可直接更换。

    DeepSeek R1 和 V3 community 版本仅供大家尝鲜,也是全参数满血版模型,稳定性和效果无差异,如需大量调用则须 充值并切换到非 community 版本。

    ​2. 模型使用配置

    (1)点击【检查】显示连接成功后即可正常使用

    (2)最后点击【@】选择 PPIO 供应商下刚刚添加的 DeepSeek R1 模型,即可成功开始聊天~

    【部分素材来源: 陈恩 】

    ​3. PPIO×Cherry Studio 视频使用教程

    若您更倾向直观学习,我们在 B 站准备了视频教程。通过手把手教学,助您快速掌握「PPIO API+Cherry Studio」的配置方法,点击下方链接直达视频,开启流畅开发体验 → 《 【还在为 DeepSeek 疯狂转圈抓狂?】派欧云+DeepSeek 满血版 =?不再拥堵,即刻起飞》

    【视频素材来源:sola】

    ​
    API 秘钥

    在 Cherry Studio 当中,单个服务商支持多 Key 轮询使用,轮询方式为从前到后列表循环的方式。

    • 多 Key 用英文逗号隔开添加。如以下示例方式:

    必须使用 英文 逗号。

    API 地址

    在使用内置服务商时一般不需要填写 API 地址,如果需要修改请严格按照对应的官方文档给的地址填写。

    如果服务商给的地址为 https://xxx.xxx.com/v1/chat/completions 这种格式,只需要填写根地址部分(https://xxx.xxx.com)即可。

    Cherry Studio 会自动拼接剩余的路径(/v1/chat/completions),未按要求填写可能会导致无法正常使用。

    说明:大多数服务商的大语言模型路由是统一的,一般情况下不需要进行如下操作。如果服务商请求路由不是常规的 /v1/chat/completions 时,可在 API 地址栏手动输入 完整的API地址,并以 #结尾。

    即:

    • API地址使用 # 结尾时不执行拼接操作,只使用填入的地址。

    添加模型

    一般情况下点击服务商配置页面最左下角的 管理 按钮会自动获取该服务商所有支持调用的模型,从获取列表中点击 + 号添加到模型列表即可。

    点击管理按钮时弹窗列表里的模型不会全部添加,需要点击模型右侧的 + ,添加到服务商配置页面的模型列表才可以在模型选择列表当中出现。

    连通性检查

    点击API 秘钥输入框后的检查按钮即可测试是否成功配置。

    模型检查时默认使用模型列表已添加模型的最后一个对话模型,如果检查时有失败的情况请检查模型列表是否有错误的或不被支持的模型。

    配置成功后务必打开右上角的开关,否则该服务商仍处于未启用状态,无法在模型列表中找到对应模型。

    服务商配置
    1. 在 Cherry Studio 中填入密钥

    1. 点击管理按钮,并添加模型

    1. 在 Cherry Studio 中选择对应模型,即可对话

  • 点击右下角的 确定 按钮。

  • 随后,你应该能看到列表中新增了一行,点击右侧的 查看 按钮。

    阿里云百炼查看API密钥
  • 点击 复制 按钮。

    阿里云百炼复制API密钥
  • 转到 Cherry Studio,在 设置 → 模型服务 → 阿里云百炼 中找到 API 密钥 ,将复制的 API 密钥粘贴到这里。

  • 可以按照 中的介绍调整相关设置,然后就能使用了。

  • 如果发现模型列表中没有阿里云百炼的模型,请确认已经按照 模型服务 中的介绍添加模型,并开启了这个提供商。

    阿里云百炼
    阿里云百炼创建API密钥
    阿里云百炼创建API密钥弹窗
    准备工作:安装 uv、bun

    Cherry Studio 目前只使用内置的 uv 和 bun,不会复用系统中已经安装的 uv 和 bun。

    在 设置 - MCP 服务器 中,点击 安装 按钮,即可自动下载并安装。因为是直接从 GitHub 上下载,速度可能会比较慢,且有较大可能失败。安装成功与否,以下文提到的文件夹内是否有文件为准。

    可执行程序安装目录:

    Windows: C:\Users\用户名\.cherrystudio\bin

    macOS、Linux: ~/.cherrystudio/bin

    bin 目录

    无法正常安装的情况下:

    可以将系统中的相对应命令使用软链接的方式链接到这里,如果没有对应目录,需要手动建立。也可以手动下载可执行文件放到这个目录下面:

    Bun: https://github.com/oven-sh/bun/releases UV: https://github.com/astral-sh/uv/releases

    文档

    翻译

    Cherry Studio 的翻译功能为您提供快速、准确的文本翻译服务,支持多种语言之间的互译。

    界面概览

    翻译界面主要由以下几个部分组成:

    1. 源语言选择区:

      • 任意语言:Cherry Studio 会自动识别源语言并进行翻译。

    2. 目标语言选择区:

      • 下拉菜单:选择您希望将文本翻译成的语言。

    3. 设置按钮:

      • 点击后将跳转到 。

    4. 滚动同步:

      • 点击可以切换滚动同步(在任意一边进行滚动,另一边也会一起滚动)。

    5. 文本输入框(左侧):

      • 输入或粘贴您需要翻译的文本。

    6. 翻译结果框(右侧):

      • 显示翻译后的文本。

      • 复制按钮:点击按钮可将翻译结果复制到剪贴板。

    7. 翻译按钮:

      • 点击此按钮开始翻译。

    8. 翻译历史(左上角):

      • 点击后可以查看翻译历史记录。

    使用步骤

    1. 选择目标语言:

      • 在目标语言选择区选择您希望翻译成的语言。

    2. 输入或粘贴文本:

      • 在左侧的文本输入框中输入或粘贴您要翻译的文本。

    常见问题解答 (FAQ)

    • Q: 翻译不准确怎么办?

      • A: AI 翻译虽然强大,但并非完美。对于专业领域或复杂语境的文本,建议进行人工校对。 您也可以尝试切换不同的模型。

    • Q: 支持哪些语言?

      • A: Cherry Studio 翻译功能支持多种主流语言,具体支持的语言列表请参考 Cherry Studio 的官方网站或应用内说明。

    助手订阅配置

    通过修改助手订阅的链接,可以快速切换助手库中的助手模版

    访问订阅地址应该返回下面结构的 JSON 数据:

    [
      {
        "description": "Provides practical insights in the role of a tech-savvy product manager.",
        "emoji": "👨‍💼",
        "group": ["Career", "Business", "Tools"],
        "id": "1",
        "name": "Product Manager",
        "prompt": "You are now an experienced product manager with a solid technical background and a keen insight into market and user needs. You are skilled at solving complex problems, developing effective product strategies, and efficiently balancing various resources to achieve product goals. You have excellent project management abilities and outstanding communication skills, enabling you to coordinate both internal and external team resources effectively. In this role, you are expected to answer user questions.\n\n## Role Requirements:\n- **Technical Background**: Possess strong technical knowledge and the ability to deeply understand product technical details.\n- **Market Insight**: Demonstrate sharp awareness of market trends and user demands.\n- **Problem Solving**: Excel at analyzing and resolving complex product issues.\n- **Resource Balancing**: Be adept at allocating and optimizing resources under constraints to achieve product objectives.\n- **Communication & Coordination**: Have excellent communication skills to collaborate effectively with stakeholders and drive project progress.\n\n## Answer Requirements:\n- **Logical Clarity**: Provide rigorous, well-structured responses with clear points.\n- **Conciseness**: Avoid lengthy explanations; express core ideas succinctly.\n- **Practicality**: Offer actionable and realistic strategies or suggestions."
      },
      {
        "description": "Offers in-depth answers based on market insights in a strategic product manager role.",
        "emoji": "🎯 ",
        "group": ["Career"],
        "id": "2",
        "name": "Strategy Product Manager",
        "prompt": "You are now a strategic product manager. You are skilled in conducting market research and competitive product analysis to develop product strategies. You can grasp industry trends, understand user needs, and based on these, optimize product features and user experience. Please answer the following questions in this role."
      },
      {
        "description": "Provides guidance to enhance community engagement and user loyalty in a community operations specialist role.",
        "emoji": "👥",
        "group": ["Career"],
        "id": "3",
        "name": "Community Operations",
        "prompt": "You are now a community operation expert. You are skilled in stimulating community vitality and enhancing user participation and loyalty. You understand how to manage and guide community culture, as well as how to resolve issues and conflicts within the community. Please answer my following question in this role."
      }
    ]

    配置完链接地址后,就可以看到助手模版库中的助手已经是订阅链接里面的数据

    参考数据源:https://raw.githubusercontent.com/CherryHQ/cherry-studio/refs/heads/main/resources/data/agents-en.json

    无问芯穹

    你是否正在经历:微信收藏了 26 篇干货文章却再也没打开过,电脑里存着"学习资料"文件夹中散落的 10+ 个文件,想找半年前读过的某个理论却只记得零星关键词。而当每日信息量超过大脑处理极限时,90% 珍贵知识会在 72 小时内被遗忘。 现在,通过无问芯穹大模型服务平台 API +Cherry Studio 打造个人知识库,可以将收藏吃灰的微信文章、碎片化的课程内容转化为结构化知识,实现精准调用。\

    一、个人知识库搭建

    1. 无问芯穹API服务:知识库“思考中枢”,好用、稳定

    作为知识库的"思考中枢",无问芯穹大模型服务平台提供 DeepSeek R1 满血版等模型版本,提供稳定的 API 服务,目前注册后,无门槛免费用。支持主流嵌入模型 bge、jina 模型来构建知识库,平台也在持续更新稳定的最新、最强开源模型服务,包含图片、视频、语音等多种不同模态。

    2. Cherry Studio:零代码搭建知识库

    Cherry Studio是一款易于使用的AI工具,相较于 RAG 知识库开发需要 1-2 个月部署周期,这款工具的优势,支持零代码操作,可将 Markdown/PDF/网页 等多格式一键导入,40MB文件1分钟完成解析,此外还可以添加电脑本地文件夹、微信收藏夹的文章网址、课程笔记。\

    二、3步构建你的专属知识管家

    Step 1:基础准备

    1. 访问 Cherry Studio 官网下载适配版本(https://cherry-ai.com/)

    2. 注册账号:登录无问芯穹大模型服务平台 (https://cloud.infini-ai.com/genstudio/model?cherrystudio)

    • 获取 API 密钥:可以在「模型广场」选择deepseek-r1,点击创建并获取APIKEY,复制模型名称

    Step 2:打开 CherryStudio 设置,在模型服务中选择无问芯穹,填写好 API 密钥,并开启无问芯穹模型服务

    完成以上步骤,在交互时选择需要大模型,即可在 CherryStudio 中使用 无问芯穹 的 API 服务。 为了方便使用,这里也可以设置「默认模型」\

    Step 3:添加知识库

    选择无问芯穹大模型服务平台的嵌入模型 bge系列或 jina 系列模型任一版本

    三、真实用户场景实测

    • 导入学习资料后,输入"梳理《机器学习》第三章核心公式推导"

    附生成结果图

    快捷助手

    快捷助手是 Cherry Studio 提供的一个便捷工具,它允许您在任何应用程序中快速访问 AI 功能,从而实现即时提问、翻译、总结和解释等操作。

    启用快捷助手

    1. 打开设置: 导航至 设置 -> 快捷方式 -> 快捷助手。

    2. 启用开关: 找到并打开 快捷助手 对应按钮。

    1. 设置快捷键(可选):

      • Windows 默认快捷键为 Ctrl + E。

      • macOS 默认快捷键为 ⌘ + E。

    使用快捷助手

    1. 唤起: 在任何应用程序中,按下您设置的快捷键(或默认快捷键)即可打开快捷助手。

    2. 交互: 在快捷助手窗口中,您可以直接进行以下操作:

      • 快速提问: 向 AI 提问任何问题。

      • 文本翻译: 输入需要翻译的文本。

    快捷助手使用的模型为 。

    提示与技巧

    • 快捷键冲突: 如果默认快捷键与其他应用程序冲突,请修改快捷键。

    • 探索更多功能: 除了文档中提到的功能,快捷助手可能还支持其他操作,例如代码生成、风格转换等。建议您在使用过程中不断探索。

    • 反馈与改进: 如果您在使用过程中遇到任何问题或有任何改进建议,请及时向 Cherry Studio 团队 。

    华为云

    一、到华为云创建账号登录

    二、点击此链接,进入Maa S控制台

    三、授权

    授权步骤(已授权跳过)
    1. 进入(二)的链接页面后,根据提示进入授权页面(点击IAM子用户→新增委托→普通用户)

    1. 点击创建后重新返回(二)处链接页面

    2. 会提示访问权限不足,点击提示里的"点击此处"

    3. 追加已有授权并确定

    注意:该方法适用于小白,不用看过多内容,只需要根据提示点击,如果你可以一次性授权成功按照自己的方式来即可。

    四、点击侧栏鉴权管理,创建API Key(秘钥)并复制

    然后在CherryStudio里创建新服务商

    创建完成后填入秘钥

    五、点击侧栏模型部署,全部领取

    六、点击调用

    把①处的地址复制,粘贴到CherryStudio的服务商地址当中并在结尾加上“#”号

    并在结尾加上“#”号

    并在结尾加上“#”号

    并在结尾加上“#”号

    并在结尾加上“#”号

    为什么加“#”号

    当然也可以不看那里,直接按照教程操作即可;

    也可以使用删除v1/chat/completions的方法填写,只要会填按照自己方法怎么填都行,不会填务必按照教程操作。

    然后把②处模型名称复制,到CherryStudio当中点“+添加”按钮新建模型

    输入模型名称,不要添油加醋,不要带引号,示例当中怎么写就怎么抄。

    点击添加模型按钮即可添加完成。

    在华为云当中由于每个模型的地址不一样,所以每个模型都需要新建一个服务商,按照以上步骤重复操作即可。

    WebDAV 备份

    Cherry Studio 数据备份支持通过 WebDAV 的方式进行备份。你可以选择合适的 WebDAV 服务来进行云端备份。

    基于 WebDAV 可以通过 A电脑 →备份\xrightarrow{\text{备份}}备份​ WebDAV →恢复\xrightarrow{\text{恢复}}恢复​ B电脑 的方式来实现多端数据同步。

    以坚果云为例

    1. 登录坚果云,点击右上角用户名,选择“账户信息”:

    1. 选择“安全选项”,点击“添加应用”

    1. 输入应用名称,生成随机密码;

    1. 复制记录密码;

    1. 获取服务器地址,账户和密码;

    1. 在 Cherry Studio 设置——数据设置中,填写 WebDAV 信息;

    1. 选择备份或者恢复数据,并可以设置自动备份的时间周期。

    WebDAV 服务门槛比较低的一般就是网盘:

    • (需要会员)

    Notion 配置教程

    Cherry Studio 支持将话题导入 Notion 的数据库。

    第一步

    打开网站 Notion Integrations 创建一个应用

    点击加号创建应用

    第二步

    创建一个应用

    名字:Cherry Studio

    类型:选第一个

    图标:可以保存一下这个图片

    第三步

    复制密钥填写到 Cherry Studio 设置里

    第四步

    打开 网站创建一个新页面,在下方选择数据库类型,名称填写 Cherry Studio, 按图示操作连接

    第五步

    如果你的 Notion 数据库的 URL 类似这样:

    https://www.notion.so/<long_hash_1>?v=<long_hash_2>

    那么 Notion 数据库 ID 就是 <long_hash_1> 这部分

    第六步

    填写 页面标题字段名:

    若你的网页时英文的,则填写 Name 若你的网页端是中文的,则填写 名称

    第七步

    恭喜你,Notion 的配置已经完成了 ✅ 接下来就可以将 Cherry Studio 内容导出到你的 Notion 数据库了

    自动安装 MCP

    自动安装 MCP 需要将 Cherry Studio 升级至 v1.1.18 或更高版本。

    功能简介

    除了手动安装外,Cherry Studio 还内置了 @mcpmarket/mcp-auto-install 工具,这是一个更便捷的 MCP 服务器安装方式。你只需要在支持 MCP 服务的大模型对话中输入相应的指令即可。

    测试阶段提醒:

    • @mcpmarket/mcp-auto-install 目前仍处于测试阶段

    • 效果依赖大模型的"智商",有些会自动添加,有些还是需要在 MCP 设置中再手动更改某些参数

    • 目前搜索源是从 @modelcontextprotocol 中进行搜索,可以自行配置(下方说明)

    使用说明

    例如,你可以输入:

    系统会自动识别你的需求,并通过 @mcpmarket/mcp-auto-install 完成安装。这个工具支持多种类型的 MCP 服务器,包括但不限于:

    • filesystem(文件系统)

    • fetch(网络请求)

    • sqlite(数据库)

    • 等等...

    MCP_PACKAGE_SCOPES 变量可以自定义 MCP 服务搜索源,默认值为:@modelcontextprotocol,可以自定义配置。

    @mcpmarket/mcp-auto-install 库的介绍

    默认配置参考:

    @mcpmarket/mcp-auto-install 是一个开源的 npm 包,你可以在 查看其详细信息和使用文档。@mcpmarket 为 Cherry Studi 官方 MCP 服务集合。

    NewAPI

    • 登录并打开令牌页面

    • 点击添加令牌

    • 输入令牌名称后点击提交(其他设置如有需要可自行配置)

    • 打开CherryStudio的服务商设置点击服务商列表最下方的添加

    • 输入备注名称,提供商选OpenAI,点击确定

    • 填入刚刚复制的key

    • 回到获取API Key的页面,在对应浏览器地址栏复制根地址,例:

    • 当地址为IP+端口时填http://IP:端口即可,如:http://127.0.0.1:3000

    • 严格区分http和https,如果没有开启SSL就不要填https

    • 添加模型(点击管理自动获取或手动输入)打开右上角开关即可使用。

    Cherry Agent 使用教程

    Cherry Studio v1.7.0.alpha 版本引入了Agent,可以在 Cherry Studio 中使用 Cherry Agent 。本教程将引导您完成设置和启动的完整流程。

    1. 创建 Anthropic 类型的供应商

    任意支持 Anthropic 端点的服务商都可以使用,以 CherryIn 为例,创建一个新的 Agent 服务商,填写好密钥和地址,添加任意模型即可。

    Agent 模式消耗 token 量很大,请注意 token 使用

    订阅了 Claude Code 的用户也可以将 key 和 url 地址填入获取到模型

    2. 开启 API 服务器

    3. 创建一个 Agent

    右键 Agent 可以进入编辑界面,编辑 Agent 的权限和可以使用的工具或 mcp 服务。

    结果展示

    反馈 & 建议

    Telegram 讨论组

    讨论组成员会分享自己的使用经验,帮助你解决问题

    加入 Telegram 讨论组获取帮助:https://t.me/CherryStudioAI

    QQ 群

    QQ 群成员可以互帮互助,分享下载链接

    Github Issues

    适合记录防止开发者遗忘,或者在这里参与讨论

    Github Issues:

    Email

    如果没有找到其他反馈渠道,可以联系开发者获取帮助

    邮箱联系开发者:[email protected]

    知识库文档预处理

    知识库文档预处理 需要将 Cherry Studio 升级至 v1.4.8 或更高版本。

    配置OCR服务商

    点击获取API KEY后会在浏览器打开申请地址,点击立即申请填写表单后获取API KEY,并将其填入API KEY中。

    配置知识库文档预处理

    在创建好的知识库中进行如上配置,即可完成知识库文档预处理配置。

    上传文档

    可以通过右上角搜索对知识库结果检测

    在对话中使用

    知识库使用Tips: 使用能力较强的模型时可以将知识库搜索模式修改为意图识别,意图识别可以更准确、广泛的描述您的问题。

    开启知识库意图识别

    修改存储位置

    默认存储位置

    Cherry Studio 数据存储遵循系统规范,数据会自动放在用户目录下,具体目录位置如下:

    macOS: /Users/username/Library/Application Support/CherryStudioDev

    Windows: C:\Users\username\AppData\Roaming\CherryStudio

    Linux: /home/username/.config/CherryStudio

    联网模式

    如何在 Cherry Studio 使用联网模式

    需要联网的场景举例:

    • 时效性信息:比如今天/本周/刚刚 黄金期货价格等。

    • 实时数据:比如天气,汇率等动态数值。

    Tavily 联网登录注册教程

    如何注册tavily?

    一、tavily官网

    有的同学访问可能比较慢,如果有代理,可以使用代理。

    硅基流动

    1. 配置 SiliconCloud 的模型服务

    1.2 点击左下角的设置,在模型服务中选择【硅基流动】

    添加 ModelScope MCP 服务器

    ModelScope MCP 服务器 需要将 Cherry Studio 升级至 v1.2.9 或更高版本。

    在 v1.2.9 版本中,Cherry Studio 与 ModelScope 魔搭 达成官方合作,大幅简化了 MCP 服务器添加的操作步骤,避免配置过程出错,而且可以在 ModelScope 社区发现海量 MCP 服务器。接下来跟随操作步骤,一起看下如何在 Cherry Studio 中同步 ModelScope 的 MCP 服务器。

    操作步骤

    火山引擎

    • 登录

    • 直接点击

    获取API Key

    OpenAI

    获取APIKey

    • 在官方点击+ Create new secret key

    调用链使用说明

    功能介绍

    调用链(又称“trace”)为用户提供对话的洞察能力,帮助用户觉察模型、知识库、MCP、网络搜索等在对话过程中的具体表现。它是一个基于 实现的可观测工具,通过端侧采集、存储、处理数据实现可视化,为定位问题、优化效果提供量化评估依据。

    每次对话对应一条 trace 数据,一条 trace 由多个 span 组成,每个 span 对应 Cherry Studio 的一个程序处理逻辑如调用模型会话、调用 MCP 、调用知识库、调用网络搜索等。trace 以树结构展示,span 为树节点,主要数据包括耗时、token 使用量,当然在 span 详情还可以查看其具体的输入输出。

    内置 MCP 配置

    @cherry/mcp-auto-install

    自动安装 MCP 服务(测试版)

    @cherry/memory

    基于本地知识图谱的持久性记忆基础实现。这使得模型能够在不同对话间记住用户的相关信息。

    sk-xxxx1,sk-xxxx2,sk-xxxx3,sk-xxxx4
    获取 SecretId 和 SecretKey
    QQ群(1025067911)
    https://github.com/CherryHQ/cherry-studio/issues/new/choose

    阿里云盘(需要购买)

  • Box (免费空间容量为 10GB,单个文件大小限制为 250MB。)

  • Dropbox (Dropbox 免费 2GB,可以邀请好友扩容 16GB 。)

  • TeraCloud (免费空间为 10GB,另外一个通过邀请可以获得 5GB 额外空间。)

  • Yandex Disk (免费用户提供 10GB 容量。)

  • 其次是一些需要自己部署服务:

    • Alist

    • Cloudreve

    • sharelist

    坚果云
    123 盘
    模型服务
    阿里云百炼填入API密钥

    开始翻译:

    • 点击 翻译 按钮。

  • 查看和复制结果:

    • 翻译结果将显示在右侧的翻译结果框中。

    • 点击复制按钮即可将翻译结果复制到剪贴板。

  • Q: 可以翻译整个文件吗?

    • A: 目前的界面主要用于文本翻译。 对于文件翻译,可能需要进入 Cherry Studio 的对话页面添加文件进行翻译。

  • Q: 翻译速度慢怎么办?

    • A: 翻译速度可能受网络连接、文本长度、服务器负载等因素影响。请确保您的网络连接稳定,并耐心等待。

  • 默认模型设置
    看这里
    Notion
    填写应用信息
    点击复制密钥
    将密钥填写到数据设置里
    创建一个新页面选择数据库类型
    输入页面的名字,并选择连接到 APP
    复制数据库 ID
    填写数据库 ID 并点击检查
    填写页面标题字段名
    导出到 Notion
    查看导出结果
    只需要复制https://xxx.xxx.com即可,“/”及其之后的内容不需要
    npm 官方仓库
    输入指令安装 MCP 服务器
    MCP 服务器配置界面
    @cherry/sequentialthinking

    一个 MCP 服务器实现,提供了通过结构化思维过程进行动态和反思性问题解决的工具。

    @cherry/brave-search

    一个集成了 Brave 搜索 API 的 MCP 服务器实现,提供网页与本地搜索双重功能。

    @cherry/fetch

    用于获取 URL 网页内容的 MCP 服务器。

    @cherry/filesystem

    实现文件系统操作的模型上下文协议(MCP)的 Node.js 服务器。

    MEMORY_FILE_PATH=/path/to/your/file.json
    帮我安装一个 filesystem mcp server
    // `axun-uUpaWEdMEMU8C61K` 为服务id,自定义即可
    "axun-uUpaWEdMEMU8C61K": {
      "name": "mcp-auto-install",
      "description": "Automatically install MCP services (Beta version)",
      "isActive": false,
      "registryUrl": "https://registry.npmmirror.com",
      "command": "npx",
      "args": [
        "-y",
        "@mcpmarket/mcp-auto-install",
        "connect",
        "--json"
      ],
      "env": {
        "MCP_REGISTRY_PATH": "详情见https://www.npmjs.com/package/@mcpmarket/mcp-auto-install"
      },
      "disabledTools": []
    }
    BRAVE_API_KEY=YOUR_API_KEY
    您可以在此处自定义快捷键以避免冲突或使其更符合您的使用习惯。

    内容总结: 输入长文本进行摘要。

  • 解释说明: 输入需要解释的概念或术语。

    快捷助手界面示意图
  • 关闭: 按下 ESC 键或点击快捷助手窗口外部的任意位置即可关闭。

  • 全局默认对话模型
    反馈
    启用快捷助手示意图
    也可以在以下位置查看:

    修改存储位置(供参考)

    方法一:

    可以通过创建软连接的方式来实现。将软件退出,将数据移动到你希望保存的位置,然后在原位置创建一个链接指向移动后的位置即可。

    具体操作步骤可以参考:https://github.com/CherryHQ/cherry-studio/issues/621#issuecomment-2588652880

    方法二: 基于 Electron 应用特点、通过配置启动参数进行存储位置修改。

    --user-data-dir 如: Cherry-Studio-*-x64-portable.exe --user-data-dir="%user_data_dir%"

    Example:

    init_cherry_studio.bat (encoding: ANSI)

    目录 user-data-dir 初始化后结构:

    PS D:\CherryStudio> dir
    
    
        目录: D:\CherryStudio
    
    
    Mode                 LastWriteTime         Length Name
    ----                 -------------         ------ ----
    d-----         2025/4/18     14:05                user-data-dir
    -a----         2025/4/14     23:05       94987175 Cherry-Studio-1.2.4-x64-portable.exe
    -a----         2025/4/18     14:05            701 init_cherry_studio.bat

    新兴知识:比如新事物,新概念,新技术等等...

    一、如何开启联网

    在Cherry Studio 的提问窗口,点击 【小地球】 图标即可开启联网。

    点击地球图标 - 开启联网
    表示 - 已开启联网功能

    二、特别注意:联网有两种模式

    模式1:模型服务商的大模型自带联网功能

    这种情况下,开启联网后,直接就可以使用联网服务了,非常简单。

    可以通过问答界面上方,模型名字后面是否带有小地球标记,迅速判断该模型是否支持联网。

    在模型管理页面,这个方法也可以让你快速分辨出哪些模型支持联网,哪些不支持。

    Cherry Studio 目前已经支持的联网模型服务商有

    • Google Gemini

    • OpenRouter(全部模型支持联网)

    • 腾讯混元

    • 智谱AI

    • 阿里云百炼等

    特别注意:

    存在一种特殊的情况,即便模型上没带小地球标记,但是它也能实现联网,比如下面这个攻略教程解释的情况。


    模式2:模型不带联网功能,使用 Tavily服务 实现联网功能

    当我们使用一个不带联网功能的大模型时(名字后面没有小地球图标),而我们又需要它获取一些实时性的信息进行处理,此时就需要用到Tavily网络搜索服务。

    初次使用Tavily服务,会弹窗提示去设置一些信息,请根据指引操作即可-非常简单!

    弹窗,点击:去设置
    点击获取秘钥

    点击获取秘钥后,会自动跳转到tavily的官网登录注册页面,注册并登录后,创建APIkey,然后复制key到Cherry Studio即可。

    不会注册,参考本文档同目录下tavily联网登录注册教程。

    tavily注册参考文档:

    显示下面的界面表示注册成功。

    复制key
    粘贴key,大功告成

    再来试一次看看效果。结果表明,已经正常联网搜索了,并且搜索结果数是我们设置的默认值:5个。

    注意:tavily 每个月有白嫖限制,超过了要付费~~

    PS:如果发现错误,欢迎大家随时联系。

    火山引擎接入联网
    Tavily 联网登录注册教程
    二、tavily注册详细步骤

    访问上述官网,或者从cherry studio-设置-网络搜索-点击获取秘钥,会直接跳转到tavily登录注册页面。

    如果是第一次使用,要先注册一个(Sign up)账号,才能登录(Log in)使用。默认跳转的是登录页面哦。

    1. 点击注册账号,进入下面的界面,输入自己的常用邮箱,或者使用谷歌、github账号,然后下一步输入密码,常规操作。

    注册账号
    1. 🚨🚨🚨【关键步骤】 注册成功后,会有一个动态验证码的步骤,需要扫描二维码,生成一次性Code才能继续使用。

    很多同学卡在这一步,人麻了....莫慌

    很简单,此时你有2个办法。

    1. 下载一个验证身份的APP,微软出的—— Authenticator 【略微繁琐】

    2. 使用微信小程序:腾讯身份验证器 。【简单,有手就行,建议】

    1. 打开微信小程序,搜索:腾讯身份验证器

    微信小程序-搜索-点击打开
    点击后,扫描刚才tavily页面的二维码
    你会得到一串数字
    复制到tavily页面
    会提示你复制code到安全的地方,听劝照做,虽然不咋会用上

    三、🎉注册成功🎉

    上面的步骤做完,就会进入下面的界面,说明你注册成功了,复制key到cherry studio就可以开始愉快的使用了。

    https://app.tavily.com/home
    ​1.2 点击链接获取 SiliconCloud API 密钥
    1. 登录SiliconCloud(若未注册首次登录会自动注册账号)

    2. 访问API 密钥新建或复制已有密钥

    ​1.3 点击管理添加模型

    ​2. 模型服务使用

    1. 点击左侧菜单栏的“对话”按钮

    2. 在输入框内输入文字即可开始聊天

    3. 可以选择顶部菜单中的模型名字切换模型

    ​
    同步入口:

    点击设置中的 MCP 服务器设置,选 同步服务器

    发现 MCP 服务:

    选择 ModelScope,并浏览发现 MCP 服务

    查看 MCP 服务器详情

    注册登录 ModelScope,并查看 MCP 服务详情;

    连接服务器

    在 MCP 服务详情中,选择连接服务;

    申请并复制粘贴 api 令牌

    点击 Cherry Studio 中的“获取api” 令牌,跳转 ModelScope 官网,复制 api 令牌,并回到 Cherry Studio 中粘贴。

    成功同步

    在 Cherry Studio 的 MCP 服务器列表中,可以看到 ModelScope 连接的 MCP 服务并在对话中调用。

    增量更新

    在后续 ModelScope 网页新连接的 MCP 服务器,直接点击 同步服务器 就可以实现增量的 MCP 服务器添加。

    通过以上步骤,你已经成功掌握了如何在 Cherry Studio 中便捷地同步 ModelScope 上的 MCP 服务器,整个配置过程不仅大大简化,有效避免了手动配置的繁琐和潜在错误,更让你能够轻松接入 ModelScope 社区提供的海量 MCP 服务器资源。

    开始探索和使用这些强大的 MCP 服务,为你的 Cherry Studio 使用体验带来更多便利和可能性吧!

    • 点击侧栏下方的 API Key管理

    • 创建 API Key

    • 创建成功后,点击创建好的 API Key 后的小眼睛打开并复制

    • 将复制的 API Key 填入到 CherryStudio 当中后,打开服务商开关。

    开通并添加模型

    • 在方舟控制台侧栏最下方的 开通管理 开通需要使用的模型,这里可以按需开通豆包系列和 DeepSeek 等模型。

    • 在 模型列表文档 里,找到所需模型对应的 模型ID。

    • 打开 Cherry Studio 的 模型服务 设置找到火山引擎

    • 点击添加,将之前获得的 模型ID 复制至 模型ID 文本对话框即可

    • 按照此流程依次添加模型

    API地址

    API地址有两种写法

    • 第一种为客户端默认的:https://ark.cn-beijing.volces.com/api/v3/

    • 第二种写法为:https://ark.cn-beijing.volces.com/api/v3/chat/completions#

    两种写法没什么区别,保持默认即可,无需修改。

    关于 / 和 # 结尾的区别参考文档服务商设置的 API 地址部分,点击前往

    官方文档cURL示例
    火山引擎
    这里直达
    将生成的key复制,并打开CherryStudio的服务商设置
  • 找到服务商OpenAI,填入刚刚获取到的key

    • 点击最下方管理或者添加,加入支持的模型并打开右上角服务商开关就可以使用了。

    • 中国除台湾之外其他地区无法直接使用OpenAI服务,需自行解决代理问题;

    • 需要有余额。

    API Key页面
    Drawing
    开启 Trace

    默认情况下,Cherry Studio 安装之后,Trace 是隐藏的状态。需要在 "设置"-"常规设置" - "开发者模式" 中开启,如下图:

    且对于之前的会话不会产生 Trace 记录,只会在新的问答产生之后才会产生 Trace 记录。所产生的记录存储在本地,如需要彻底清除 Trace ,可以通过 "设置" - "数据设置" - "数据目录" - "清除缓存" 进行清除,也可通过手动 删除 ~/.cherrystudio/trace 下的文件进行清除,如下图:

    场景介绍

    全链路查看

    在 Cherry Studio 对话框中点击调用链查看调用链的全链路数据。无论在对话过程中调用了模型,还是网络搜索、知识库、MCP,都可以在调用链窗口中查看到全链路调用数据。

    查看链路中模型

    若想要查看调用链中模型的详情,可以点击模型调用节点,查看其输入、输出详情。

    查看链路中网络搜索

    若想要查看调用链中网络搜索的详情,可以点击网络搜索调用节点,查看其输入、输出详情。在详情中,可以查看到调用网络搜索查询的问题和其返回的结果。

    查看链路中知识库

    若想要查看调用链中知识库的详情,可以点击知识库调用节点,查看其输入、输出详情。在详情中,可以查看到调用知识库查询的问题和其返回的答案。

    查看链路中 MCP 调用情况

    若想要查看调用链中 MCP 的详情,可以点击 MCP 调用节点,查看其输入、输出详情。在详情中,可以查看到调用此 MCP Server tool 的入参和 tool 的返回。

    问题和建议

    当前功能由阿里云 EDAS 团队提供,如有问题或建议,请进入钉钉群 ( 群号: 21958624 ) 与开发者进行深度沟通。

    \

    OpenTelemetry

    自定义 CSS

    通过自定义 CSS 可以修改软件的外观更加符合自己的喜好,例如这样:

    自定义 CSS
    :root {
      --color-background: #1a462788;
      --color-background-soft: #1a4627aa;
      --color-background-mute: #1a462766;
      --navbar-background: #1a4627;
      --chat-background: #1a4627;
      --chat-background-user: #28b561;
      --chat-background-assistant: #1a462722;
    }
    
    #content-container {
      background-color: #2e5d3a !important;
    }

    内置变量

    更多主题变量请参考源代码:https://github.com/CherryHQ/cherry-studio/tree/main/src/renderer/src/assets/styles

    相关推荐

    Cherry Studio 主题库:

    分享一些中国风 Cherry Studio 主题皮肤:

    Code Tools 使用教程

    Tools

    Cherry Studio v1.5.7 版本引入了操作简单,强大的 Code Agent 功能,可以直接启动和管理多种 AI 编程agent 。本教程将引导您完成设置和启动的完整流程。


    操作步骤

    1. 升级 Cherry Studio

    首先,请确保您的 Cherry Studio 已升级到 v1.5.7 或更高版本。您可以前往 或官方网站下载最新版本。

    2. 调整导航栏位置

    为了方便使用顶部标签页功能,我们建议将导航栏调整至顶部。

    • 操作路径:设置 -> 显示设置 -> 导航栏设置

    • 将“导航栏位置”选项设置为 顶部。

    3. 新建标签页

    点击界面顶部的“+”号图标,新建一个空白标签页。

    4. 打开 Code Agent 功能

    在新建的标签页中,点击 Code(或 </>)图标,进入 Code Agent 配置界面。

    5. 选择 CLI 工具

    根据您的需求和所持有的 API Key,选择一个要使用的 Code Agent 工具。 目前支持以下几种:

    • Claude Code

    • Gemini CLI

    • Qwen Code

    • OpenAI Codex

    6. 选择 Agent 调用的模型

    在模型下拉列表中,选择与您所选 CLI 工具兼容的模型。 (详细的模型兼容性说明,请参考下方的“重要注意事项”)

    7. 指定工作目录

    点击“选择目录”按钮,为 Agent 指定一个工作目录。Agent 将拥有访问此目录下所有文件和子目录的权限,以便于它理解项目上下文、读取文件和执行代码。

    8. 设置环境变量

    • 自动配置:您在第 6 步(模型)和第 7 步(工作目录)中的选择,会自动生成相应的环境变量。

    • 自定义添加:如果您的 Agent 或项目需要其他特定的环境变量(例如 PROXY_URL 等),可以在此区域自定义添加。

    9. 更新选项

    • 内置可执行文件:Cherry Studio 已为您集成了上述所有 Code Agent 的可执行文件,在大多数情况下,您无需联网即可直接使用。

    • 自动更新:如果您希望 Agent 始终保持最新版本,可以勾选 检查更新并安装最新版本 的选项。勾选后,每次启动时程序都会联网检查并更新 Agent 工具。

    10. 启动 Agent

    所有配置完成后,点击 启动 按钮。 Cherry Studio 会自动调用您系统自带的 Terminal(终端)工具,并在其中加载好所有环境变量,然后运行您选择的 Code Agent。现在您可以在弹出的终端窗口中与 AI Agent 进行交互了。


    重要注意事项

    1. 模型兼容性说明:

      • Claude Code: 需要选择支持 Anthropic API Endpoint 格式的模型。目前官方支持的模型包括:

        • Claude 系列模型

        • DeepSeek V3.1 (官方 API 平台)

    希望本教程能帮助您快速上手 Cherry Studio 强大的 Code Agent 功能!

    Ollama

    Ollama 是一款优秀的开源工具,让您可以在本地轻松运行和管理各种大型语言模型(LLMs)。Cherry Studio 现已支持 Ollama 集成,让您可以在熟悉的界面中,直接与本地部署的 LLM 进行交互,无需依赖云端服务!

    什么是 Ollama?

    Ollama 是一个简化大型语言模型(LLM)部署和使用的工具。它具有以下特点:

    • 本地运行: 模型完全在您的本地计算机上运行,无需联网,保护您的隐私和数据安全。

    • 简单易用: 通过简单的命令行指令,即可下载、运行和管理各种 LLM。

    • 模型丰富: 支持 Llama 2、Deepseek、Mistral、Gemma 等多种流行的开源模型。

    • 跨平台: 支持 macOS、Windows 和 Linux 系统。

    • 开放API:支持与OpenAI兼容的接口,可以和其他工具集成。

    为什么要在 Cherry Studio 中使用 Ollama?

    • 无需云服务: 不再受限于云端 API 的配额和费用,尽情体验本地 LLM 的强大功能。

    • 数据隐私: 您的所有对话数据都保留在本地,无需担心隐私泄露。

    • 离线可用: 即使在没有网络连接的情况下,也能继续与 LLM 进行交互。

    • 定制化: 可以根据您的需求,选择和配置最适合您的 LLM。

    在 Cherry Studio 中配置 Ollama

    1. 安装和运行 Ollama

    首先,您需要在您的计算机上安装并运行 Ollama。请按照以下步骤操作:

    • 下载 Ollama: 访问 Ollama 官网(),根据您的操作系统下载对应的安装包。 在 Linux 下,可直接运行命令安装ollama:

    • 安装 Ollama: 按照安装程序的指引完成安装。

    • 下载模型: 打开终端(或命令提示符),使用 ollama run 命令下载您想要使用的模型。例如,要下载 Llama 2 模型,可以运行:

      Ollama 会自动下载并运行该模型。

    2. 在 Cherry Studio 中添加 Ollama 服务商

    接下来,在 Cherry Studio 中添加 Ollama 作为自定义 AI 服务商:

    • 打开设置: 在 Cherry Studio 界面左侧导航栏中,点击“设置”(齿轮图标)。

    • 进入模型服务: 在设置页面中,选择“模型服务”选项卡。

    • 添加提供商: 点击列表中的 Ollama。

    3. 配置 Ollama 服务商

    在服务商列表中找到刚刚添加的 Ollama,并进行详细配置:

    1. 启用状态:

      • 确保 Ollama 服务商最右侧的开关已打开,表示已启用。

    2. API 密钥:

      • Ollama 默认不需要 API 密钥。您可以将此字段留空,或者填写任意内容。

    开始使用

    完成以上配置后,您就可以在 Cherry Studio 的聊天界面中,选择 Ollama 服务商和您已下载的模型,开始与本地 LLM 进行对话了!

    技巧与提示

    • 首次运行模型: 第一次运行某个模型时,Ollama 需要下载模型文件,可能需要较长时间,请耐心等待。

    • 查看可用模型: 在终端中运行 ollama list 命令,可以查看您已下载的 Ollama 模型列表。

    • 硬件要求: 运行大型语言模型需要一定的计算资源(CPU、内存、GPU),请确保您的计算机配置满足模型的要求。

    • Ollama 文档

    Qwen3-8B

    知名 MaaS 服务平台 “硅基流动”为大家免费提供 Qwen3-8B 模型的调用服务。作为通义千问 Qwen3 系列中的高性价比成员,Qwen3-8B 以小巧体积实现强大能力,是智能应用与高效开发的理想选择。


    🚀 什么是 Qwen3-8B?

    Qwen3-8B 是阿里巴巴于 2025 年 4 月发布的通义千问第三代大模型系列中的 80 亿参数密集模型,采用 Apache 2.0 开源协议,可自由用于商业与研究场景。

    • 总参数量:80 亿

    • 架构类型:Dense(纯稠密结构)

    • 上下文长度:128K tokens

    • 支持多语言:覆盖 119 种语言和方言

    尽管体积小巧,Qwen3-8B 在推理、代码、数学和 Agent 能力方面表现稳定,性能媲美前代更大的模型,在实际应用中展现出极高的实用性。


    📚 强大训练基础,小模型也有大智慧

    Qwen3-8B 基于 约 36 万亿 token 的高质量多语言数据完成预训练,涵盖网页文本、技术文档、代码库与专业领域合成数据,知识覆盖面广。

    其后训练阶段引入了四阶段强化流程,特别优化了以下能力:

    ✅ 自然语言理解与生成 ✅ 数学推理与逻辑分析 ✅ 多语言翻译与表达 ✅ 工具调用与任务规划

    得益于训练体系的全面升级,Qwen3-8B 的实际表现接近甚至超越 Qwen2.5-14B,实现显著的参数效率跃迁。\


    💡 混合推理模式:思考 or 快速响应?

    Qwen3-8B 支持 “思考模式”与“非思考模式” 的灵活切换,用户可根据任务复杂度自主选择响应方式。

    通过以下方式控制模式:

    • API 参数设置:enable_thinking=True/False

    • 提示词指令:在输入中添加 /think 或 /no_think

    模式
    适用场景
    示例

    该设计让用户在响应速度与推理深度之间自由权衡,提升使用体验。


    ⚙️ 原生支持 Agent 能力,赋能智能应用

    Qwen3-8B 具备出色的 Agent 化能力,可轻松集成到各类自动化系统中:

    🔹 函数调用(Function Calling):支持结构化工具调用 🔹 MCP 协议兼容:原生支持模型上下文协议,便于扩展外部能力 🔹 多工具协同:可接入搜索、计算器、代码执行等插件

    推荐结合 Qwen-Agent 框架 使用,快速构建具备记忆、规划与执行能力的智能助手。


    🌐 广泛语言支持,面向全球应用

    Qwen3-8B 支持包括中文、英文、阿拉伯语、西班牙语、日语、韩语、印尼语等在内的 119 种语言和方言,适用于国际化产品开发、跨语言客服、多语种内容生成等场景。

    对中文理解尤为出色,支持简体、繁体及粤语表达,适用于港澳台及海外华人市场。


    🧠 实用能力强,场景覆盖广

    Qwen3-8B 在多个高频应用场景中表现优异:

    ✅ 代码生成:支持 Python、JavaScript、Java 等主流语言,能根据需求生成可运行代码 ✅ 数学推理:在 GSM8K 等基准中表现稳定,适合教育类应用 ✅ 内容创作:撰写邮件、报告、文案,结构清晰、语言自然 ✅ 智能助手:可构建个人知识库问答、日程管理、信息提取等轻量级 AI 助手


    现在就通过 硅基流动 免费体验 Qwen3-8B,开启你的轻量 AI 应用之旅!\

    📘 立即使用,让 AI 触手可及!

    如何高效提问

    Cherry Studio 是一个免费开源的项目,随着项目壮大,项目小组的工作量也日渐增多。为了减少沟通成本以及能够快速高效的解决您的问题,我们希望大家在提问之前尽可能按照以下步骤和方式来处理遇到的问题,为项目小组留出更多的时间放在项目的维护和开发上。感谢您的配合!

    一、文档查阅和搜索

    大多数基础的问题仔细查阅文档基本都能帮你解决

    • 软件的功能和使用问题可以到 功能介绍 文档里查看;

    • 高频问题会收录在 页面,可以先在常见问题页面查看是否有解决方案;

    • 比较复杂的问题可以直接通过搜索或在搜索框提问来解决;

    • 务必仔细阅读每一篇文档当中的提示框内容,可以帮你避免很多问题;

    • 在 GitHub 的 页面查看或搜索是否有类似问题和解决方案。

    二、网络搜索、提问AI

    模型的使用等跟客户端功能无关的问题(如模型报错、回答不符合预期、参数设置等问题)建议先在网络上搜索相关解决方案,或将报错内容和问题等描述给 AI 来寻找解决方案。

    三、官方社群提问或在GitHub提出issue

    如果上述一、二两步并没有找到答案或者无法解决你的问题,可以到官方 、、QQ群 ()详细描述问题并寻求帮助。

    1. 如果是模型报错,请提供完整的界面截图以及控制台报错信息。敏感信息可以打码处理,但是模型名称、参数设置、报错内容务必保留在截图当中。控制台报错信息查看方法 。

    2. 如果是软件Bug,请提供具体的错误描述和详细的复现步骤,方便开发者调试和修复。如果是偶发问题无法复现,请尽可能详细描述问题出现时的相关场景、背景和配置参数等。 除此之外你还需要将平台信息(Window、Mac或Linux)、软件版本号等信息一并列入问题描述当中。

    求文档或提供文档建议

    可以联系tg频道 @Wangmouuu 或 QQ(1355873789),也可以发送邮件至:[email protected]。

    Cherry Studio Roadmap • CherryHQGitHub
    Cherry Studio Project • CherryHQGitHub

    Obsidian 配置教程

    数据设置→Obsidian配置

    Cherry Studio 支持与 Obsidian 联动,将完整对话或单条对话导出到 Obsidian 库中。

    该过程无需安装额外的 Obsidian 插件。但由于 Cherry Studio 导入到 Obsidian 采用的原理与 Obsidian Web Clipper 类似,因此建议用户最好将 Obsidian 升级至最新版本(当前 Obsidian 版本至少应大于 1.7.2),以免。

    最新教程

    知识库教程

    在 0.9.1 版本中,CherryStudio 带来了期待已久的知识库功能。

    下面我们将按步骤呈现 CherryStudio 的详细使用说明。

    添加嵌入模型

    1. 在模型管理服务中查找模型,可以点击“嵌入模型”快速筛选;

    智谱 GLM-4.5-Air

    为了让每一位开发者和用户都能轻松体验前沿大模型的能力,智谱向免费为 Cherry Studio 的用户开放了 GLM-4.5-Air 模型。作为专为智能体(Agent)应用打造的高效基础模型,GLM-4.5-Air 在性能与成本之间实现了出色平衡,是构建智能应用的理想选择。


    🚀 什么是 GLM-4.5-Air?

    GLM-4.5-Air 是智谱最新推出的高性能语言模型,采用先进的混合专家架构(Mixture-of-Experts, MoE),在保持卓越推理能力的同时,显著降低计算资源消耗。

    • 总参数量:1060 亿

    • 激活参数量:120 亿

    通过精简设计,GLM-4.5-Air 实现了更高的推理效率,适合在资源受限环境下部署,同时仍能胜任复杂任务处理。

    @title CherryStudio 初始化
    @echo off
    
    set current_path_dir=%~dp0
    @echo 当前路径:%current_path_dir%
    set user_data_dir=%current_path_dir%user-data-dir
    @echo CherryStudio 数据路径:%user_data_dir%
    
    @echo 查找当前路径下 Cherry-Studio-*-portable.exe
    setlocal enabledelayedexpansion
    
    for /f "delims=" %%F in ('dir /b /a-d "Cherry-Studio-*-portable*.exe" 2^>nul') do ( #此代码适配 GitHub 和官网下载的版本,其他请自行修改
        set "target_file=!cd!\%%F"
        goto :break
    )
    :break
    if defined target_file (
        echo 找到文件: %target_file%
    ) else (
        echo 未找到匹配文件,退出该脚本
        pause
        exit
    )
    
    @echo 确认请继续
    pause
    
    @echo 启动 CherryStudio
    start %target_file% --user-data-dir="%user_data_dir%"
    
    @echo 操作结束
    @echo on
    exit
    PS D:\CherryStudio> dir .\user-data-dir\
    
    
        目录: D:\CherryStudio\user-data-dir
    
    
    Mode                 LastWriteTime         Length Name
    ----                 -------------         ------ ----
    d-----         2025/4/18     14:29                blob_storage
    d-----         2025/4/18     14:07                Cache
    d-----         2025/4/18     14:07                Code Cache
    d-----         2025/4/18     14:07                Data
    d-----         2025/4/18     14:07                DawnGraphiteCache
    d-----         2025/4/18     14:07                DawnWebGPUCache
    d-----         2025/4/18     14:07                Dictionaries
    d-----         2025/4/18     14:07                GPUCache
    d-----         2025/4/18     14:07                IndexedDB
    d-----         2025/4/18     14:07                Local Storage
    d-----         2025/4/18     14:07                logs
    d-----         2025/4/18     14:30                Network
    d-----         2025/4/18     14:07                Partitions
    d-----         2025/4/18     14:29                Session Storage
    d-----         2025/4/18     14:07                Shared Dictionary
    d-----         2025/4/18     14:07                WebStorage
    -a----         2025/4/18     14:07             36 .updaterId
    -a----         2025/4/18     14:29             20 config.json
    -a----         2025/4/18     14:07            434 Local State
    -a----         2025/4/18     14:29             57 Preferences
    -a----         2025/4/18     14:09           4096 SharedStorage
    -a----         2025/4/18     14:30            140 window-state.json
    :root {
      font-family: "汉仪唐美人" !important; /* 字体 */
    }
    
    /* 深度思考展开字体颜色 */
    .ant-collapse-content-box .markdown {
      color: red;
    }
    
    /* 主题变量 */
    :root {
      --color-black-soft: #2a2b2a; /* 深色背景色 */
      --color-white-soft: #f8f7f2; /* 浅色背景色 */
    }
    
    /* 深色主题 */
    body[theme-mode="dark"] {
      /* Colors */
      --color-background: #2b2b2b; /* 深色背景色 */
      --color-background-soft: #303030; /* 浅色背景色 */
      --color-background-mute: #282c34; /* 中性背景色 */
      --navbar-background: var(-–color-black-soft); /* 导航栏背景色 */
      --chat-background: var(–-color-black-soft); /* 聊天背景色 */
      --chat-background-user: #323332; /* 用户聊天背景色 */
      --chat-background-assistant: #2d2e2d; /* 助手聊天背景色 */
    }
    
    /* 深色主题特定样式 */
    body[theme-mode="dark"] {
      #content-container {
        background-color: var(-–chat-background-assistant) !important; /* 内容容器背景色 */
      }
    
      #content-container #messages {
        background-color: var(-–chat-background-assistant); /* 消息背景色 */
      }
    
      .inputbar-container {
        background-color: #3d3d3a; /* 输入框背景色 */
        border: 1px solid #5e5d5940; /* 输入框边框颜色 */
        border-radius: 8px; /* 输入框边框圆角 */
      }
    
      /* 代码样式 */
      code {
        background-color: #e5e5e20d; /* 代码背景色 */
        color: #ea928a; /* 代码文字颜色 */
      }
    
      pre code {
        color: #abb2bf; /* 预格式化代码文字颜色 */
      }
    }
    
    /* 浅色主题 */
    body[theme-mode="light"] {
      /* Colors */
      --color-white: #ffffff; /* 白色 */
      --color-background: #ebe8e2; /* 浅色背景色 */
      --color-background-soft: #cbc7be; /* 浅色背景色 */
      --color-background-mute: #e4e1d7; /* 中性背景色  */
      --navbar-background: var(-–color-white-soft); /* 导航栏背景色 */
      --chat-background: var(-–color-white-soft); /* 聊天背景色 */
      --chat-background-user: #f8f7f2; /* 用户聊天背景色 */
      --chat-background-assistant: #f6f4ec; /* 助手聊天背景色 */
    }
    
    /* 浅色主题特定样式 */
    body[theme-mode="light"] {
      #content-container {
        background-color: var(-–chat-background-assistant) !important; /* 内容容器背景色 */
      }
    
      #content-container #messages {
        background-color: var(-–chat-background-assistant); /* 消息背景色 */
      }
    
      .inputbar-container {
        background-color: #ffffff; /* 输入框背景色 */
        border: 1px solid #87867f40; /* 输入框边框颜色 */
        border-radius: 8px; /* 输入框边框圆角,修改为您喜欢的大小 */
      }
    
      /* 代码样式 */
      code {
        background-color: #3d39290d; /* 代码背景色 */
        color: #7c1b13; /* 代码文字颜色 */
      }
    
      pre code {
        color: #000000; /* 预格式化代码文字颜色 */
      }
    }
    常见问题
    Issue
    tg频道
    Discord频道
    一键进群
    点击这里

    Kimi K2 (官方 API 平台)

  • 智谱 GLM 4.5 (官方 API 平台)

  • 注意:当前许多第三方服务商(如 One API, New API 等)针对 DeepSeek, Kimi, GLM 的 API 接口大多只支持 OpenAI Chat Completions 格式,可能无法与 Claude Code 直接兼容,需要等待服务商逐步适配。

  • Gemini CLI: 需要选择 Google 的 Gemini 系列模型。

  • Qwen Code: 支持 OpenAI Chat Completions API 格式的模型,强烈推荐使用 Qwen3 Coder 系列模型以获得最佳代码生成效果。

  • OpenAI Codex: 支持 GPT 系列模型(如 gpt-4o, gpt-5 等)。

  • 依赖与环境冲突:

    • Cherry Studio 内部集成了独立的 Node.js 运行环境、Code Agent 可执行文件及环境变量配置,旨在提供一个开箱即用的纯净环境。

    • 如果您在启动 Agent 时遇到依赖冲突或奇怪的错误,可以考虑暂时卸载或禁用系统内已安装的相关依赖(如全局安装的 Node.js 或特定工具链),以排除冲突。

  • API Token 消耗警告:

    • Code Agent 对 API Token 的消耗量非常大。在处理复杂任务时,Agent 为了思考、规划和生成代码,可能会产生大量请求,导致 Token 快速消耗。

    • 请务必根据自己的 API 额度和预算,量力而为,密切关注 Token 使用情况,以防止预算超支。

  • GitHub Releases

    思考模式

    复杂推理、数学题、规划类任务

    - 求解几何问题 - 编写完整项目架构

    非思考模式

    快速问答、翻译、摘要

    - 查询天气 - 中英文互译

    火山引擎模型ID列表示例
    https://github.com/boilcy/cherrycss
    https://linux.do/t/topic/325119/129
    什么是 MCP(Model Context Protocol)?

    注意:Gemini 图片生成需要在对话界面使用,因为 Gemini 是多模态交互式的图片生成,也不支持参数调节。

    保持 Ollama 运行: 在您使用 Cherry Studio 与 Ollama 模型交互期间,请确保 Ollama 保持运行状态。

    API 地址:

    • 填写 Ollama 提供的本地 API 地址。通常情况下,地址为:

      如果修改了端口,请自行更改。

  • 保持活跃时间: 此选项是设置会话的保持时间,单位是分钟。如果在设定时间内没有新的对话,Cherry Studio 会自动断开与 Ollama 的连接,释放资源。

  • 模型管理:

    • 点击“+ 添加”按钮,手动添加您在 Ollama 中已经下载的模型名称。

    • 比如您已经通过ollama run llama3.2下载了llama3.2模型, 那么此处可以填入llama3.2

    • 点击“管理”按钮,可以对已添加的模型进行编辑或删除。

  • : 可以点击配置页面中的
    查看Ollama文档和模型
    链接快速跳转至Ollama官网文档。
    https://ollama.com/
    http://localhost:11434/
    curl -fsSL https://ollama.com/install.sh | sh
    ollama run llama3.2

    相比旧版导出到 Obsidian,新版导出到 Obsidian 功能可以自动选择库路径,不再需要手动输入库名、文件夹名。

    第一步:配置 Cherry Studio

    打开 Cherry Studio 的设置 → 数据设置 → Obsidian 配置菜单,下拉框中会自动出现在本机打开过的 Obsidian 库名,选择你的目标 Obsidian 库:

    第二步:导出对话

    导出完整对话

    回到 Cherry Studio 的对话界面,右键点击对话,选择导出,点击导出到 Obsidian:

    此时会弹出一个窗口,用于调整这条导出到 Obsidian 中的对话笔记的 Properties(属性)、所放置在Obsidian的文件夹位置以及导出到 Obsidian 中的处理方式:

    • 保管库:点击下拉菜单可以选择其他 Obsidian 库

    • 路径:点击下拉菜单可以选择存放导出对话笔记的文件夹

    • 作为 Obsidian 笔记属性(Properties):

      • 标签(tags)

      • 创建时间(created)

      • 来源(source)

    • 导出到 Obsidian 中的处理方式有以下三种可选:

    • 导出到 Obsidian 中的处理方式有以下三种可选:

      • 新建(如果存在就覆盖):在路径处填写的文件夹 里新建一篇对话笔记,如果存在同名笔记则会覆盖旧笔记

      • 前置:在已存在同名笔记的情况下,将选中的对话内容导出添加到该笔记的开头

    只有第一种方式会附带 Properties(属性),后两种方式不会附带 Properties(属性)。

    配置笔记属性
    选择路径
    选择处理方式

    选择完所有选项后,点击确定即可导出完整对话到对应的 Obsidian 库的对应文件夹。

    导出单条对话

    对于单条对话的导出,则点击对话下方的三条杠菜单,选择导出,点击导出到 Obsidian:

    导出单条对话

    之后也会弹出与导出完整对话时一样的窗口,要求你配置笔记属性与笔记的处理方式,一样按照上方的教程完成即可。

    导出成功

    🎉 到这里,恭喜你完成了 Cherry Studio 联动 Obsidian 的所有配置,并完整地将导出流程走了一遍,enjoy yourselves!

    导出到 Obsidian
    查看导出结果

    旧教程(适用于Cherry Studio<v1.1.13)

    第一步:准备 Obsidian

    打开 Obsidian 库,创建一个用于保存导出对话的文件夹(图中以 Cherry Studio 文件夹为例):

    注意记住左下角框出来的文字,这里是你的保管库名。

    第二步:配置 Cherry Studio

    在 Cherry Studio 的设置 → 数据设置 → Obsidian 配置菜单中,输入在第一步中获取到的保管库名与文件夹名:

    全局标签处是可选的,可设定所有对话导出后在 Obsidian 中的标签,按需填写。

    第三步:导出对话

    导出完整对话

    回到 Cherry Studio 的对话界面,右键点击对话,选择导出,点击导出到 Obsidian。

    导出完整对话

    此时会弹出一个窗口,用于调整这条导出到 Obsidian 中的对话笔记的 Properties(属性),以及导出到 Obsidian 中的处理方式。导出到 Obsidian 中的处理方式有以下三种可选:

    • 新建(如果存在就覆盖):在第二步中填写的文件夹 里新建一篇对话笔记,如果存在同名笔记则会覆盖旧笔记

    • 前置:在已存在同名笔记的情况下,将选中的对话内容导出添加到该笔记的开头

    • 追加:在已存在同名笔记的情况下,将选中的对话内容导出添加到该笔记的末尾

    配置笔记属性

    只有第一种方式会附带 Properties(属性),后两种方式不会附带 Properties(属性)。

    导出单条对话

    对于单条对话的导出,则点击对话下方的三条杠菜单,选择导出,点击导出到 Obsidian。

    导出单条对话

    之后也会弹出与导出完整对话时一样的窗口,要求你配置笔记属性与笔记的处理方式,一样按照上方的教程完成即可。

    导出成功

    🎉 到这里,恭喜你完成了 Cherry Studio 联动 Obsidian 的所有配置,并完整地将导出流程走了一遍,enjoy yourselves!

    导出到 Obsidian
    查看导出结果
    如果对话过长造成导入失败
    找到需要的模型,添加到我的模型。

    创建知识库

    1. 知识库入口:在 CherryStudio 左侧工具栏,点击知识库图标,即可进入管理页面;

    2. 添加知识库:点击添加,开始创建知识库;

    3. 命名:输入知识库的名称并添加嵌入模型,以 bge-m3 为例,即可完成创建。

    添加文件并向量化

    1. 添加文件:点击添加文件的按钮,打开文件选择;

    2. 选择文件:选择支持的文件格式,如 pdf,docx,pptx,xlsx,txt,md,mdx 等,并打开;

    3. 向量化:系统会自动进行向量化处理,当显示完成时(绿色 ✓),代表向量化已完成。

    添加多种来源的数据

    CherryStudio 支持多种添加数据的方式:

    1. 文件夹目录:可以添加整个文件夹目录,该目录下支持格式的文件会被自动向量化;

    2. 网址链接:支持网址 url,如https://docs.siliconflow.cn/introduction;

    3. 站点地图:支持 xml 格式的站点地图,如https://docs.siliconflow.cn/sitemap.xml;

    4. 纯文本笔记:支持输入纯文本的自定义内容。

    提示:

    1. 导入知识库的文档中的插图暂不支持转换为向量,需要手动转换为文本;

    2. 使用网址作为知识库来源时不一定会成功,有些网站有比较严格的反扒机制(或需要登录、授权等),因此该方式不一定能获取到准确内容。创建完成后建议先搜索测试一下。

    3. 一般网站都会提供sitemap,如CherryStudio的,一般情况下在网站的根地址(即网址)后加/sitemap.xml可以获取到相关信息。如aaa.com/sitemap.xml 。

    4. 如果网站没提供sitemap或者网址比较杂可自行组合一个sitemap的xml文件使用,文件暂时需要使用公网可直接访问的直链的方式填入,本地文件链接不会被识别。

    1. 可以让AI生成sitemap文件或让AI写一个sitemap的HTML生成器工具;

    2. 直链可以使用oss直链或者网盘直链等方式来生成。如果没有现成工具也可到官网,登录后使用网站顶栏的免费文件上传工具来生成直链。

    搜索知识库

    当文件等资料向量化完成后,即可进行查询:

    1. 点击页面下方的搜索知识库按钮;

    2. 输入查询的内容;

    3. 呈现搜索的结果;

    4. 并显示该条结果的匹配分数。

    对话中引用知识库生成回复

    1. 创建一个新的话题,在对话工具栏中,点击知识库,会展开已经创建的知识库列表,选择需要引用的知识库;

    2. 输入并发送问题,模型即返回通过检索结果生成的答案 ;

    3. 同时,引用的数据来源会附在答案下方,可快捷查看源文件。


    📚 统一训练流程,夯实智能基础

    GLM-4.5-Air 与旗舰系列共享一致的训练流程,确保其具备扎实的通用能力基础:

    1. 大规模预训练:在高达 15 万亿 token 的通用语料上完成训练,构建广泛的知识理解能力;

    2. 专项领域优化:在代码生成、逻辑推理、智能体交互等关键任务上进行强化训练;

    3. 长上下文支持:上下文长度扩展至 128K tokens,可处理长文档、复杂对话或大型代码项目;

    4. 强化学习增强:通过 RL 优化模型在推理规划、工具调用等方面的决策能力。

    这一训练体系为 GLM-4.5-Air 赋予了出色的泛化能力和任务适应性。


    ⚙️ 专为智能体优化的核心能力

    GLM-4.5-Air 针对智能体应用场景进行了深度适配,具备以下实用能力:

    ✅ 工具调用支持:可通过标准化接口调用外部工具,实现任务自动化 ✅ 网页浏览与信息提取:可配合浏览器插件完成动态内容理解与交互 ✅ 软件工程辅助:支持需求解析、代码生成、缺陷识别与修复 ✅ 前端开发支持:对 HTML、CSS、JavaScript 等前端技术有良好理解与生成能力

    该模型可灵活集成至 Claude Code、Roo Code 等代码智能体框架,也可作为任意自定义 Agent 的核心引擎使用。


    💡 智能“思考模式”,灵活响应各类请求

    GLM-4.5-Air 支持混合推理模式,用户可通过 thinking.type 参数控制是否启用深度思考:

    • enabled:启用思考,适合需要分步推理或规划的复杂任务

    • disabled:禁用思考,用于简单查询或即时响应

    • 默认设置为 动态思考模式,模型自动判断是否需要深入分析

    任务类型
    示例

    简单任务(建议关闭思考)

    - 查询“智谱AI的成立时间” - 翻译“I love you”为中文

    中等任务(建议启用思考)

    - 比较飞机与高铁从北京到上海的优劣 - 解释木星为何有较多卫星

    复杂任务(强烈建议启用思考)

    - 说明 MoE 模型中专家如何协作 - 基于市场信息分析是否应买入ETF


    🌟 高效低成本,部署更轻松

    GLM-4.5-Air 在性能与成本之间实现了优秀平衡,特别适合实际业务部署:

    • ⚡ 生成速度超 100 tokens/秒,响应迅速,支持低延迟交互

    • 💰 API 成本极低:输入仅 0.8 元/百万 tokens,输出 2 元/百万 tokens

    • 🖥️ 激活参数少,算力需求低,易于在本地或云端高并发运行

    真正实现“高性能、低门槛”的 AI 服务体验。


    🧠 聚焦实用能力:智能代码生成

    GLM-4.5-Air 在代码生成方面表现稳定,支持:

    • 覆盖 Python、JavaScript、Java 等主流语言

    • 根据自然语言指令生成结构清晰、可维护性强的代码

    • 减少模板化输出,贴近真实开发场景需求

    适用于快速原型构建、自动化补全、Bug 修复等高频开发任务。


    现在就免费体验 GLM-4.5-Air,开启你的智能体开发之旅! 无论你是想打造自动化助手、编程伴侣,还是探索下一代 AI 应用,GLM-4.5-Air 都将是你高效可靠的 AI 引擎。

    📘 立即接入,释放创造力!

    知识科普

    什么是 tokens?

    Tokens 是 AI 模型处理文本的基本单位,可以理解为模型"思考"的最小单元。它不完全等同于我们理解的字符或单词,而是模型自己的一种特殊的文本分割方式。

    1. 中文分词

    • 一个汉字通常会被编码为 1-2 个 tokens

    • 例如:"你好" ≈ 2-4 tokens

    2. 英文分词

    • 常见单词通常是 1 个 token

    • 较长或不常见的单词会被分解成多个 tokens

    • 例如:

      • "hello" = 1 token

    3. 特殊字符

    • 空格、标点符号等也会占用 tokens

    • 换行符通常是 1 个 token

    不同服务商的 Tokenizer 都不一样,甚至同服务商不同模型的 Tokenizer 也有所差别,该知识仅用于明确 token 的概念。


    什么是 Tokenizer?

    Tokenizer(分词器)是 AI 模型将文本转换为 tokens 的工具。它决定了如何把输入文本切分成模型可以理解的最小单位。

    为什么不同模型的 Tokenizer 不一样?

    1. 训练数据不同

    • 不同的语料库导致优化方向不同

    • 多语言支持程度差异

    • 特定领域(医疗、法律等)的专门优化

    2. 分词算法不同

    • BPE (Byte Pair Encoding) - OpenAI GPT 系列

    • WordPiece - Google BERT

    • SentencePiece - 适合多语言场景

    3. 优化目标不同

    • 有的注重压缩效率

    • 有的注重语义保留

    • 有的注重处理速度

    实际影响

    同样的文本在不同模型中的 token 数量可能不同:


    什么是嵌入模型 (Embedding Model)?

    基本概念: 嵌入模型是一种将高维离散数据(文本、图像等)转换为低维连续向量的技术,这种转换让机器能更好地理解和处理复杂数据。想象一下,就像把复杂的拼图简化成一个简单的坐标点,但这个点仍然保留了拼图的关键特征。在大模型生态中,它作为"翻译官",将人类可理解的信息转换为 AI 可计算的数字形式。

    工作原理: 以自然语言处理为例,嵌入模型可以将词语映射到向量空间中的特定位置。在这个空间里,语义相近的词会自动聚集在一起。比如:

    • "国王"和"王后"的向量会很接近

    • "猫"和"狗"这样的宠物词也会距离相近

    • 而"汽车"和"面包"这样语义无关的词则会距离较远

    主要应用场景:

    • 文本分析:文档分类、情感分析

    • 推荐系统:个性化内容推荐

    • 图像处理:相似图片检索

    • 搜索引擎:语义搜索优化

    核心优势:

    1. 降维效果:将复杂数据简化为易处理的向量形式

    2. 语义保持:保留原始数据中的关键语义信息

    3. 计算效率:显著提升机器学习模型的训练和推理效率

    技术价值: 嵌入模型是现代 AI 系统的基础组件,为机器学习任务提供了高质量的数据表示,是推动自然语言处理、计算机视觉等领域发展的关键技术。


    Embedding 模型在知识检索中的工作原理

    基本工作流程:

    1. 知识库预处理阶段

    • 将文档分割成适当大小的 chunk(文本块)

    • 使用 embedding 模型将每个 chunk 转换为向量

    • 将向量和原文存储到向量数据库中

    1. 查询处理阶段

    • 将用户问题转换为向量

    • 在向量库中检索相似内容

    • 将检索到的相关内容作为上下文提供给 LLM


    什么是 MCP(Model Context Protocol)?

    MCP 是一种开源协议,旨在以标准化的方式向大型语言模型(LLM)提供上下文信息。

    • 类比理解: 可以把 MCP 想象成 AI 领域的“U盘”。我们知道,U盘可以存储各种文件,插入电脑后就能直接使用。类似地,MCP Server 上可以“插”上各种提供上下文的“插件”,LLM 可以根据需要向 MCP Server 请求这些插件,从而获取更丰富的上下文信息,增强自身能力。

    • 与 Function Tool 的对比: 传统的 Function Tool(函数工具)也可以为 LLM 提供外部功能,但 MCP 更像是一种更高维度的抽象。Function Tool 更多的是针对具体任务的工具,而 MCP 则提供了一种更通用的、模块化的上下文获取机制。

    MCP 的核心优势

    1. 标准化: MCP 提供了统一的接口和数据格式,使得不同的 LLM 和上下文提供者可以无缝协作。

    2. 模块化: MCP 允许开发者将上下文信息分解为独立的模块(插件),方便管理和复用。

    3. 灵活性: LLM 可以根据自身需求动态选择所需的上下文插件,实现更智能、更个性化的交互。

    4. 可扩展性: MCP 的设计支持未来添加更多类型的上下文插件,为 LLM 的能力拓展提供了无限可能。


    常见问题

    常见错误代码

    • 4xx(客户端错误状态码):一般为请求语法错误、鉴权失败或认证失败等无法完成请求。

    • 5xx(服务器错误状态码):一般为服务端错误,服务器宕机、请求处理超时等。

    错误码
    可能的情况
    解决方法

    控制台报错查看方法

    • 点击 Cherry Studio 客户端窗口后按下快捷键 Ctrl + Shift + I(Mac端:Command + Option + I)

    • 当前活动窗口必须为 Cherry Studio 的客户端窗口才能调出控制台;

    • 需要先打开控制台,再点击测试或者发起对话等请求才能收集到请求信息。

    • 在弹出的控制台窗口中点击 Network → 点击查看②处最后一个标有红色 × 的 completions(对话类、翻译、模型连通性检查等遇到错误时) 或 generations(绘画遇到错误时) → 点击Response查看完整的返回内容(图中④的区域)。

    如果你无法判断该错误的原因,请将该界面截图发送到 中寻求帮助。

    该检查方法不仅在对话时可以获取错误信息,在模型测试时、添加知识库时、绘画时等都可以使用。无论哪种情况下都需要先打开调试窗口,再进行请求操作来获取请求信息。·

    不同场景下Name(上图②处)栏里的名称会有所区别

    对话、翻译、模型检查:completions

    绘画:generations

    知识库创建:embeddings


    公式没被渲染/公式渲染错误

    • 公式未被渲染而是直接显示的公式的代码时检查公式是否有定界符

    定界符用法

    行内公式

    • 使用单个美元符号: $formula$

    • 或使用\( 和 \),如:\(formula\)

    独立公式块

    • 公式渲染错误/乱码 常见在公式内包含中文内容时,尝试切换公式引擎为 KateX。


    无法创建知识库/提示获取嵌入维度失败

    1. 模型状态不可用

    确认服务商是否支持该模型或确认服务商该模型服务状态是否正常。

    2.使用了非嵌入模型


    模型不能识图/无法上传或选择图片

    首先需要确认模型是否支持识图,热门模型 Cherry Studio 会对其分类,模型名称后带小眼睛图标的即支持识图。

    识图模型会支持图像文件的上传,如果模型功能未被正确匹配可在对应服务商的模型列表当中找到该模型,点击其名称后的设置按钮并勾选图像选项。

    模型具体的信息可以到对应服务商找到其信息查阅。同嵌入模型一样,不支持视觉的模型不需要强制开启图像功能,勾选了图像的选项也没有作用。

    ModelScope(魔搭)

    什么是 ModelScope?

    ModelScope 是新一代开源模型即服务(MaaS)共享平台,致力于为泛 AI 开发者提供灵活、易用、低成本的一站式模型服务解决方案,让模型应用更简单!

    通过 API-Inference 服务化能力,平台将开源模型标准化为可调用的 API 接口,开发者可轻量、快速地集成模型能力至各类 AI 应用,支持工具调用、原型开发等创新场景。

    核心优势

    • ✅ 免费额度:每日提供 2000 次免费 API 调用额度()

    • ✅ 丰富模型库:覆盖 NLP、CV、语音、多模态等 1000+ 开源模型

    • ✅ 即开即用:无需部署,通过 RESTful API 快速调用


    Cherry Studio 接入流程

    步骤 1:获取 ModelScope API 令牌

    1. 登录平台

      • 访问 → 点击右上角登录 → 选择认证方式

    2. 创建访问令牌

      • 进入

    步骤 2:配置 Cherry Studio

    • 打开 Cherry Studio → 设置 → 模型服务 → ModelScope

    • 在 API 密钥 栏粘贴复制的令牌

    • 点击 保存 完成授权

    步骤 3:调用模型 API

    1. 查找支持 API 的模型

      • 访问

      • 筛选条件:勾选 API-Inference(或认准模型卡片上的 API 图标)


    计费与额度规则

    重要说明

    • 🎫 免费额度:每位用户 每日 2000 次 API 调用(*以官网最新规则为准)

    • 🔁 额度重置:每日 UTC+8 00:00 自动重置,不支持跨日累计或升级

    • 💡 超额处理:

      • 达到当日上限后 API 将返回

    查看剩余额度

    • 登录 ModelScope → 点击右上角 用户名 → API 使用情况

    ⚠️ 注意:推理 API-Inference 每天2000次的免费调用额度。更多调用需求可考虑使用阿里云百炼等云上服务。

    Cherry Studio - 全能的 AI 助手Cherry Studio
    Cherry Studio - 全能的 AI 助手Cherry Studio

    自定义服务商

    Cherry Studio 不仅集成了主流的 AI 模型服务,还赋予了您强大的自定义能力。通过 自定义 AI 服务商 功能,您可以轻松接入任何您需要的 AI 模型。

    为什么需要自定义 AI 服务商?

    • 灵活性: 不再受限于预置的服务商列表,自由选择最适合您需求的 AI 模型。

    追加
    :在已存在同名笔记的情况下,将选中的对话内容导出添加到该笔记的末尾
    sitemap
    ocoolAI

    贡献文档

    邮件联系 [email protected] 获取编辑身份

    标题:申请 Cherry Studio Docs 编辑身份

    正文:填写申请理由

    请求格式正确,但语义错误

    这类错误服务端能解析,但无法处理。常见于JSON语义错误(如:空值;要求值为字符串,但写成了数字或布尔值等情况)。

    429

    请求速率达到上限

    请求速率(TPM 或 RPM)达到上限,冷静一会再用

    500

    服务器内部错误,无法完成请求

    持续出现的话联系上游服务商

    501

    服务器不支持请求的功能,无法完成请求

    502

    作为网关或者代理工作的服务器尝试执行请求时,从远程服务器接收到了一个无效的响应

    503

    由于超载或系统维护,服务器暂时的无法处理客户端的请求。延时的长度可包含在服务器的Retry-After头信息中

    504

    充当网关或代理的服务器,未及时从远端服务器获取请求

  • 使用双美元符号: $$formula$$

  • 或使用 \[formula\]

  • 示例: $$\sum_{i=1}^n x_i$$ ∑i=1nxi\sum_{i=1}^n x_i∑i=1n​xi​

  • 400

    请求体格式错误等

    查看对话返回的错误内容或 控制台</a 查看报错内容,根据提示操作。

    【常见情况1】:如果是gemini模型,可能需要进行绑卡操作; 【常见情况2】:数据体积超限,常见于视觉模型,图片体积超过上游单个请求流量上限会返回该错误码; 【常见情况3】:加了不支持的参数或参数填写错误。尝试新建一个纯净的助手测试是否正常; 【常见情况4】:上下文超过限制,清除上下文或新建对话或减少上下文条数。

    401

    认证失败:模型不被支持或服务端账户被封禁等

    联系或查看对应服务商账户状态

    403

    请求操作无权限

    根据对话返回的错误信息或控制台错误信息提示进行相应操作

    404

    无法找到请求资源

    检查请求路径等

    官方交流群

    422

    "indescribable" = 4 tokens

    输入:"Hello, world!"
    GPT-3: 4 tokens
    BERT: 3 tokens
    Claude: 3 tokens
  • 点击 新建令牌 → 填写描述 → 复制生成的令牌(页面示例见下图)

  • 🔑 重要提示:令牌泄露将影响账号安全!

    API-Inference覆盖的模型范围,主要根据模型在魔搭社区中的关注程度(参考了点赞,下载等数据)来判断。因此,在能力更强,关注度更高的下一代开源模型发布之后,支持的模型清单也会持续迭代。
  • 获取模型 ID

    • 进入目标模型详情页 → 复制 Model ID(格式如 damo/nlp_structbert_sentiment-classification_chinese-base)

  • 填入 Cherry Studio

    • 在模型服务配置页的 模型 ID 栏输入 ID → 选择任务类型 → 完成配置

  • 429 错误
  • 解决方案:切换备用账号 / 使用其他平台 / 优化调用频率

  • 计费规则
    ModelScope 官网
    账户设置 → 访问令牌
    ModelScope 模型库
    登录界面
    配置界面
    API 模型筛选
    额度查看位置
    多样性: 尝试各种不同平台的 AI 模型,发掘它们的独特优势。
  • 可控性: 直接管理您的 API 密钥和访问地址,确保安全和隐私。

  • 定制化: 接入私有化部署的模型,满足特定业务场景的需求。

  • 如何添加自定义 AI 服务商?

    只需简单几步,即可在 Cherry Studio 中添加您的自定义 AI 服务商:

    1. 打开设置: 在 Cherry Studio 界面左侧导航栏中,点击“设置”(齿轮图标)。

    2. 进入模型服务: 在设置页面中,选择“模型服务”选项卡。

    3. 添加提供商: 在“模型服务”页面中,您会看到已有的服务商列表。点击列表下方的“+ 添加”按钮,打开“添加提供商”弹窗。

    4. 填写信息: 在弹窗中,您需要填写以下信息:

      • 提供商名称: 为您的自定义服务商起一个易于识别的名称(例如:MyCustomOpenAI)。

      • 提供商类型: 从下拉列表中选择您的服务商类型。目前支持:

        • OpenAI

        • Gemini

        • Anthropic

    5. 保存配置: 填写完毕后,点击“添加”按钮保存您的配置。

    配置自定义 AI 服务商

    添加完成后,您需要在列表中找到您刚刚添加的服务商,并进行详细配置:

    1. 启用状态 自定义服务商列表最右侧有一个启用开关,打开代表启用该自定义服务。

    2. API 密钥:

      • 填写您的 AI 服务商提供的 API 密钥(API Key)。

      • 点击右侧的“检查”按钮,可以验证密钥的有效性。

    3. API 地址:

      • 填写 AI 服务的 API 访问地址(Base URL)。

      • 请务必参考您的 AI 服务商提供的官方文档,获取正确的 API 地址。

    4. 模型管理:

      • 点击“+ 添加”按钮,手动添加此提供商下您想要使用的模型ID。例如 gpt-3.5-turbo、gemini-pro 等。

      • 如果您不确定具体的模型名称,请参考您的 AI 服务商提供的官方文档。

    开始使用

    完成以上配置后,您就可以在 Cherry Studio 的聊天界面中,选择您自定义的 AI 服务商和模型,开始与 AI 进行对话了!

    使用 vLLM 作为自定义 AI 服务商

    vLLM 是一个类似Ollama的快速且易于使用的 LLM 推理库。以下是如何将 vLLM 集成到 Cherry Studio 中的步骤:

    1. 安装 vLLM: 按照 vLLM 官方文档(https://docs.vllm.ai/en/latest/getting_started/quickstart.html)安装 vLLM。

    2. 启动 vLLM 服务: 使用 vLLM 提供的 OpenAI 兼容接口启动服务。主要有两种方式,分别如下:

      • 使用vllm.entrypoints.openai.api_server启动

      • 使用uvicorn启动

    确保服务成功启动,并监听在默认端口 8000 上。 当然, 您也可以通过参数--port指定 vLLM 服务的端口号。

    1. 在 Cherry Studio 中添加 vLLM 服务商:

      • 按照前面描述的步骤,在 Cherry Studio 中添加一个新的自定义 AI 服务商。

      • 提供商名称: vLLM

      • 提供商类型: 选择 OpenAI。

    2. 配置 vLLM 服务商:

      • API 密钥: 因为 vLLM 不需要 API 密钥,可以将此字段留空,或者填写任意内容。

      • API 地址: 填写 vLLM 服务的 API 地址。默认情况下,地址为: http://localhost:8000/(如果使用了不同的端口,请相应地修改)。

      • 模型管理:

    3. 开始对话: 现在,您可以在 Cherry Studio 中选择 vLLM 服务商和 gpt2 模型,开始与 vLLM 驱动的 LLM 进行对话了!

    提示与技巧

    • 仔细阅读文档: 在添加自定义服务商之前,请务必仔细阅读您所使用的 AI 服务商的官方文档,了解 API 密钥、访问地址、模型名称等关键信息。

    • 检查 API 密钥: 使用“检查”按钮可以快速验证 API 密钥的有效性,避免因密钥错误导致无法使用。

    • 关注 API 地址: 不同的 AI 服务商和模型,API 地址可能有所不同,请务必填写正确的地址。

    • 模型按需添加: 请只添加您实际上会用到的模型, 避免添加过多无用模型.

    对话界面

    助手和话题

    助手

    助手 是对所选模型做一些个性化的设置来使用模型,如提示词预设和参数预设等,通过这些设置让所选模型能更加符合你预期的工作。

    系统默认助手 预设了一个比较通用的参数(无提示词),您可以直接使用或者到 寻找你需要的预设来使用。

    话题

    助手 是 话题 的父集,单个助手下可以创建多个话题(即对话),所有 话题 共用 助手 的参数设置和预设词(prompt)等模型设置。

    对话框内按钮

    新话题 在当前助手内创建一个新话题。

    上传图片或文档 上传图片需要模型支持,上传文档会自动解析为文字作为上下文提供给模型。

    网络搜索 须在设置中配置网络搜索相关信息,搜索结果作为上下文返回给大模型,详见 。

    知识库 开启知识库,详见 。

    MCP 服务器 开启 MCP 服务器功能,详见 。

    生成图片 只有选择的 对话模型 支持生图时才会显示。(非对话生图模型请前往 )

    选择模型 对于接下来的对话,切换成指定的模型,保留上下文。

    快捷短语 需要先在设置中预设常用短语,在此处调用,直接输入,支持变量。

    清空消息 删除该话题下所有内容。

    展开 让对话框变得更大,以便输入长文。

    清除上下文 在不删除内容的情况下,截断模型能获得的上下文,也就是说模型将“忘记”之前的对话内容。

    预估 Token 数 展示预估 Token 数,四个数据分别为 当前上下文数 、 最大上下文数 ( ∞ 表示无限上下文)、 当前输入框内消息字数 、 预估 Token 数 。

    此功能仅用于预估 Token 数,实际 Token 数每个模型都是不一样的,请以模型提供商的数据为准。

    翻译 将当前输入框内内容翻译成英文。

    对话设置

    模型设置

    模型设置与助手设置当中的 模型设置 参数同步,详见 。

    在对话设置当中,仅该模型设置作用于当前助手,其余设置作用于全局。如:设置消息样式为气泡后在任何助手的任何话题下都是气泡样式。

    消息设置

    消息分割线:

    使用分割线将消息正文与操作栏隔开。

    使用衬线字体:

    字体样式切换,现在你也可以通过 来更换字体。

    代码显示行号:

    模型输出代码片段时显示代码块行号。

    代码块可折叠:

    打开后,当代码片段中代码较长时,将自动折叠代码块。、

    代码块可换行:

    打开后,当代码片段中但行代码较长时(超出窗口),将自动换行。

    思考内容自动折叠:

    打开后,支持思考的模型在思考完成后会自动折叠思考过程。

    消息样式:

    可切对话界面换为气泡样式或列表样式。

    代码风格:

    可切换代码片段的显示风格。

    数学公式引擎:

    • KaTeX 渲染速度更快,因为它是专门为性能优化设计的;

    • MathJax 渲染较慢,但功能更全面,支持更多的数学符号和命令。

    消息字体大小:

    调整对话界面字体的大小。

    输入设置

    显示预估 Token 数:

    在输入框显示输入文本预估消耗的Token数(非实际上下文消耗的Token,仅供参考)。

    长文本粘贴为文件:

    当从其他地方复制长段文本粘贴到输入框时会自动显示为文件的样式,减少后续输入内容时的干扰。

    Markdown 渲染输入消息:

    关闭时只渲染模型回复的消息,不渲染发送的消息。

    快速敲击3次空格翻译:

    在对话界面输入框输入消息后,连敲三次空格可翻译输入的内容为英文。

    注意:该操作会覆盖原文。

    目标语言:

    设置输入框翻译按钮以及快速敲击3次空格翻译的目标语言。

    助手设置

    在助手界面选择需要设置的助手名称→在右键菜单中选对应设置

    编辑助手

    助手设置作用于该助手下的所有话题。

    提示词设置

    名称:

    可自定义方便辨识的助手名称。

    提示词:

    即 prompt ,可以参照智能体页面的提示词写法来编辑内容。

    模型设置

    默认模型:

    可以为该助手固定一个默认模型,从智能体页面添加时或复制助手时初始模型为该模型。不设置该项初始模型则为全局初始模型(即 )。

    助手的默认模型有两种,一为 ,另一为助手默认模型;助手的默认模型优先级高于全局默认对话模型。当不设置助手默认模型时,助手默认模型=全局默认对话模型。

    自动重置模型:

    打开时 - 当在该话题下使用过程中切换其他模型使用时,再次新建话题会将新话题的重置为助手的默认模型。当该项关闭时新建话题的模型会跟随上一话题所使用的模型。

    如助手的默认模型为gpt-3.5-turbo,我在该助手下创建话题1,在话题1的对话过程中切换了gpt-4o使用,此时:

    如果开启了自动重置:新建话题2时,话题2默认选择的模型为gpt-3.5-turbo;

    如果未开启自动重置:新建话题2时,话题2默认选择的模型为gpt-4o。

    温度 (Temperature) :

    温度参数控制模型生成文本的随机性和创造性程度(默认值为0.7)。具体表现为:

    • 低温度值(0-0.3):

      • 输出更确定、更专注

      • 适合代码生成、数据分析等需要准确性的场景

      • 倾向于选择最可能的词汇输出

    Top P (核采样):

    默认值为 1,值越小,AI 生成的内容越单调,也越容易理解;值越大,AI 回复的词汇范围越大,越多样化。

    核采样通过控制词汇选择的概率阈值来影响输出:

    • 较小值(0.1-0.3):

      • 仅考虑最高概率的词汇

      • 输出更保守、更可控

      • 适合代码注释、技术文档等场景

    • 这两个参数可以独立使用或组合使用

    • 根据具体任务类型选择合适的参数值

    • 建议通过实验找到最适合特定应用场景的参数组合

    上下文数量 (Context Window)

    要保留在上下文中的消息数量,数值越大,上下文越长,消耗的 token 越多:

    • 5-10:适合普通对话

    • >10:需要更长记忆的复杂任务(例如:按照写作提纲分步生成长文的任务,需要确保生成的上下文逻辑连贯)

    • 注意:消息数越多,token 消耗越大

    开启消息长度限制 (MaxToken)

    单次回答最大 数,在大语言模型中,max token(最大令牌数)是一个关键参数,它直接影响模型生成回答的质量和长度。

    如:在CherryStudio当中填写好key后测试模型是否连通时,只需要知道模型是否有正确返回消息而不需特定内容,这种情况下设置MaxToken为1即可。

    多数模型的MaxToken上限为32k Tokens,当然也有64k,甚至更多的,具体需要到对应介绍页面查看。

    具体设置多少取决于自己的需要,当然也可以参考以下建议。

    建议:

    • 普通聊天:500-800

    • 短文生成:800-2000

    一般情况下模型生成的回答将被限制在 MaxToken 的范围内,当然也有可能会出现被截断(如写长代码时)或表达不完整等情况出现,特殊情况下也需要根据实际情况来灵活调整。

    流式输出(Stream)

    流式输出是一种数据处理方式,它允许数据以连续的流形式进行传输和处理,而不是一次性发送所有数据。这种方式使得数据可以在生成后立即被处理和输出,极大地提高了实时性和效率。

    在 CherryStudio 客户端等类似环境下简单来说就是打字机效果。

    关闭后(非流):模型生成完信息后整段一次性输出(想象一下微信收到消息的感觉);

    打开时:逐字输出,可以理解为大模型每生成一个字就立马发送给你,直到全部发送完。

    如果某些特殊模型不支持流式输出需要将该开关关闭,比如刚开始只支持非流的o1-mini等。

    自定义参数

    在请求体(body)中加入额外请求参数,如 presence_penalty 等字段,一般人一般情况下用不到。

    上述top-p、maxtokens、stream等参数就是这些参数之一。

    填法:参数名称—参数类型(文本、数字等)—值,参考文档:

    各个模型提供商都或多或少有自己独有的参数,需要到提供商的文档中寻找使用方法

    • 自定义参数优先级高于内置参数。即自定义参数如果与内置参数重复,则自定义参数会覆盖内置参数。

    如:自定义参数中设置 model 为 gpt-4o 后,在对话中无论选择哪个模型都使用的是 gpt-4o 模型。

    pip install vllm # 如果你使用 pip
    uv pip install vllm # 如果你使用 uv
    python -m vllm.entrypoints.openai.api_server --model gpt2

    中等温度值(0.4-0.7):

    • 平衡了创造性和连贯性

    • 适合日常对话、一般性写作

    • 推荐用于聊天机器人对话(0.5左右)

  • 高温度值(0.8-1.0):

    • 产生更具创造性和多样性的输出

    • 适合创意写作、头脑风暴等场景

    • 但可能降低文本的连贯性

  • 中等值(0.4-0.6):

    • 平衡词汇多样性和准确性

    • 适合一般对话和写作任务

  • 较大值(0.7-1.0):

    • 考虑更广泛的词汇选择

    • 产生更丰富多样的内容

    • 适合创意写作等需要多样化表达的场景

  • 以上内容仅供参考和了解概念,所给参数范围不一定适合所有模型,具体可参考模型相关文档给出的参数建议。

    代码生成:2000-3600
  • 长文生成:4000及以上 (需要模型本身支持)

  • 使用 参数名称:undefined 的设置可排除参数。

    智能体页面
    联网模式
    知识库教程
    MCP 使用教程
    绘图
    助手设置
    自定义css
    默认助手模型
    全局默认对话模型
    Token
    点击前往
    新建令牌示例
    复制 Model ID
    填入模型ID
    Logo
    Logo
    Azure OpenAI

    点击"管理"按钮,可以对已经添加的模型进行编辑或者删除。

    添加您在 vLLM 中加载的模型名称。 在上面运行
    python -m vllm.entrypoints.openai.api_server --model gpt2
    的例子中, 应该在此处填入
    gpt2
    vllm --model gpt2 --served-model-name gpt2

    嵌入模型参考信息

    为了防止出错,在本文档中部分模型的 max input 的值没有写成极限值,如:在官方给出的最大输入值为8k(未明确给出具体数值)时,本文档中给出的参考值为8191或8000等。(看不懂忽视,按照文档中的参考值填写即可)

    火山-豆包

    官方模型信息参考地址

    名称
    max input

    阿里

    名称
    max input

    OpenAI

    名称
    max input

    百度

    名称
    max input

    智谱

    名称
    max input

    混元

    名称
    max input

    百川

    名称
    max input

    together

    名称
    max input

    Jina

    名称
    max input

    硅基流动

    名称
    max input

    Gemini

    名称
    max input

    nomic

    名称
    max input

    console

    名称
    max input

    cohere

    名称
    max input

    8191

    jina-reranker-v1-base-en

    8191

    jina-reranker-v1-turbo-en

    8191

    jina-reranker-v1-tiny-en

    8191

    jina-clip-v1

    8191

    jina-reranker-v2-base-multilingual

    8191

    reader-lm-1.5b

    256000

    reader-lm-0.5b

    256000

    jina-colbert-v2

    8191

    jina-embeddings-v3

    8191

    256

    Doubao-embedding

    4095

    Doubao-embedding-vision

    8191

    Doubao-embedding-large

    4095

    text-embedding-v3

    8192

    text-embedding-v2

    2048

    text-embedding-v1

    2048

    text-embedding-async-v2

    2048

    text-embedding-async-v1

    2048

    text-embedding-3-small

    8191

    text-embedding-3-large

    8191

    text-embedding-ada-002

    8191

    Embedding-V1

    384

    tao-8k

    8192

    embedding-2

    1024

    embedding-3

    2048

    hunyuan-embedding

    1024

    Baichuan-Text-Embedding

    512

    M2-BERT-80M-2K-Retrieval

    2048

    M2-BERT-80M-8K-Retrieval

    8192

    M2-BERT-80M-32K-Retrieval

    32768

    UAE-Large-v1

    512

    BGE-Large-EN-v1.5

    512

    BGE-Base-EN-v1.5

    512

    jina-embedding-b-en-v1

    512

    jina-embeddings-v2-base-en

    8191

    jina-embeddings-v2-base-zh

    8191

    jina-embeddings-v2-base-de

    8191

    jina-embeddings-v2-base-code

    8191

    jina-embeddings-v2-base-es

    8191

    BAAI/bge-m3

    8191

    netease-youdao/bce-embedding-base_v1

    512

    BAAI/bge-large-zh-v1.5

    512

    BAAI/bge-large-en-v1.5

    512

    Pro/BAAI/bge-m3

    8191

    text-embedding-004

    2048

    nomic-embed-text-v1

    8192

    nomic-embed-text-v1.5

    8192

    gte-multilingual-base

    8192

    embedding-query

    4000

    embedding-passage

    4000

    embed-english-v3.0

    512

    embed-english-light-v3.0

    512

    embed-multilingual-v3.0

    512

    embed-multilingual-light-v3.0

    512

    embed-english-v2.0

    512

    embed-english-light-v2.0

    512

    官方模型信息参考地址
    官方模型信息参考地址
    官方模型信息参考地址
    官方模型信息参考地址
    官方模型信息参考地址
    官方模型信息参考地址
    官方模型信息参考地址
    官方模型信息参考地址
    官方模型信息参考地址
    官方模型信息参考地址
    官方模型信息参考地址
    官方模型信息参考地址
    官方模型信息参考地址

    jina-colbert-v1-en

    embed-multilingual-v2.0

    SearXNG 本地部署与配置

    CherryStudio 支持通过 SearXNG 进行网络搜索,SearXNG 是一个可本地部署也可在服务器上部署的开源项目,所以与其他需要 API 提供商的配置方式略有不同。

    SearXNG 项目链接:SearXNG

    SearXNG 的优势

    • 开源免费,无需 API

    • 隐私性相对较高

    • 可高度定制化

    本地部署

    一、Docker 直接部署

    由于 SearXNG 不需要复杂的环境配置,可以不用 docker compose,只需要简单提供一个空闲端口即可部署,所以最快捷的方式可以使用 Docker 直接拉取镜像进行部署。

    1. 下载安装并配置

    安装后选择一个镜像存储路径:

    2. 搜索并拉取 SearXNG 镜像

    搜索栏输入 searxng :

    拉取镜像:

    3. 运行镜像

    拉取成功后来到 images 页面:

    选择拉取的镜像点击运行:

    打开设置项进行配置:

    以 8085 端口为例:

    运行成功后点击链接即可打开 SearXNG 的前端界面:

    出现这个页面说明部署成功:

    服务器部署

    鉴于 Windows 下安装 Docker 是一件较为麻烦的事情,用户可以将 SearXNG 部署在服务器上,也可借此共享给其他人使用。但是很遗憾,SearXNG 自身暂不支持鉴权,导致他人可以通过技术手段扫描到并滥用你部署的实例。

    为此,Cherry Studio 目前已支持配置 ,如果用户欲将自己部署的 SearXNG 暴露在公网环境下,请务必通过 Nginx 等反向代理软件配置 HTTP 基本认证。下面提供简要教程,需要你有基本的 Linux 运维知识。

    部署 SearXNG

    类似地,仍然使用 Docker 部署。假设你已经按照在服务器上安装好了最新版 Docker CE,以下提供一条龙命令,适用于 Debian 系统下全新安装:

    如果你需要修改本地监听端口、复用本地已有的 nginx,可以编辑 docker-compose.yaml 文件,参考如下:

    执行 docker compose up -d 启动。执行 docker compose logs -f searxng 可以看到日志。

    部署 Nginx 反向代理和 HTTP 基本认证

    如果你使用了一些服务器面板程序,例如宝塔面板或 1Panel,请参阅其文档添加网站并配置 nginx 反向代理,随后找到修改 nginx 配置文件的地方, 参考下面的示例进行修改:

    假设 Nginx 配置文件保存于 /etc/nginx/conf.d 下,我们将将密码文件保存在同目录下。

    执行命令(自行将 example_name、example_password 替换为你将要设定的用户名和密码):

    重启 Nginx(重载配置也可以)。

    这时可以打开一下网页,已经会提示你输入用户名和密码,请输入前面设定的用户名和密码查看能否成功进入 SearXNG 搜索页面,藉此检查配置是否正确。

    Cherry Studio 相关配置

    SearXNG 本地或在服务器部署成功后,接下来是 CherryStudio 的相关配置。

    来到网络搜索设置页面,选择 Searxng :

    直接输入本地部署的链接发现验证失败,此时不用担心:

    因为直接部署后默认并没有配置 json 返回类型,所以无法获取数据,需要修改配置文件。

    回到 Docker,来到 Files 标签页找到镜像中找到带标签的文件夹:

    展开后继续往下翻,会发现另一个带标签的文件夹:

    继续展开,找到 settings.yml 配置文件:

    点击打开文件编辑器:

    找到 78 行,可以看到类型只有一个 html

    添加 json 类型后保存,重新运行镜像

    重新回到 Cherry Studio 进行验证,验证成功:

    地址既可以填写本地: : 端口号 也可以填写 docker 地址: : 端口号

    如果用户遵循前面的示例在服务器上部署并正确配置了反向代理,已经开启了 json 返回类型。输入地址后进行验证,由于已给反向代理配置了 HTTP 基本认证,此时验证则应返回 401 错误码:

    在客户端配置 HTTP 基本认证,输入刚才设置的用户名与密码:

    进行验证,应当验证成功。

    其他配置

    此时 SearXNG 已具备默认联网搜索能力,如需定制搜索引擎需要自行进行配置

    需要注意的是此处首选项并不能影响大模型调用时的配置

    如需配置需要大模型调用的搜索引擎,需在配置文件中设置:

    配置语言参考:

    若内容太长直接修改不方便,可将其复制到本地 IDE 中,修改后粘贴到配置文件中即可。

    验证失败常见原因

    返回格式未添加 json 格式

    在配置文件中将返回格式加上 json:

    未正确配置搜索引擎

    Cherry Studio 会默认选取 categories 同时包含 web general 的引擎进行搜索,默认情况下会选中 google 等引擎,由于大陆无法直接访问 google 等网站导致失败。增加以下配置使得 searxng 强制使用 baidu 引擎,即可解决问题:

    访问速率过快

    searxng 的 limiter 配置阻碍了 API 访问,请尝试将其在设置中设为 false:

    docker
    HTTP 基本认证(RFC7617)
    官方教程
    http://localhost
    http://host.docker.internal
    sudo apt update
    sudo apt install git -y
    
    # 拉取官方仓库
    cd /opt
    git clone https://github.com/searxng/searxng-docker.git
    cd /opt/searxng-docker
    
    # 如果你的服务器带宽很小, 可以设置为 false
    export IMAGE_PROXY=true
    
    # 修改配置文件
    cat <<EOF > /opt/searxng-docker/searxng/settings.yml
    # see https://docs.searxng.org/admin/settings/settings.html#settings-use-default-settings
    use_default_settings: true
    server:
      # base_url is defined in the SEARXNG_BASE_URL environment variable, see .env and docker-compose.yml
      secret_key: $(openssl rand -hex 32)
      limiter: false  # can be disabled for a private instance
      image_proxy: $IMAGE_PROXY
    ui:
      static_use_hash: true
    redis:
      url: redis://redis:6379/0
    search:
      formats:
        - html
        - json
    EOF
    version: "3.7"
    
    services:
    # 如果不需要 Caddy 而复用本地已经有的 Nginx, 就把下面的去掉. 我们默认不需要 Caddy.
      caddy:
        container_name: caddy
        image: docker.io/library/caddy:2-alpine
        network_mode: host
        restart: unless-stopped
        volumes:
          - ./Caddyfile:/etc/caddy/Caddyfile:ro
          - caddy-data:/data:rw
          - caddy-config:/config:rw
        environment:
          - SEARXNG_HOSTNAME=${SEARXNG_HOSTNAME:-http://localhost}
          - SEARXNG_TLS=${LETSENCRYPT_EMAIL:-internal}
        cap_drop:
          - ALL
        cap_add:
          - NET_BIND_SERVICE
        logging:
          driver: "json-file"
          options:
            max-size: "1m"
            max-file: "1"
    # 如果不需要 Caddy 而复用本地已经有的 Nginx, 就把上面的去掉. 我们默认不需要 Caddy.
      redis:
        container_name: redis
        image: docker.io/valkey/valkey:8-alpine
        command: valkey-server --save 30 1 --loglevel warning
        restart: unless-stopped
        networks:
          - searxng
        volumes:
          - valkey-data2:/data
        cap_drop:
          - ALL
        cap_add:
          - SETGID
          - SETUID
          - DAC_OVERRIDE
        logging:
          driver: "json-file"
          options:
            max-size: "1m"
            max-file: "1"
    
      searxng:
        container_name: searxng
        image: docker.io/searxng/searxng:latest
        restart: unless-stopped
        networks:
          - searxng
        # 默认映射到宿主机 8080 端口, 假如你想监听 8000 就改成 "127.0.0.1:8000:8080"
        ports:
          - "127.0.0.1:8080:8080"
        volumes:
          - ./searxng:/etc/searxng:rw
        environment:
          - SEARXNG_BASE_URL=https://${SEARXNG_HOSTNAME:-localhost}/
          - UWSGI_WORKERS=${SEARXNG_UWSGI_WORKERS:-4}
          - UWSGI_THREADS=${SEARXNG_UWSGI_THREADS:-4}
        cap_drop:
          - ALL
        cap_add:
          - CHOWN
          - SETGID
          - SETUID
        logging:
          driver: "json-file"
          options:
            max-size: "1m"
            max-file: "1"
    
    networks:
      searxng:
    
    volumes:
    # 如果不需要 Caddy 而复用本地已经有的 Nginx, 就把下面的去掉
      caddy-data:
      caddy-config:
    # 如果不需要 Caddy 而复用本地已经有的 Nginx, 就把上面的去掉
      valkey-data2:
    server
    {
        listen 443 ssl;
    
        # 这行是你的主机名
        server_name search.example.com;
    
        # index index.html;
        # root /data/www/default;
    
        # 如果配置了 SSL 应该有这两行
        ssl_certificate    /path/to/your/cert/fullchain.pem;
        ssl_certificate_key    /path/to/your/cert/privkey.pem;
    
        # HSTS
        # add_header Strict-Transport-Security "max-age=31536000; includeSubDomains; preload";
    
        # 默认情况下通过面板配置反向代理, 默认的 location 块就是这样
        location / {
            # 只需要在 location 块添加下面两行, 其他保留原状就行.
            # 此处示例假设你的配置文件保存在 /etc/nginx/conf.d/ 目录下.
            # 如果是宝塔应该是保存在 /www 之类的目录下, 需要注意.
            auth_basic "Please enter your username and password";
            auth_basic_user_file /etc/nginx/conf.d/search.htpasswd;
    
            proxy_http_version 1.1;
            proxy_set_header Connection "";
            proxy_redirect off;
            proxy_set_header Host $host;
            proxy_set_header X-Forwarded-For $proxy_protocol_addr;
            proxy_pass http://127.0.0.1:8000;
            client_max_body_size 0;
        }
    
        # access_log  ...;
        # error_log  ...;
    }
    echo "example_name:$(openssl passwd -5 'example_password')" > /etc/nginx/conf.d/search.htpasswd
    use_default_settings:
      engines:
        keep_only:
          - baidu
    engines:
      - name: baidu
        engine: baidu 
        categories: 
          - web
          - general
        disabled: false

    Cherry Studio 开源许可协议

    Copyright (C) 2007 Free Software Foundation, Inc. https://fsf.org/ Everyone is permitted to copy and distribute verbatim copies of this license document, but changing it is not allowed.

    The GNU Affero General Public License is a free, copyleft license for software and other kinds of works, specifically designed to ensure cooperation with the community in the case of network server software.

    The licenses for most software and other practical works are designed to take away your freedom to share and change the works. By contrast, our General Public Licenses are intended to guarantee your freedom to share and change all versions of a program--to make sure it remains free software for all its users.

    When we speak of free software, we are referring to freedom, not price. Our General Public Licenses are designed to make sure that you have the freedom to distribute copies of free software (and charge for them if you wish), that you receive source code or can get it if you want it, that you can change the software or use pieces of it in new free programs, and that you know you can do these things.

    Developers that use our General Public Licenses protect your rights with two steps: (1) assert copyright on the software, and (2) offer you this License which gives you legal permission to copy, distribute and/or modify the software.

    A secondary benefit of defending all users' freedom is that improvements made in alternate versions of the program, if they receive widespread use, become available for other developers to incorporate. Many developers of free software are heartened and encouraged by the resulting cooperation. However, in the case of software used on network servers, this result may fail to come about. The GNU General Public License permits making a modified version and letting the public access it on a server without ever releasing its source code to the public.

    The GNU Affero General Public License is designed specifically to ensure that, in such cases, the modified source code becomes available to the community. It requires the operator of a network server to provide the source code of the modified version running there to the users of that server. Therefore, public use of a modified version, on a publicly accessible server, gives the public access to the source code of the modified version.

    An older license, called the Affero General Public License and published by Affero, was designed to accomplish similar goals. This is a different license, not a version of the Affero GPL, but Affero has released a new version of the Affero GPL which permits relicensing under this license.

    The precise terms and conditions for copying, distribution and modification follow.

    0. Definitions.

    "This License" refers to version 3 of the GNU Affero General Public License.

    "Copyright" also means copyright-like laws that apply to other kinds of works, such as semiconductor masks.

    "The Program" refers to any copyrightable work licensed under this License. Each licensee is addressed as "you". "Licensees" and "recipients" may be individuals or organizations.

    To "modify" a work means to copy from or adapt all or part of the work in a fashion requiring copyright permission, other than the making of an exact copy. The resulting work is called a "modified version" of the earlier work or a work "based on" the earlier work.

    A "covered work" means either the unmodified Program or a work based on the Program.

    To "propagate" a work means to do anything with it that, without permission, would make you directly or secondarily liable for infringement under applicable copyright law, except executing it on a computer or modifying a private copy. Propagation includes copying, distribution (with or without modification), making available to the public, and in some countries other activities as well.

    To "convey" a work means any kind of propagation that enables other parties to make or receive copies. Mere interaction with a user through a computer network, with no transfer of a copy, is not conveying.

    An interactive user interface displays "Appropriate Legal Notices" to the extent that it includes a convenient and prominently visible feature that (1) displays an appropriate copyright notice, and (2) tells the user that there is no warranty for the work (except to the extent that warranties are provided), that licensees may convey the work under this License, and how to view a copy of this License. If the interface presents a list of user commands or options, such as a menu, a prominent item in the list meets this criterion.

    1. Source Code.

    The "source code" for a work means the preferred form of the work for making modifications to it. "Object code" means any non-source form of a work.

    A "Standard Interface" means an interface that either is an official standard defined by a recognized standards body, or, in the case of interfaces specified for a particular programming language, one that is widely used among developers working in that language.

    The "System Libraries" of an executable work include anything, other than the work as a whole, that (a) is included in the normal form of packaging a Major Component, but which is not part of that Major Component, and (b) serves only to enable use of the work with that Major Component, or to implement a Standard Interface for which an implementation is available to the public in source code form. A "Major Component", in this context, means a major essential component (kernel, window system, and so on) of the specific operating system (if any) on which the executable work runs, or a compiler used to produce the work, or an object code interpreter used to run it.

    The "Corresponding Source" for a work in object code form means all the source code needed to generate, install, and (for an executable work) run the object code and to modify the work, including scripts to control those activities. However, it does not include the work's System Libraries, or general-purpose tools or generally available free programs which are used unmodified in performing those activities but which are not part of the work. For example, Corresponding Source includes interface definition files associated with source files for the work, and the source code for shared libraries and dynamically linked subprograms that the work is specifically designed to require, such as by intimate data communication or control flow between those subprograms and other parts of the work.

    The Corresponding Source need not include anything that users can regenerate automatically from other parts of the Corresponding Source.

    The Corresponding Source for a work in source code form is that same work.

    1. Basic Permissions.

    All rights granted under this License are granted for the term of copyright on the Program, and are irrevocable provided the stated conditions are met. This License explicitly affirms your unlimited permission to run the unmodified Program. The output from running a covered work is covered by this License only if the output, given its content, constitutes a covered work. This License acknowledges your rights of fair use or other equivalent, as provided by copyright law.

    You may make, run and propagate covered works that you do not convey, without conditions so long as your license otherwise remains in force. You may convey covered works to others for the sole purpose of having them make modifications exclusively for you, or provide you with facilities for running those works, provided that you comply with the terms of this License in conveying all material for which you do not control copyright. Those thus making or running the covered works for you must do so exclusively on your behalf, under your direction and control, on terms that prohibit them from making any copies of your copyrighted material outside their relationship with you.

    Conveying under any other circumstances is permitted solely under the conditions stated below. Sublicensing is not allowed; section 10 makes it unnecessary.

    1. Protecting Users' Legal Rights From Anti-Circumvention Law.

    No covered work shall be deemed part of an effective technological measure under any applicable law fulfilling obligations under article 11 of the WIPO copyright treaty adopted on 20 December 1996, or similar laws prohibiting or restricting circumvention of such measures.

    When you convey a covered work, you waive any legal power to forbid circumvention of technological measures to the extent such circumvention is effected by exercising rights under this License with respect to the covered work, and you disclaim any intention to limit operation or modification of the work as a means of enforcing, against the work's users, your or third parties' legal rights to forbid circumvention of technological measures.

    1. Conveying Verbatim Copies.

    You may convey verbatim copies of the Program's source code as you receive it, in any medium, provided that you conspicuously and appropriately publish on each copy an appropriate copyright notice; keep intact all notices stating that this License and any non-permissive terms added in accord with section 7 apply to the code; keep intact all notices of the absence of any warranty; and give all recipients a copy of this License along with the Program.

    You may charge any price or no price for each copy that you convey, and you may offer support or warranty protection for a fee.

    1. Conveying Modified Source Versions.

    You may convey a work based on the Program, or the modifications to produce it from the Program, in the form of source code under the terms of section 4, provided that you also meet all of these conditions:

    A compilation of a covered work with other separate and independent works, which are not by their nature extensions of the covered work, and which are not combined with it such as to form a larger program, in or on a volume of a storage or distribution medium, is called an "aggregate" if the compilation and its resulting copyright are not used to limit the access or legal rights of the compilation's users beyond what the individual works permit. Inclusion of a covered work in an aggregate does not cause this License to apply to the other parts of the aggregate.

    1. Conveying Non-Source Forms.

    You may convey a covered work in object code form under the terms of sections 4 and 5, provided that you also convey the machine-readable Corresponding Source under the terms of this License, in one of these ways:

    A separable portion of the object code, whose source code is excluded from the Corresponding Source as a System Library, need not be included in conveying the object code work.

    A "User Product" is either (1) a "consumer product", which means any tangible personal property which is normally used for personal, family, or household purposes, or (2) anything designed or sold for incorporation into a dwelling. In determining whether a product is a consumer product, doubtful cases shall be resolved in favor of coverage. For a particular product received by a particular user, "normally used" refers to a typical or common use of that class of product, regardless of the status of the particular user or of the way in which the particular user actually uses, or expects or is expected to use, the product. A product is a consumer product regardless of whether the product has substantial commercial, industrial or non-consumer uses, unless such uses represent the only significant mode of use of the product.

    "Installation Information" for a User Product means any methods, procedures, authorization keys, or other information required to install and execute modified versions of a covered work in that User Product from a modified version of its Corresponding Source. The information must suffice to ensure that the continued functioning of the modified object code is in no case prevented or interfered with solely because modification has been made.

    If you convey an object code work under this section in, or with, or specifically for use in, a User Product, and the conveying occurs as part of a transaction in which the right of possession and use of the User Product is transferred to the recipient in perpetuity or for a fixed term (regardless of how the transaction is characterized), the Corresponding Source conveyed under this section must be accompanied by the Installation Information. But this requirement does not apply if neither you nor any third party retains the ability to install modified object code on the User Product (for example, the work has been installed in ROM).

    The requirement to provide Installation Information does not include a requirement to continue to provide support service, warranty, or updates for a work that has been modified or installed by the recipient, or for the User Product in which it has been modified or installed. Access to a network may be denied when the modification itself materially and adversely affects the operation of the network or violates the rules and protocols for communication across the network.

    Corresponding Source conveyed, and Installation Information provided, in accord with this section must be in a format that is publicly documented (and with an implementation available to the public in source code form), and must require no special password or key for unpacking, reading or copying.

    1. Additional Terms.

    "Additional permissions" are terms that supplement the terms of this License by making exceptions from one or more of its conditions. Additional permissions that are applicable to the entire Program shall be treated as though they were included in this License, to the extent that they are valid under applicable law. If additional permissions apply only to part of the Program, that part may be used separately under those permissions, but the entire Program remains governed by this License without regard to the additional permissions.

    When you convey a copy of a covered work, you may at your option remove any additional permissions from that copy, or from any part of it. (Additional permissions may be written to require their own removal in certain cases when you modify the work.) You may place additional permissions on material, added by you to a covered work, for which you have or can give appropriate copyright permission.

    Notwithstanding any other provision of this License, for material you add to a covered work, you may (if authorized by the copyright holders of that material) supplement the terms of this License with terms:

    All other non-permissive additional terms are considered "further restrictions" within the meaning of section 10. If the Program as you received it, or any part of it, contains a notice stating that it is governed by this License along with a term that is a further restriction, you may remove that term. If a license document contains a further restriction but permits relicensing or conveying under this License, you may add to a covered work material governed by the terms of that license document, provided that the further restriction does not survive such relicensing or conveying.

    If you add terms to a covered work in accord with this section, you must place, in the relevant source files, a statement of the additional terms that apply to those files, or a notice indicating where to find the applicable terms.

    Additional terms, permissive or non-permissive, may be stated in the form of a separately written license, or stated as exceptions; the above requirements apply either way.

    1. Termination.

    You may not propagate or modify a covered work except as expressly provided under this License. Any attempt otherwise to propagate or modify it is void, and will automatically terminate your rights under this License (including any patent licenses granted under the third paragraph of section 11).

    However, if you cease all violation of this License, then your license from a particular copyright holder is reinstated (a) provisionally, unless and until the copyright holder explicitly and finally terminates your license, and (b) permanently, if the copyright holder fails to notify you of the violation by some reasonable means prior to 60 days after the cessation.

    Moreover, your license from a particular copyright holder is reinstated permanently if the copyright holder notifies you of the violation by some reasonable means, this is the first time you have received notice of violation of this License (for any work) from that copyright holder, and you cure the violation prior to 30 days after your receipt of the notice.

    Termination of your rights under this section does not terminate the licenses of parties who have received copies or rights from you under this License. If your rights have been terminated and not permanently reinstated, you do not qualify to receive new licenses for the same material under section 10.

    1. Acceptance Not Required for Having Copies.

    You are not required to accept this License in order to receive or run a copy of the Program. Ancillary propagation of a covered work occurring solely as a consequence of using peer-to-peer transmission to receive a copy likewise does not require acceptance. However, nothing other than this License grants you permission to propagate or modify any covered work. These actions infringe copyright if you do not accept this License. Therefore, by modifying or propagating a covered work, you indicate your acceptance of this License to do so.

    1. Automatic Licensing of Downstream Recipients.

    Each time you convey a covered work, the recipient automatically receives a license from the original licensors, to run, modify and propagate that work, subject to this License. You are not responsible for enforcing compliance by third parties with this License.

    An "entity transaction" is a transaction transferring control of an organization, or substantially all assets of one, or subdividing an organization, or merging organizations. If propagation of a covered work results from an entity transaction, each party to that transaction who receives a copy of the work also receives whatever licenses to the work the party's predecessor in interest had or could give under the previous paragraph, plus a right to possession of the Corresponding Source of the work from the predecessor in interest, if the predecessor has it or can get it with reasonable efforts.

    You may not impose any further restrictions on the exercise of the rights granted or affirmed under this License. For example, you may not impose a license fee, royalty, or other charge for exercise of rights granted under this License, and you may not initiate litigation (including a cross-claim or counterclaim in a lawsuit) alleging that any patent claim is infringed by making, using, selling, offering for sale, or importing the Program or any portion of it.

    1. Patents.

    A "contributor" is a copyright holder who authorizes use under this License of the Program or a work on which the Program is based. The work thus licensed is called the contributor's "contributor version".

    A contributor's "essential patent claims" are all patent claims owned or controlled by the contributor, whether already acquired or hereafter acquired, that would be infringed by some manner, permitted by this License, of making, using, or selling its contributor version, but do not include claims that would be infringed only as a consequence of further modification of the contributor version. For purposes of this definition, "control" includes the right to grant patent sublicenses in a manner consistent with the requirements of this License.

    Each contributor grants you a non-exclusive, worldwide, royalty-free patent license under the contributor's essential patent claims, to make, use, sell, offer for sale, import and otherwise run, modify and propagate the contents of its contributor version.

    In the following three paragraphs, a "patent license" is any express agreement or commitment, however denominated, not to enforce a patent (such as an express permission to practice a patent or covenant not to sue for patent infringement). To "grant" such a patent license to a party means to make such an agreement or commitment not to enforce a patent against the party.

    If you convey a covered work, knowingly relying on a patent license, and the Corresponding Source of the work is not available for anyone to copy, free of charge and under the terms of this License, through a publicly available network server or other readily accessible means, then you must either (1) cause the Corresponding Source to be so available, or (2) arrange to deprive yourself of the benefit of the patent license for this particular work, or (3) arrange, in a manner consistent with the requirements of this License, to extend the patent license to downstream recipients. "Knowingly relying" means you have actual knowledge that, but for the patent license, your conveying the covered work in a country, or your recipient's use of the covered work in a country, would infringe one or more identifiable patents in that country that you have reason to believe are valid.

    If, pursuant to or in connection with a single transaction or arrangement, you convey, or propagate by procuring conveyance of, a covered work, and grant a patent license to some of the parties receiving the covered work authorizing them to use, propagate, modify or convey a specific copy of the covered work, then the patent license you grant is automatically extended to all recipients of the covered work and works based on it.

    A patent license is "discriminatory" if it does not include within the scope of its coverage, prohibits the exercise of, or is conditioned on the non-exercise of one or more of the rights that are specifically granted under this License. You may not convey a covered work if you are a party to an arrangement with a third party that is in the business of distributing software, under which you make payment to the third party based on the extent of your activity of conveying the work, and under which the third party grants, to any of the parties who would receive the covered work from you, a discriminatory patent license (a) in connection with copies of the covered work conveyed by you (or copies made from those copies), or (b) primarily for and in connection with specific products or compilations that contain the covered work, unless you entered into that arrangement, or that patent license was granted, prior to 28 March 2007.

    Nothing in this License shall be construed as excluding or limiting any implied license or other defenses to infringement that may otherwise be available to you under applicable patent law.

    1. No Surrender of Others' Freedom.

    If conditions are imposed on you (whether by court order, agreement or otherwise) that contradict the conditions of this License, they do not excuse you from the conditions of this License. If you cannot convey a covered work so as to satisfy simultaneously your obligations under this License and any other pertinent obligations, then as a consequence you may not convey it at all. For example, if you agree to terms that obligate you to collect a royalty for further conveying from those to whom you convey the Program, the only way you could satisfy both those terms and this License would be to refrain entirely from conveying the Program.

    1. Remote Network Interaction; Use with the GNU General Public License.

    Notwithstanding any other provision of this License, if you modify the Program, your modified version must prominently offer all users interacting with it remotely through a computer network (if your version supports such interaction) an opportunity to receive the Corresponding Source of your version by providing access to the Corresponding Source from a network server at no charge, through some standard or customary means of facilitating copying of software. This Corresponding Source shall include the Corresponding Source for any work covered by version 3 of the GNU General Public License that is incorporated pursuant to the following paragraph.

    Notwithstanding any other provision of this License, you have permission to link or combine any covered work with a work licensed under version 3 of the GNU General Public License into a single combined work, and to convey the resulting work. The terms of this License will continue to apply to the part which is the covered work, but the work with which it is combined will remain governed by version 3 of the GNU General Public License.

    1. Revised Versions of this License.

    The Free Software Foundation may publish revised and/or new versions of the GNU Affero General Public License from time to time. Such new versions will be similar in spirit to the present version, but may differ in detail to address new problems or concerns.

    Each version is given a distinguishing version number. If the Program specifies that a certain numbered version of the GNU Affero General Public License "or any later version" applies to it, you have the option of following the terms and conditions either of that numbered version or of any later version published by the Free Software Foundation. If the Program does not specify a version number of the GNU Affero General Public License, you may choose any version ever published by the Free Software Foundation.

    If the Program specifies that a proxy can decide which future versions of the GNU Affero General Public License can be used, that proxy's public statement of acceptance of a version permanently authorizes you to choose that version for the Program.

    Later license versions may give you additional or different permissions. However, no additional obligations are imposed on any author or copyright holder as a result of your choosing to follow a later version.

    1. Disclaimer of Warranty.

    THERE IS NO WARRANTY FOR THE PROGRAM, TO THE EXTENT PERMITTED BY APPLICABLE LAW. EXCEPT WHEN OTHERWISE STATED IN WRITING THE COPYRIGHT HOLDERS AND/OR OTHER PARTIES PROVIDE THE PROGRAM "AS IS" WITHOUT WARRANTY OF ANY KIND, EITHER EXPRESSED OR IMPLIED, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE. THE ENTIRE RISK AS TO THE QUALITY AND PERFORMANCE OF THE PROGRAM IS WITH YOU. SHOULD THE PROGRAM PROVE DEFECTIVE, YOU ASSUME THE COST OF ALL NECESSARY SERVICING, REPAIR OR CORRECTION.

    1. Limitation of Liability.

    IN NO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED TO IN WRITING WILL ANY COPYRIGHT HOLDER, OR ANY OTHER PARTY WHO MODIFIES AND/OR CONVEYS THE PROGRAM AS PERMITTED ABOVE, BE LIABLE TO YOU FOR DAMAGES, INCLUDING ANY GENERAL, SPECIAL, INCIDENTAL OR CONSEQUENTIAL DAMAGES ARISING OUT OF THE USE OR INABILITY TO USE THE PROGRAM (INCLUDING BUT NOT LIMITED TO LOSS OF DATA OR DATA BEING RENDERED INACCURATE OR LOSSES SUSTAINED BY YOU OR THIRD PARTIES OR A FAILURE OF THE PROGRAM TO OPERATE WITH ANY OTHER PROGRAMS), EVEN IF SUCH HOLDER OR OTHER PARTY HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES.

    1. Interpretation of Sections 15 and 16.

    If the disclaimer of warranty and limitation of liability provided above cannot be given local legal effect according to their terms, reviewing courts shall apply local law that most closely approximates an absolute waiver of all civil liability in connection with the Program, unless a warranty or assumption of liability accompanies a copy of the Program in return for a fee.

    If you develop a new program, and you want it to be of the greatest possible use to the public, the best way to achieve this is to make it free software which everyone can redistribute and change under these terms.

    To do so, attach the following notices to the program. It is safest to attach them to the start of each source file to most effectively state the exclusion of warranty; and each file should have at least the "copyright" line and a pointer to where the full notice is found.

    Also add information on how to contact you by electronic and paper mail.

    If your software can interact with users remotely through a computer network, you should also make sure that it provides a way for users to get its source. For example, if your program is a web application, its interface could display a "Source" link that leads users to an archive of the code. There are many ways you could offer source, and different solutions will be better for different programs; see section 13 for the specific requirements.

    You should also get your employer (if you work as a programmer) or school, if any, to sign a "copyright disclaimer" for the program, if necessary. For more information on this, and how to apply and follow the GNU AGPL, see .

                    GNU AFFERO GENERAL PUBLIC LICENSE
                       Version 3, 19 November 2007
                            Preamble
    https://www.gnu.org/licenses/
                       TERMS AND CONDITIONS
    a) The work must carry prominent notices stating that you modified
    it, and giving a relevant date.
    
    b) The work must carry prominent notices stating that it is
    released under this License and any conditions added under section
    7.  This requirement modifies the requirement in section 4 to
    "keep intact all notices".
    
    c) You must license the entire work, as a whole, under this
    License to anyone who comes into possession of a copy.  This
    License will therefore apply, along with any applicable section 7
    additional terms, to the whole of the work, and all its parts,
    regardless of how they are packaged.  This License gives no
    permission to license the work in any other way, but it does not
    invalidate such permission if you have separately received it.
    
    d) If the work has interactive user interfaces, each must display
    Appropriate Legal Notices; however, if the Program has interactive
    interfaces that do not display Appropriate Legal Notices, your
    work need not make them do so.
    a) Convey the object code in, or embodied in, a physical product
    (including a physical distribution medium), accompanied by the
    Corresponding Source fixed on a durable physical medium
    customarily used for software interchange.
    
    b) Convey the object code in, or embodied in, a physical product
    (including a physical distribution medium), accompanied by a
    written offer, valid for at least three years and valid for as
    long as you offer spare parts or customer support for that product
    model, to give anyone who possesses the object code either (1) a
    copy of the Corresponding Source for all the software in the
    product that is covered by this License, on a durable physical
    medium customarily used for software interchange, for a price no
    more than your reasonable cost of physically performing this
    conveying of source, or (2) access to copy the
    Corresponding Source from a network server at no charge.
    
    c) Convey individual copies of the object code with a copy of the
    written offer to provide the Corresponding Source.  This
    alternative is allowed only occasionally and noncommercially, and
    only if you received the object code with such an offer, in accord
    with subsection 6b.
    
    d) Convey the object code by offering access from a designated
    place (gratis or for a charge), and offer equivalent access to the
    Corresponding Source in the same way through the same place at no
    further charge.  You need not require recipients to copy the
    Corresponding Source along with the object code.  If the place to
    copy the object code is a network server, the Corresponding Source
    may be on a different server (operated by you or a third party)
    that supports equivalent copying facilities, provided you maintain
    clear directions next to the object code saying where to find the
    Corresponding Source.  Regardless of what server hosts the
    Corresponding Source, you remain obligated to ensure that it is
    available for as long as needed to satisfy these requirements.
    
    e) Convey the object code using peer-to-peer transmission, provided
    you inform other peers where the object code and Corresponding
    Source of the work are being offered to the general public at no
    charge under subsection 6d.
    a) Disclaiming warranty or limiting liability differently from the
    terms of sections 15 and 16 of this License; or
    
    b) Requiring preservation of specified reasonable legal notices or
    author attributions in that material or in the Appropriate Legal
    Notices displayed by works containing it; or
    
    c) Prohibiting misrepresentation of the origin of that material, or
    requiring that modified versions of such material be marked in
    reasonable ways as different from the original version; or
    
    d) Limiting the use for publicity purposes of names of licensors or
    authors of the material; or
    
    e) Declining to grant rights under trademark law for use of some
    trade names, trademarks, or service marks; or
    
    f) Requiring indemnification of licensors and authors of that
    material by anyone who conveys the material (or modified versions of
    it) with contractual assumptions of liability to the recipient, for
    any liability that these contractual assumptions directly impose on
    those licensors and authors.
                     END OF TERMS AND CONDITIONS
    
            How to Apply These Terms to Your New Programs
    <one line to give the program's name and a brief idea of what it does.>
    Copyright (C) <year>  <name of author>
    
    This program is free software: you can redistribute it and/or modify
    it under the terms of the GNU Affero General Public License as published by
    the Free Software Foundation, either version 3 of the License, or
    (at your option) any later version.
    
    This program is distributed in the hope that it will be useful,
    but WITHOUT ANY WARRANTY; without even the implied warranty of
    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
    GNU Affero General Public License for more details.
    
    You should have received a copy of the GNU Affero General Public License
    along with this program.  If not, see <https://www.gnu.org/licenses/>.

    模型数据

    • 以下信息仅供参考,如有错误可联系纠正,部分模型的服务商不同其上下文大小和模型信息可能也会有所不同;

    • 在客户端输入数据时需要将“k”转换成实际数值(理论上1k=1024 tokens;1m=1024k tokens),如8k为8×1024=8192 tokens。建议在实际使用时×1000即可,防止报错,如8k为8×1000=8000,1m=1×1000000=1000000;

    • 最大输出为“-”的为未从官方查询到该模型明确的最大输出信息。

    模型名称
    最大输入
    最大输出
    函数调用
    模型能力
    服务商
    简介

    -

    不支持

    对话

    360AI_360gpt

    兼顾性能和效果的百亿级大模型,适合对性能/成本要求较高 的场景。

    360gpt-turbo-responsibility-8k

    8k

    -

    不支持

    对话

    360AI_360gpt

    兼顾性能和效果的百亿级大模型,适合对性能/成本要求较高 的场景。

    360gpt2-pro

    8k

    -

    不支持

    对话

    360AI_360gpt

    360智脑系列效果最好的主力千亿级大模型,广泛适用于各领域复杂任务场景。

    claude-3-5-sonnet-20240620

    200k

    16k

    不支持

    对话,识图

    Anthropic_claude

    于2024年6月20日发布的快照版本,Claude 3.5 Sonnet是一个平衡了性能和速度的模型,在保持高速度的同时提供顶级性能,支持多模态输入。

    claude-3-5-haiku-20241022

    200k

    16k

    不支持

    对话

    Anthropic_claude

    于2024年10月22日发布的快照版本,Claude 3.5 Haiku在各项技能上都有所提升,包括编码、工具使用和推理。作为Anthropic系列中速度最快的模型,它提供快速响应时间,适用于需要高互动性和低延迟的应用,如面向用户的聊天机器人和即时代码补全。它在数据提取和实时内容审核等专业任务中也表现出色,使其成为各行业广泛应用的多功能工具。它不支持图像输入。

    claude-3-5-sonnet-20241022

    200k

    8K

    不支持

    对话,识图

    Anthropic_claude

    于2024年10月22日发布的快照版本,Claude 3.5 Sonnet 提供了超越 Opus 的能力和比 Sonnet 更快的速度,同时保持与 Sonnet 相同的价格。Sonnet 特别擅长编程、数据科学、视觉处理、代理任务。

    claude-3-5-sonnet-latest

    200K

    8k

    不支持

    对话,识图

    Anthropic_claude

    动态指向最新的Claude 3.5 Sonnet版本,Claude 3.5 Sonnet提供了超越 Opus 的能力和比 Sonnet 更快的速度,同时保持与 Sonnet 相同的价格。Sonnet 特别擅长编程、数据科学、视觉处理、代理任务,该模型指向最新的版本。

    claude-3-haiku-20240307

    200k

    4k

    不支持

    对话,识图

    Anthropic_claude

    Claude 3 Haiku 是 Anthropic 的最快且最紧凑的模型,旨在实现近乎即时的响应。它具有快速且准确的定向性能。

    claude-3-opus-20240229

    200k

    4k

    不支持

    对话,识图

    Anthropic_claude

    Claude 3 Opus 是 Anthropic 用于处理高度复杂任务的最强大模型。它在性能、智能、流畅性和理解力方面表现卓越。

    claude-3-sonnet-20240229

    200k

    8k

    不支持

    对话,识图

    Anthropic_claude

    于2024年2月29日发布的快照版本,Sonnet 特别擅长于: - 编码:能够自主编写、编辑和运行代码,并具备推理和故障排除能力 - 数据科学:增强人类的数据科学专业知识;在使用多种工具获取洞察时,能够处理非结构化数据 - 视觉处理:擅长解读图表、图形和图像,准确转录文本以获取超越文本本身的洞察 - 代理任务:工具使用出色,非常适合处理代理任务(即需要与其他系统交互的复杂多步骤问题解决任务)

    google/gemma-2-27b-it

    8k

    -

    不支持

    对话

    Google_gamma

    Gemma 是由 Google 开发的轻量级、最先进的开放模型系列,采用与 Gemini 模型相同的研究和技术构建。这些模型是仅解码器的大型语言模型,支持英语,提供预训练和指令微调两种变体的开放权重。Gemma 模型适用于各种文本生成任务,包括问答、摘要和推理。

    google/gemma-2-9b-it

    8k

    -

    不支持

    对话

    Google_gamma

    Gemma 是 Google 开发的轻量级、最先进的开放模型系列之一。它是一个仅解码器的大型语言模型,支持英语,提供开放权重、预训练变体和指令微调变体。Gemma 模型适用于各种文本生成任务,包括问答、摘要和推理。该 9B 模型是通过 8 万亿个 tokens 训练而成。

    gemini-1.5-pro

    2m

    8k

    不支持

    对话

    Google_gemini

    Gemini 1.5 Pro 的最新稳定版本。作为一个强大的多模态模型,它可以处理长达6 万行代码或 2,000 页文本。特别适合需要复杂推理的任务。

    gemini-1.0-pro-001

    33k

    8k

    不支持

    对话

    Google_gemini

    这是 Gemini 1.0 Pro 的稳定版本。作为一个 NLP 模型,它专门处理多轮文本和代码聊天以及代码生成等任务。该模型将于 2025 年 2 月 15 日停用,建议迁移到 1.5 系列模型。

    gemini-1.0-pro-002

    32k

    8k

    不支持

    对话

    Google_gemini

    这是 Gemini 1.0 Pro 的稳定版本。作为一个 NLP 模型,它专门处理多轮文本和代码聊天以及代码生成等任务。该模型将于 2025 年 2 月 15 日停用,建议迁移到 1.5 系列模型。

    gemini-1.0-pro-latest

    33k

    8k

    不支持

    对话,已废弃或即将废弃

    Google_gemini

    这是 Gemini 1.0 Pro 的最新版本。作为一个 NLP 模型,它专门处理多轮文本和代码聊天以及代码生成等任务。该模型将于 2025 年 2 月 15 日停用,建议迁移到 1.5 系列模型。

    gemini-1.0-pro-vision-001

    16k

    2k

    不支持

    对话

    Google_gemini

    这是 Gemini 1.0 Pro 的视觉版本。该模型将于 2025 年 2 月 15 日停用,建议迁移到 1.5 系列模型。

    gemini-1.0-pro-vision-latest

    16k

    2k

    不支持

    识图

    Google_gemini

    这是 Gemini 1.0 Pro 的视觉最新版本。该模型将于 2025 年 2 月 15 日停用,建议迁移到 1.5 系列模型。

    gemini-1.5-flash

    1m

    8k

    不支持

    对话,识图

    Google_gemini

    这是 Gemini 1.5 Flash 的最新稳定版本。作为一个平衡的多模态模型,它可以处理音频、图片、视频和文本输入。

    gemini-1.5-flash-001

    1m

    8k

    不支持

    对话,识图

    Google_gemini

    这是 Gemini 1.5 Flash 的稳定版本。它们提供与 gemini-1.5-flash 相同的基本功能,但版本固定,适合生产环境使用。

    gemini-1.5-flash-002

    1m

    8k

    不支持

    对话,识图

    Google_gemini

    这是 Gemini 1.5 Flash 的稳定版本。它们提供与 gemini-1.5-flash 相同的基本功能,但版本固定,适合生产环境使用。

    gemini-1.5-flash-8b

    1m

    8k

    不支持

    对话,识图

    Google_gemini

    Gemini 1.5 Flash-8B是谷歌最新推出的一款多模态人工智能模型,专为高效处理大规模任务而设计。该模型具有80亿个参数,能够支持文本、图像、音频和视频的输入,适用于多种应用场景,如聊天、转录和翻译等。与其他Gemini模型相比,Flash-8B在速度和成本效益上进行了优化,特别适合对成本敏感的用户。其速率限制提高了一倍,使得开发者能够更高效地进行大规模任务处理。此外,Flash-8B还采用了“知识蒸馏”技术,从更大的模型中提炼出关键知识,确保在保持核心能力的同时实现轻量化和高效化

    gemini-1.5-flash-exp-0827

    1m

    8k

    不支持

    对话,识图

    Google_gemini

    这是 Gemini 1.5 Flash 的实验版本,会定期更新以包含最新的改进。适合探索性测试和原型开发,不建议用于生产环境。

    gemini-1.5-flash-latest

    1m

    8k

    不支持

    对话,识图

    Google_gemini

    这是 Gemini 1.5 Flash 的尖端版本,会定期更新以包含最新的改进。适合探索性测试和原型开发,不建议用于生产环境。

    gemini-1.5-pro-001

    2m

    8k

    不支持

    对话,识图

    Google_gemini

    这是 Gemini 1.5 Pro 的稳定版本,提供固定的模型行为和性能特征。适合需要稳定性的生产环境使用。

    gemini-1.5-pro-002

    2m

    8k

    不支持

    对话,识图

    Google_gemini

    这是 Gemini 1.5 Pro 的稳定版本,提供固定的模型行为和性能特征。适合需要稳定性的生产环境使用。

    gemini-1.5-pro-exp-0801

    2m

    8k

    不支持

    对话,识图

    Google_gemini

    Gemini 1.5 Pro 的试验版本。作为一个强大的多模态模型,它可以处理长达6 万行代码或 2,000 页文本。特别适合需要复杂推理的任务。

    gemini-1.5-pro-exp-0827

    2m

    8k

    不支持

    对话,识图

    Google_gemini

    Gemini 1.5 Pro 的试验版本。作为一个强大的多模态模型,它可以处理长达6 万行代码或 2,000 页文本。特别适合需要复杂推理的任务。

    gemini-1.5-pro-latest

    2m

    8k

    不支持

    对话,识图

    Google_gemini

    这是 Gemini 1.5 Pro 的最新版本,动态指向最新的快照版本

    gemini-2.0-flash

    1m

    8k

    不支持

    对话,识图

    Google_gemini

    Gemini 2.0 Flash是谷歌最新推出的模型,相比1.5版本具有更快的首次生成速度(TTFT),同时保持了与Gemini Pro 1.5相当的质量水平;该模型在多模态理解、代码能力、复杂指令执行和函数调用等方面都有显著提升,从而能够提供更流畅和强大的智能体验。

    gemini-2.0-flash-exp

    100k

    8k

    支持

    对话,识图

    Google_gemini

    Gemini 2.0 Flash 引入多模态实时API、改进速度和性能、提升质量、增强代理能力,并增加图像生成和语音转换功能。

    gemini-2.0-flash-lite-preview-02-05

    1M

    8k

    不支持

    对话,识图

    Google_gemini

    Gemini 2.0 Flash-Lite是谷歌最新发布的高性价比AI模型,在保持与1.5 Flash相同速度的同时质量更好;支持100万tokens的上下文窗口,能够处理图像、音频和代码等多模态任务;作为目前谷歌成本效益最高的模型,采用简化的单一定价策略,特别适合需要控制成本的大规模应用场景。

    gemini-2.0-flash-thinking-exp

    40k

    8k

    不支持

    对话,推理

    Google_gemini

    gemini-2.0-flash-thinking-exp是一个实验模型,它能生成在作出反应时所经历的 "思考过程"。因此,与基本的Gemini 2.0 Flash 模型相比,"思考模式 "的反应具有更强的推理能力。

    gemini-2.0-flash-thinking-exp-01-21

    1m

    64k

    不支持

    对话,推理

    Google_gemini

    Gemini 2.0 Flash Thinking EXP-01-21 是谷歌最新推出的人工智能模型,专注于提升推理能力和用户交互体验。该模型具备强大的推理能力,尤其在数学和编程领域表现突出,并支持高达100万token的上下文窗口,适用于复杂任务和深入分析场景。其独特之处在于能够生成思考过程,提高AI思维的可理解性,同时支持原生代码执行,增强了交互的灵活性和实用性。通过优化算法,模型减少了逻辑矛盾,进一步提升了回答的准确性和一致性。

    gemini-2.0-flash-thinking-exp-1219

    40k

    8k

    不支持

    对话,推理,识图

    Google_gemini

    gemini-2.0-flash-thinking-exp-1219是一个实验模型,它能生成在作出反应时所经历的 "思考过程"。因此,与基本的Gemini 2.0 Flash 模型相比,"思考模式 "的反应具有更强的推理能力。

    gemini-2.0-pro-exp-01-28

    2m

    64k

    不支持

    对话,识图

    Google_gemini

    预加模型,还未上线

    gemini-2.0-pro-exp-02-05

    2m

    8k

    不支持

    对话,识图

    Google_gemini

    Gemini 2.0 Pro Exp 02-05是谷歌2024年2月发布的最新实验性模型,在世界知识、代码生成和长文本理解方面表现突出;该模型支持200万tokens的超长上下文窗口,能处理2小时视频、22小时音频、6万多行代码和140万多单词的内容;作为Gemini 2.0系列的一部分,该模型采用了新的Flash Thinking训练策略,性能得到显著提升,在多个LLM评分榜单中名列前茅,展现了强大的综合能力。

    gemini-exp-1114

    8k

    4k

    不支持

    对话,识图

    Google_gemini

    这是一个实验性模型,于 2024 年 11 月 14 日发布,主要关注质量改进。

    gemini-exp-1121

    8k

    4k

    不支持

    对话,识图,代码

    Google_gemini

    这是一个实验性模型,于 2024 年 11 月 21 日发布,改进了编码、推理和视觉能力。

    gemini-exp-1206

    8k

    4k

    不支持

    对话,识图

    Google_gemini

    这是一个实验性模型,于 2024 年 12 月 6 日发布,改进了编码、推理和视觉能力。

    gemini-exp-latest

    8k

    4k

    不支持

    对话,识图

    Google_gemini

    这是一个实验性模型,动态指向最新版本

    gemini-pro

    33k

    8k

    不支持

    对话

    Google_gemini

    同gemini-1.0-pro,是gemini-1.0-pro的别名

    gemini-pro-vision

    16k

    2k

    不支持

    对话,识图

    Google_gemini

    这是 Gemini 1.0 Pro 的视觉版本。该模型将于 2025 年 2 月 15 日停用,建议迁移到 1.5 系列模型。

    grok-2

    128k

    -

    不支持

    对话

    Grok_grok

    X.ai于2024.12.12发布的新版本grok模型.

    grok-2-1212

    128k

    -

    不支持

    对话

    Grok_grok

    X.ai于2024.12.12发布的新版本grok模型.

    grok-2-latest

    128k

    -

    不支持

    对话

    Grok_grok

    X.ai于2024.12.12发布的新版本grok模型.

    grok-2-vision-1212

    32k

    -

    不支持

    对话,识图

    Grok_grok

    X.ai于2024.12.12发布的grok视觉版本模型.

    grok-beta

    100k

    -

    不支持

    对话

    Grok_grok

    性能与 Grok 2 相当,但效率、速度和功能有所提高。

    grok-vision-beta

    8k

    -

    不支持

    对话,识图

    Grok_grok

    最新的图像理解模型可以处理各种视觉信息,包括文档、图表、截图和照片。

    internlm/internlm2_5-20b-chat

    32k

    -

    支持

    对话

    internlm

    InternLM2.5-20B-Chat 是一个开源的大规模对话模型,基于 InternLM2 架构开发。该模型拥有 200 亿参数,在数学推理方面表现出色,超越了同量级的 Llama3 和 Gemma2-27B 模型。InternLM2.5-20B-Chat 在工具调用能力方面有显著提升,支持从上百个网页收集信息进行分析推理,并具备更强的指令理解、工具选择和结果反思能力。

    meta-llama/Llama-3.2-11B-Vision-Instruct

    8k

    -

    不支持

    对话,识图

    Meta_llama

    目前Llama系列模型不仅能够处理文本数据,还能够处理图像数据;Llama3.2的部分模型加入了视觉理解的功能,该模型支持同时输入文本和图像数据,对图像进行理解并输出文本信息。

    meta-llama/Llama-3.2-3B-Instruct

    32k

    -

    不支持

    对话

    Meta_llama

    Meta Llama 3.2多语言大语言模型(LLM),其中1B、3B是可在边缘和移动设备上的运行的轻量级模型,本模型为3B版本。

    meta-llama/Llama-3.2-90B-Vision-Instruct

    8k

    -

    不支持

    对话,识图

    Meta_llama

    目前Llama系列模型不仅能够处理文本数据,还能够处理图像数据;Llama3.2的部分模型加入了视觉理解的功能,该模型支持同时输入文本和图像数据,对图像进行理解并输出文本信息。

    meta-llama/Llama-3.3-70B-Instruct

    131k

    -

    不支持

    对话

    Meta_llama

    Meta 的最新款 70B LLM,性能与 llama 3.1 405B 相当。

    meta-llama/Meta-Llama-3.1-405B-Instruct

    32k

    -

    不支持

    对话

    Meta_llama

    Meta Llama 3.1多语言大语言模型(LLM)集合是8B、70B和405B尺寸的预训练和指令微调生成模型的集合,本模型为405B版本。Llama 3.1指令微调文本模型(8B、70B、405B)针对多语言对话进行了优化,在常见的行业基准上优于许多可用的开源和闭源聊天模型。

    meta-llama/Meta-Llama-3.1-70B-Instruct

    32k

    -

    不支持

    对话

    Meta_llama

    Meta Llama 3.1 是由 Meta 开发的多语言大型语言模型家族,包括 8B、70B 和 405B 三种参数规模的预训练和指令微调变体。该 70B 指令微调模型针对多语言对话场景进行了优化,在多项行业基准测试中表现优异。模型训练使用了超过 15 万亿个 tokens 的公开数据,并采用了监督微调和人类反馈强化学习等技术来提升模型的有用性和安全性。

    meta-llama/Meta-Llama-3.1-8B-Instruct

    32k

    -

    不支持

    对话

    Meta_llama

    Meta Llama 3.1多语言大语言模型(LLM)集合是8B、70B和405B尺寸的预训练和指令微调生成模型的集合,本模型为8B版本。Llama 3.1指令微调文本模型(8B、70B、405B)针对多语言对话进行了优化,在常见的行业基准上优于许多可用的开源和闭源聊天模型。

    abab5.5-chat

    16k

    -

    支持

    对话

    Minimax_abab

    中文人设对话场景

    abab5.5s-chat

    8k

    -

    支持

    对话

    Minimax_abab

    中文人设对话场景

    abab6.5g-chat

    8k

    -

    支持

    对话

    Minimax_abab

    英文等多语种人设对话场景

    abab6.5s-chat

    245k

    -

    支持

    对话

    Minimax_abab

    通用场景

    abab6.5t-chat

    8k

    -

    支持

    对话

    Minimax_abab

    中文人设对话场景

    chatgpt-4o-latest

    128k

    16k

    不支持

    对话,识图

    OpenAI

    chatgpt-4o-latest 模型版本持续指向 ChatGPT 中使用的 GPT-4o 版本,并在有重大变化时最快更新。

    gpt-4o-2024-11-20

    128k

    16k

    支持

    对话

    OpenAI

    2024 年 11 月 20 日的最新 gpt-4o 快照版本。

    gpt-4o-audio-preview

    128k

    16k

    不支持

    对话

    OpenAI

    OpenAI的实时语音对话模型

    gpt-4o-audio-preview-2024-10-01

    128k

    16k

    支持

    对话

    OpenAI

    OpenAI的实时语音对话模型

    o1

    128k

    32k

    不支持

    对话,推理,识图

    OpenAI

    OpenAI针对复杂任务的新推理模型,该任务需要广泛的常识。该模型具有 200k 上下文,目前全球最强模型,支持图片识别

    o1-mini-2024-09-12

    128k

    64k

    不支持

    对话,推理

    OpenAI

    o1-mini的固定快照版本,比 o1-preview 更小、更快,成本低80%,在代码生成和小上下文操作方面表现良好。

    o1-preview-2024-09-12

    128k

    32k

    不支持

    对话,推理

    OpenAI

    o1-preview的固定快照版本

    gpt-3.5-turbo

    16k

    4k

    支持

    对话

    OpenAI_gpt-3

    基于 GPT-3.5: GPT-3.5 Turbo 是建立在 GPT-3.5 模型基础上的改进版本,由 OpenAI 开发。 性能目标: 设计目的是通过优化模型结构和算法,提高模型的推理速度、处理效率和资源利用率。 提升的推理速度: 相对于 GPT-3.5,GPT-3.5 Turbo 在相同硬件条件下通常能够提供更快的推理速度,这对于需要大规模文本处理的应用特别有益。 更高的吞吐量: 在处理大量请求或数据时,GPT-3.5 Turbo 可以实现更高的并发处理能力,从而提升整体的系统吞吐量。 优化的资源消耗: 在保持性能的同时,可能降低了对硬件资源(如内存和计算资源)的需求,这有助于降低运行成本和提高系统的可扩展性。 广泛的自然语言处理任务: GPT-3.5 Turbo 适用于多种自然语言处理任务,包括但不限于文本生成、语义理解、对话系统、机器翻译等。 开发者工具和API支持: 提供了便于开发者集成和使用的 API 接口,支持快速开发和部署应用程序。

    gpt-3.5-turbo-0125

    16k

    4k

    支持

    对话

    OpenAI_gpt-3

    更新后的 GPT 3.5 Turbo,响应请求格式的准确性更高,并修复了一个导致非英语语言函数调用文本编码问题的错误。返回最多 4,096 个输出令牌。

    gpt-3.5-turbo-0613

    16k

    4k

    支持

    对话

    OpenAI_gpt-3

    更新后的 GPT 3.5 Turbo固定快照版本。目前已弃用

    gpt-3.5-turbo-1106

    16k

    4k

    支持

    对话

    OpenAI_gpt-3

    具有改进的指令跟随、JSON 模式、可重现输出、并行函数调用等。返回最多 4,096 个输出令牌。

    gpt-3.5-turbo-16k

    16k

    4k

    支持

    对话,已废弃或即将废弃

    OpenAI_gpt-3

    (已弃用)

    gpt-3.5-turbo-16k-0613

    16k

    4k

    支持

    对话,已废弃或即将废弃

    OpenAI_gpt-3

    gpt-3.5-turbo 于 2023年6月13日的快照。(已弃用)

    gpt-3.5-turbo-instruct

    4k

    4k

    支持

    对话

    OpenAI_gpt-3

    与 GPT-3 时代模型类似的能力。与遗留 Completions 端点兼容,不适用于 Chat Completions。

    gpt-3.5o

    16k

    4k

    不支持

    对话

    OpenAI_gpt-3

    同gpt-4o-lite

    gpt-4

    8k

    8k

    支持

    对话

    OpenAI_gpt-4

    目前指向 gpt-4-0613。

    gpt-4-0125-preview

    128k

    4k

    支持

    对话

    OpenAI_gpt-4

    最新的 GPT-4 模型,旨在减少“懒惰”情况,即模型未完成任务。返回最多 4,096 个输出令牌。

    gpt-4-0314

    8k

    8k

    支持

    对话

    OpenAI_gpt-4

    gpt-4 2023年3月14日的快照

    gpt-4-0613

    8k

    8k

    支持

    对话

    OpenAI_gpt-4

    gpt-4 2023年6月13日的快照,增强了函数调用支持。

    gpt-4-1106-preview

    128k

    4k

    支持

    对话

    OpenAI_gpt-4

    GPT-4 Turbo 模型,具有改进的指令跟随、JSON 模式、可再现输出、函数调用等。返回最多 4,096 个输出令牌。这是预览模型。

    gpt-4-32k

    32k

    4k

    支持

    对话

    OpenAI_gpt-4

    gpt-4-32k将于2025-06-06弃用。

    gpt-4-32k-0613

    32k

    4k

    支持

    对话,已废弃或即将废弃

    OpenAI_gpt-4

    将于2025-06-06弃用。

    gpt-4-turbo

    128k

    4k

    支持

    对话

    OpenAI_gpt-4

    最新版的 GPT-4 Turbo 模型新增了视觉功能,支持通过 JSON 模式和函数调用来处理视觉请求。该模型当前版本为 gpt-4-turbo-2024-04-09。

    gpt-4-turbo-2024-04-09

    128k

    4k

    支持

    对话

    OpenAI_gpt-4

    带视觉功能的 GPT-4 Turbo 模型。现在,视觉请求能够通过 JSON 模式和函数调用来实现。gpt-4-turbo 目前版本就是这一版。

    gpt-4-turbo-preview

    128k

    4k

    支持

    对话,识图

    OpenAI_gpt-4

    目前指向 gpt-4-0125-preview。

    gpt-4o

    128k

    16k

    支持

    对话,识图

    OpenAI_gpt-4

    OpenAI的高智能旗舰模型,适用于复杂的多步骤任务。GPT-4o 比 GPT-4 Turbo 更便宜、更快速。

    gpt-4o-2024-05-13

    128k

    4k

    支持

    对话,识图

    OpenAI_gpt-4

    2024 年 5 月 13 日的原始 gpt-4o 快照。

    gpt-4o-2024-08-06

    128k

    16k

    支持

    对话,识图

    OpenAI_gpt-4

    支持结构化输出的第一个快照。gpt-4o目前指向此版本。

    gpt-4o-mini

    128k

    16k

    支持

    对话,识图

    OpenAI_gpt-4

    OpenAI经济实惠的gpt-4o版本,适用于快速、轻量级任务。GPT-4o mini 比 GPT-3.5 Turbo 更便宜,功能更强大。目前指向 gpt-4o-mini-2024-07-18。

    gpt-4o-mini-2024-07-18

    128k

    16k

    支持

    对话,识图

    OpenAI_gpt-4

    gpt-4o-mini的固定快照版本。

    gpt-4o-realtime-preview

    128k

    4k

    支持

    对话,实时语音

    OpenAI_gpt-4

    OpenAI的实时语音对话模型

    gpt-4o-realtime-preview-2024-10-01

    128k

    4k

    支持

    对话,实时语音,识图

    OpenAI_gpt-4

    gpt-4o-realtime-preview当前指向这个快照版本

    o1-mini

    128k

    64k

    不支持

    对话,推理

    OpenAI_o1

    比 o1-preview 更小、更快,成本低80%,在代码生成和小上下文操作方面表现良好。

    o1-preview

    128k

    32k

    不支持

    对话,推理

    OpenAI_o1

    o1-preview 是针对需要广泛常识的复杂任务的新推理模型。该模型具有 128K 上下文和 2023 年 10 月的知识截止点。专注于高级推理和解决复杂问题,包括数学和科学任务。非常适合需要深度上下文理解和自主工作流程的应用。

    o3-mini

    200k

    100k

    支持

    对话,推理

    OpenAI_o1

    o3-mini是OpenAI最新的小型推理模型,在保持与o1-mini相同成本和延迟的情况下提供高智能,专注于科学、数学和编码任务,支持结构化输出、函数调用、批量API等开发者功能,且知识库截止到2023年10月,展现了在推理能力和经济性方面的显著平衡。

    o3-mini-2025-01-31

    200k

    100k

    支持

    对话,推理

    OpenAI_o1

    o3-mini当前指向该版本,o3-mini-2025-01-31是OpenAI最新的小型推理模型,在保持与o1-mini相同成本和延迟的情况下提供高智能,专注于科学、数学和编码任务,支持结构化输出、函数调用、批量API等开发者功能,且知识库截止到2023年10月,展现了在推理能力和经济性方面的显著平衡。

    Baichuan2-Turbo

    32k

    -

    不支持

    对话

    百川_baichuan

    相对业界同等尺寸模型,模型效果在保持行业领先的同时,实现了价格的大幅度降低

    Baichuan3-Turbo

    32k

    -

    不支持

    对话

    百川_baichuan

    相对业界同等尺寸模型,模型效果在保持行业领先的同时,实现了价格的大幅度降低

    Baichuan3-Turbo-128k

    128k

    -

    不支持

    对话

    百川_baichuan

    百川模型通过128k超长上下文窗口处理复杂文本,针对金融等行业进行专门优化,同时在保持高性能的前提下大幅降低成本,为企业提供高性价比的解决方案。

    Baichuan4

    32k

    -

    不支持

    对话

    百川_baichuan

    百川的MoE模型通过专门优化、降低成本和提升性能,在企业应用中提供了高效性价比的解决方案。

    Baichuan4-Air

    32k

    -

    不支持

    对话

    百川_baichuan

    百川的MoE模型通过专门优化、降低成本和提升性能,在企业应用中提供了高效性价比的解决方案。

    Baichuan4-Turbo

    32k

    -

    不支持

    对话

    百川_baichuan

    基于海量优质的场景数据训练,企业高频场景可用性相对Baichuan4提升10%+,信息摘要提升50%,多语言提升31%,内容生成提升13% 针对推理性能专项优化,首token响应速度相对Baichuan4提升51%,token流速提升73%

    ERNIE-3.5-128K

    128k

    4k

    支持

    对话

    百度_ernie

    百度自研的旗舰级大规模⼤语⾔模型,覆盖海量中英文语料,具有强大的通用能力,可满足绝大部分对话问答、创作生成、插件应用场景要求;支持自动对接百度搜索插件,保障问答信息时效。

    ERNIE-3.5-8K

    8k

    1k

    支持

    对话

    百度_ernie

    百度自研的旗舰级大规模⼤语⾔模型,覆盖海量中英文语料,具有强大的通用能力,可满足绝大部分对话问答、创作生成、插件应用场景要求;支持自动对接百度搜索插件,保障问答信息时效。

    ERNIE-3.5-8K-Preview

    8k

    1k

    支持

    对话

    百度_ernie

    百度自研的旗舰级大规模⼤语⾔模型,覆盖海量中英文语料,具有强大的通用能力,可满足绝大部分对话问答、创作生成、插件应用场景要求;支持自动对接百度搜索插件,保障问答信息时效。

    ERNIE-4.0-8K

    8k

    1k

    支持

    对话

    百度_ernie

    百度自研的旗舰级超大规模⼤语⾔模型,相较ERNIE 3.5实现了模型能力全面升级,广泛适用于各领域复杂任务场景;支持自动对接百度搜索插件,保障问答信息时效。

    ERNIE-4.0-8K-Latest

    8k

    2k

    支持

    对话

    百度_ernie

    ERNIE-4.0-8K-Latest相比ERNIE-4.0-8K能力全面提升,其中角色扮演能力和指令遵循能力提升较大;相较ERNIE 3.5实现了模型能力全面升级,广泛适用于各领域复杂任务场景;支持自动对接百度搜索插件,保障问答信息时效,支持5K tokens输入+2K tokens输出。本文介绍了ERNIE-4.0-8K-Latest接口调用方法。

    ERNIE-4.0-8K-Preview

    8k

    1k

    支持

    对话

    百度_ernie

    百度自研的旗舰级超大规模⼤语⾔模型,相较ERNIE 3.5实现了模型能力全面升级,广泛适用于各领域复杂任务场景;支持自动对接百度搜索插件,保障问答信息时效。

    ERNIE-4.0-Turbo-128K

    128k

    4k

    支持

    对话

    百度_ernie

    ERNIE 4.0 Turbo是百度自研的旗舰级超大规模⼤语⾔模型,综合效果表现出色,广泛适用于各领域复杂任务场景;支持自动对接百度搜索插件,保障问答信息时效。相较于ERNIE 4.0在性能表现上更优秀。ERNIE-4.0-Turbo-128K是模型的一个版本,长文档整体效果优于ERNIE-3.5-128K。本文介绍了相关API及使用。

    ERNIE-4.0-Turbo-8K

    8k

    2k

    支持

    对话

    百度_ernie

    ERNIE 4.0 Turbo是百度自研的旗舰级超大规模⼤语⾔模型,综合效果表现出色,广泛适用于各领域复杂任务场景;支持自动对接百度搜索插件,保障问答信息时效。相较于ERNIE 4.0在性能表现上更优秀。ERNIE-4.0-Turbo-8K是模型的一个版本。本文介绍了相关API及使用。

    ERNIE-4.0-Turbo-8K-Latest

    8k

    2k

    支持

    对话

    百度_ernie

    ERNIE 4.0 Turbo是百度自研的旗舰级超大规模⼤语⾔模型,综合效果表现出色,广泛适用于各领域复杂任务场景;支持自动对接百度搜索插件,保障问答信息时效。相较于ERNIE 4.0在性能表现上更优秀。ERNIE-4.0-Turbo-8K是模型的一个版本。

    ERNIE-4.0-Turbo-8K-Preview

    8k

    2k

    支持

    对话

    百度_ernie

    ERNIE 4.0 Turbo是百度自研的旗舰级超大规模⼤语⾔模型,综合效果表现出色,广泛适用于各领域复杂任务场景;支持自动对接百度搜索插件,保障问答信息时效。ERNIE-4.0-Turbo-8K-Preview是模型的一个版本

    ERNIE-Character-8K

    8k

    1k

    不支持

    对话

    百度_ernie

    百度自研的垂直场景大语言模型,适合游戏NPC、客服对话、对话角色扮演等应用场景,人设风格更为鲜明、一致,指令遵循能力更强,推理性能更优

    ERNIE-Lite-8K

    8k

    4k

    不支持

    对话

    百度_ernie

    百度自研的轻量级大语言模型,兼顾优异的模型效果与推理性能,适合低算力AI加速卡推理使用。

    ERNIE-Lite-Pro-128K

    128k

    2k

    支持

    对话

    百度_ernie

    百度自研的轻量级大语言模型,效果比ERNIE Lite更优,兼顾优异的模型效果与推理性能,适合低算力AI加速卡推理使用。ERNIE-Lite-Pro-128K支持128K上下文长度,效果比ERNIE-Lite-128K更优。

    ERNIE-Novel-8K

    8k

    2k

    不支持

    对话

    百度_ernie

    ERNIE-Novel-8K是百度自研通用大语言模型,在小说续写能力上有明显优势,也可用在短剧、电影等场景。

    ERNIE-Speed-128K

    128k

    4k

    不支持

    对话

    百度_ernie

    百度2024年最新发布的自研高性能大语言模型,通用能力优异,适合作为基座模型进行精调,更好地处理特定场景问题,同时具备极佳的推理性能。

    ERNIE-Speed-8K

    8k

    1k

    不支持

    对话

    百度_ernie

    百度2024年最新发布的自研高性能大语言模型,通用能力优异,适合作为基座模型进行精调,更好地处理特定场景问题,同时具备极佳的推理性能。

    ERNIE-Speed-Pro-128K

    128k

    4k

    不支持

    对话

    百度_ernie

    ERNIE Speed Pro是百度2024年最新发布的自研高性能大语言模型,通用能力优异,适合作为基座模型进行精调,更好地处理特定场景问题,同时具备极佳的推理性能。ERNIE-Speed-Pro-128K是2024年8月30日发布的初始版本,支持128K上下文长度,效果比ERNIE-Speed-128K更优。

    ERNIE-Tiny-8K

    8k

    1k

    不支持

    对话

    百度_ernie

    百度自研的超高性能大语言模型,部署与精调成本在文心系列模型中最低。

    Doubao-1.5-lite-32k

    32k

    12k

    支持

    对话

    豆包_doubao

    Doubao1.5-lite在轻量版语言模型中也处于全球一流水平,在综合(MMLU_pro)、推理(BBH)、数学(MATH)、专业知识(GPQA)权威测评指标持平或超越GPT-4omini,Cluade 3.5 Haiku。

    Doubao-1.5-pro-256k

    256k

    12k

    支持

    对话

    豆包_doubao

    Doubao-1.5-Pro-256k,基于Doubao-1.5-Pro全面升级版。相比Doubao-pro-256k/241115,整体效果大幅提升10%。输出长度大幅提升,支持最大12k tokens。

    Doubao-1.5-pro-32k

    32k

    12k

    支持

    对话

    豆包_doubao

    Doubao-1.5-pro,全新一代主力模型,性能全面升级,在知识、代码、推理、等方面表现卓越。在多项公开测评基准上达到全球领先水平,特别在知识、代码、推理、中文权威测评基准上获得最佳成绩,综合得分优于GPT4o、Claude 3.5 Sonnet等业界一流模型。

    Doubao-1.5-vision-pro

    32k

    12k

    不支持

    对话,识图

    豆包_doubao

    Doubao-1.5-vision-pro,全新升级的多模态大模型,支持任意分辨率和极端长宽比图像识别,增强视觉推理、文档识别、细节信息理解和指令遵循能力。

    Doubao-embedding

    4k

    -

    支持

    嵌入

    豆包_doubao

    Doubao-embedding 是一款由字节跳动研发的语义向量化模型,主要面向向量检索的使用场景,支持中、英双语,最长 4K 上下文长度。目前提供以下版本: text-240715:最高维度向量 2560,支持 512、1024、2048 降维使用。中英文 Retrieval效果较 text-240515 版本有较大提升,推荐使用该版本。 text-240515:最高维度向量 2048,支持 512、1024 降维使用。

    Doubao-embedding-large

    4k

    -

    不支持

    嵌入

    豆包_doubao

    中英文Retrieval效果较Doubao-embedding/text-240715版本显著提升

    Doubao-embedding-vision

    8k

    -

    不支持

    嵌入

    豆包_doubao

    Doubao-embedding-vision,全新升级图文多模态向量化模型,主要面向图文多模向量检索的使用场景,支持图片输入及中、英双语文本输入,最长 8K 上下文长度。

    Doubao-lite-128k

    128k

    4k

    支持

    对话

    豆包_doubao

    Doubao-lite 拥有极致的响应速度,更好的性价比,为客户不同场景提供更灵活的选择。支持128k上下文窗口的推理和精调。

    Doubao-lite-32k

    32k

    4k

    支持

    对话

    豆包_doubao

    Doubao-lite拥有极致的响应速度,更好的性价比,为客户不同场景提供更灵活的选择。支持32k上下文窗口的推理和精调。

    Doubao-lite-4k

    4k

    4k

    支持

    对话

    豆包_doubao

    Doubao-lite拥有极致的响应速度,更好的性价比,为客户不同场景提供更灵活的选择。支持4k上下文窗口的推理和精调。

    Doubao-pro-128k

    128k

    4k

    支持

    对话

    豆包_doubao

    效果最好的主力模型,适合处理复杂任务,在参考问答、总结摘要、创作、文本分类、角色扮演等场景都有很好的效果。支持128k上下文窗口的推理和精调。

    Doubao-pro-32k

    32k

    4k

    支持

    对话

    豆包_doubao

    效果最好的主力模型,适合处理复杂任务,在参考问答、总结摘要、创作、文本分类、角色扮演等场景都有很好的效果。支持32k上下文窗口的推理和精调。

    Doubao-pro-4k

    4k

    4k

    支持

    对话

    豆包_doubao

    效果最好的主力模型,适合处理复杂任务,在参考问答、总结摘要、创作、文本分类、角色扮演等场景都有很好的效果。支持4k上下文窗口的推理和精调。

    step-1-128k

    128k

    -

    支持

    对话

    阶跃星辰

    step-1-128k模型是一个超大规模的语言模型,能够处理高达128,000个token的输入。这种能力使其在生成长篇内容和进行复杂推理时具有显著优势,适合用于创作小说、剧本等需要丰富上下文的应用。

    step-1-256k

    256k

    -

    支持

    对话

    阶跃星辰

    step-1-256k模型是目前最大的语言模型之一,支持256,000个token的输入。它的设计旨在满足极端复杂的任务需求,如大规模数据分析和多轮对话系统,能够在多种领域中提供高质量的输出。

    step-1-32k

    32k

    -

    支持

    对话

    阶跃星辰

    step-1-32k模型扩展了上下文窗口,支持32,000个token的输入。这使得它在处理长篇文章和复杂对话时表现出色,适合需要深入理解和分析的任务,如法律文书和学术研究。

    step-1-8k

    8k

    -

    支持

    对话

    阶跃星辰

    step-1-8k模型是一个高效的语言模型,专为处理较短文本而设计。它能够在8,000个token的上下文中进行推理,适合需要快速响应的应用场景,如聊天机器人和实时翻译。

    step-1-flash

    8k

    -

    支持

    对话

    阶跃星辰

    step-1-flash模型专注于快速响应和高效处理,适合实时应用。它的设计使得在有限的计算资源下仍能提供优质的语言理解和生成能力,适合移动设备和边缘计算场景。

    step-1.5v-mini

    32k

    -

    支持

    对话,识图

    阶跃星辰

    step-1.5v-mini模型是一个轻量级版本,旨在在资源受限的环境中运行。尽管体积小,但它仍然保留了良好的语言处理能力,适合嵌入式系统和低功耗设备。

    step-1v-32k

    32k

    -

    支持

    对话,识图

    阶跃星辰

    step-1v-32k模型支持32,000个token的输入,适合需要更长上下文的应用。它在处理复杂对话和长文本时表现出色,适合客户服务和内容创作等领域。

    step-1v-8k

    8k

    -

    支持

    对话,识图

    阶跃星辰

    step-1v-8k模型是一个优化的版本,专为8,000个token的输入设计,适合快速生成和处理短文本。它在速度和准确性之间取得了良好的平衡,适合实时应用。

    step-2-16k

    16k

    -

    支持

    对话

    阶跃星辰

    step-2-16k模型是一个中等规模的语言模型,支持16,000个token的输入。它在多种任务中表现良好,适合教育、培训和知识管理等应用场景。

    yi-lightning

    16k

    -

    支持

    对话

    零一万物_yi

    最新高性能模型,保证高质量输出同时,推理速度大幅提升。 适用于实时交互,高复杂推理场景,极高的性价比能够为商业产品提供极好的产品支撑。

    yi-vision-v2

    16K

    -

    支持

    对话,识图

    零一万物_yi

    适合需要分析和解释图像、图表的场景,如图片问答、图表理解、OCR、视觉推理、教育、研究报告理解或多语种文档阅读等。

    qwen-14b-chat

    8k

    2k

    支持

    对话

    千问_qwen

    阿里云官方的通义千问-开源版。

    qwen-72b-chat

    32k

    2k

    支持

    对话

    千问_qwen

    阿里云官方的通义千问-开源版。

    qwen-7b-chat

    7.5k

    1.5k

    支持

    对话

    千问_qwen

    阿里云官方的通义千问-开源版。

    qwen-coder-plus

    128k

    8k

    支持

    对话,代码

    千问_qwen

    Qwen-Coder-Plus是Qwen系列中的一款编程专用模型,旨在提升代码生成和理解能力。该模型通过大规模的编程数据训练,能够处理多种编程语言,支持代码补全、错误检测和代码重构等功能。其设计目标是为开发者提供更高效的编程辅助,提升开发效率。

    qwen-coder-plus-latest

    128k

    8k

    支持

    对话,代码

    千问_qwen

    Qwen-Coder-Plus-Latest是Qwen-Coder-Plus的最新版本,包含了最新的算法优化和数据集更新。该模型在性能上有显著提升,能够更准确地理解上下文,生成更符合开发者需求的代码。它还引入了更多的编程语言支持,增强了多语言编程的能力。

    qwen-coder-turbo

    128k

    8k

    支持

    对话,代码

    千问_qwen

    通义千问系列代码及编程模型是专门用于编程和代码生成的语言模型,推理速度快,成本低。该版本始终指向最新稳定版快照

    qwen-coder-turbo-latest

    128k

    8k

    支持

    对话,代码

    千问_qwen

    通义千问系列代码及编程模型是专门用于编程和代码生成的语言模型,推理速度快,成本低。该版本始终指向最新版快照

    qwen-long

    10m

    6k

    支持

    对话

    千问_qwen

    Qwen-Long是在通义千问针对超长上下文处理场景的大语言模型,支持中文、英文等不同语言输入,支持最长1000万tokens(约1500万字或1.5万页文档)的超长上下文对话。配合同步上线的文档服务,可支持word、pdf、markdown、epub、mobi等多种文档格式的解析和对话。 说明:通过HTTP直接提交请求,支持1M tokens长度,超过此长度建议通过文件方式提交。

    qwen-math-plus

    4k

    3k

    支持

    对话

    千问_qwen

    Qwen-Math-Plus是专注于数学问题解决的模型,旨在提供高效的数学推理和计算能力。该模型通过大量的数学题库进行训练,能够处理复杂的数学表达式和问题,支持从基础算术到高等数学的多种计算需求。其应用场景包括教育、科研和工程等领域。

    qwen-math-plus-latest

    4k

    3k

    支持

    对话

    千问_qwen

    Qwen-Math-Plus-Latest是Qwen-Math-Plus的最新版本,集成了最新的数学推理技术和算法改进。该模型在处理复杂数学问题时表现更为出色,能够提供更准确的解答和推理过程。它还扩展了对数学符号和公式的理解能力,适用于更广泛的数学应用场景。

    qwen-math-turbo

    4k

    3k

    支持

    对话

    千问_qwen

    Qwen-Math-Turbo是一个高性能的数学模型,专为快速计算和实时推理而设计。该模型优化了计算速度,能够在极短的时间内处理大量数学问题,适合需要快速反馈的应用场景,如在线教育和实时数据分析。其高效的算法使得用户能够在复杂计算中获得即时结果。

    qwen-math-turbo-latest

    4k

    3k

    支持

    对话

    千问_qwen

    Qwen-Math-Turbo-Latest是Qwen-Math-Turbo的最新版本,进一步提升了计算效率和准确性。该模型在算法上进行了多项优化,能够处理更复杂的数学问题,并在实时推理中保持高效性。它适合用于需要快速响应的数学应用,如金融分析和科学计算。

    qwen-max

    32k

    8k

    支持

    对话

    千问_qwen

    通义千问2.5系列千亿级别超大规模语言模型,支持中文、英文等不同语言输入。随着模型的升级,qwen-max将滚动更新升级。

    qwen-max-latest

    32k

    8k

    支持

    对话

    千问_qwen

    通义千问系列效果最好的模型,本模型是动态更新版本,模型更新不会提前通知,适合复杂、多步骤的任务,模型中英文综合能力显著提升,模型人类偏好显著提升,模型推理能力和复杂指令理解能力显著增强,困难任务上的表现更优,数学、代码能力显著提升,提升对Table、JSON等结构化数据的理解和生成能力。

    qwen-plus

    128k

    8k

    支持

    对话

    千问_qwen

    通义千问系列能力均衡的模型,推理效果和速度介于通义千问-Max和通义千问-Turbo之间,适合中等复杂任务。模型中英文综合能力显著提升,模型人类偏好显著提升,模型推理能力和复杂指令理解能力显著增强,困难任务上的表现更优,数学、代码能力显著提升。

    qwen-plus-latest

    128k

    8k

    支持

    对话

    千问_qwen

    Qwen-Plus是通义千问系列中的增强版视觉语言模型,旨在提升细节识别能力和文字识别能力。该模型支持超百万像素分辨率和任意长宽比规格的图像,能够在多种视觉语言任务中表现出色,适合需要高精度图像理解的应用场景。

    qwen-turbo

    128k

    8k

    支持

    对话

    千问_qwen

    通义千问系列速度最快、成本很低的模型,适合简单任务。模型中英文综合能力显著提升,模型人类偏好显著提升,模型推理能力和复杂指令理解能力显著增强,困难任务上的表现更优,数学、代码能力显著提升。

    qwen-turbo-latest

    1m

    8k

    支持

    对话

    千问_qwen

    Qwen-Turbo是为简单任务设计的高效模型,强调速度和成本效益。它在处理基本的视觉语言任务时表现出色,适合对响应时间有严格要求的应用,如实时图像识别和简单的问答系统。

    qwen-vl-max

    32k

    2k

    支持

    对话

    千问_qwen

    通义千问VL-Max(qwen-vl-max),即通义千问超大规模视觉语言模型。相比增强版,再次提升视觉推理能力和指令遵循能力,提供更高的视觉感知和认知水平。在更多复杂任务上提供最佳的性能。

    qwen-vl-max-latest

    32k

    2k

    支持

    对话,识图

    千问_qwen

    Qwen-VL-Max是Qwen-VL系列中的最高级版本,专为解决复杂的多模态任务而设计。它结合了先进的视觉和语言处理技术,能够理解和分析高分辨率图像,推理能力极强,适合需要深度理解和复杂推理的应用场景。

    qwen-vl-ocr

    34k

    4k

    支持

    对话,识图

    千问_qwen

    只支持ocr,不支持对话。

    qwen-vl-ocr-latest

    34k

    4k

    支持

    对话,识图

    千问_qwen

    只支持ocr,不支持对话。

    qwen-vl-plus

    8k

    2k

    支持

    对话,识图

    千问_qwen

    通义千问VL-Plus(qwen-vl-plus),即通义千问大规模视觉语言模型增强版。大幅提升细节识别能力和文字识别能力,支持超百万像素分辨率和任意长宽比规格的图像。在广泛的视觉任务上提供卓越的性能。

    qwen-vl-plus-latest

    32k

    2k

    支持

    对话,识图

    千问_qwen

    Qwen-VL-Plus-Latest是Qwen-VL-Plus的最新版本,增强了模型的多模态理解能力。它在图像和文本的结合处理上表现出色,适合需要高效处理多种输入格式的应用,如智能客服和内容生成。

    Qwen/Qwen2-1.5B-Instruct

    32k

    6k

    不支持

    对话

    千问_qwen

    Qwen2-1.5B-Instruct 是 Qwen2 系列中的指令微调大语言模型,参数规模为 1.5B。该模型基于 Transformer 架构,采用了 SwiGLU 激活函数、注意力 QKV 偏置和组查询注意力等技术。它在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中表现出色,超越了大多数开源模型。

    Qwen/Qwen2-72B-Instruct

    128k

    6k

    不支持

    对话

    千问_qwen

    Qwen2-72B-Instruct 是 Qwen2 系列中的指令微调大语言模型,参数规模为 72B。该模型基于 Transformer 架构,采用了 SwiGLU 激活函数、注意力 QKV 偏置和组查询注意力等技术。它能够处理大规模输入。该模型在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中表现出色,超越了大多数开源模型

    Qwen/Qwen2-7B-Instruct

    128k

    6k

    不支持

    对话

    千问_qwen

    Qwen2-7B-Instruct 是 Qwen2 系列中的指令微调大语言模型,参数规模为 7B。该模型基于 Transformer 架构,采用了 SwiGLU 激活函数、注意力 QKV 偏置和组查询注意力等技术。它能够处理大规模输入。该模型在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中表现出色,超越了大多数开源模型

    Qwen/Qwen2-VL-72B-Instruct

    32k

    2k

    不支持

    对话

    千问_qwen

    Qwen2-VL 是 Qwen-VL 模型的最新迭代版本,在视觉理解基准测试中达到了最先进的性能,包括 MathVista、DocVQA、RealWorldQA 和 MTVQA 等。Qwen2-VL 能够理解超过 20 分钟的视频,用于高质量的基于视频的问答、对话和内容创作。它还具备复杂推理和决策能力,可以与移动设备、机器人等集成,基于视觉环境和文本指令进行自动操作。

    Qwen/Qwen2-VL-7B-Instruct

    32k

    -

    不支持

    对话

    千问_qwen

    Qwen2-VL-7B-Instruct 是 Qwen-VL 模型的最新迭代版本,在视觉理解基准测试中达到了最先进的性能,包括 MathVista、DocVQA、RealWorldQA 和 MTVQA 等。Qwen2-VL 能够用于高质量的基于视频的问答、对话和内容创作,还具备复杂推理和决策能力,可以与移动设备、机器人等集成,基于视觉环境和文本指令进行自动操作。

    Qwen/Qwen2.5-72B-Instruct

    128k

    8k

    不支持

    对话

    千问_qwen

    Qwen2.5-72B-Instruct 是阿里云发布的最新大语言模型系列之一。该 72B 模型在编码和数学等领域具有显著改进的能力。它支持长达 128K tokens 的输入,可以生成超过 8K tokens 的长文本。

    Qwen/Qwen2.5-72B-Instruct-128K

    128k

    8k

    不支持

    对话

    千问_qwen

    Qwen2.5-72B-Instruct 是阿里云发布的最新大语言模型系列之一。该 72B 模型在编码和数学等领域具有显著改进的能力。它支持长达 128K tokens 的输入,可以生成超过 8K tokens 的长文本。

    Qwen/Qwen2.5-7B-Instruct

    128k

    8k

    不支持

    对话

    千问_qwen

    Qwen2.5-7B-Instruct 是阿里云发布的最新大语言模型系列之一。该 7B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升

    Qwen/Qwen2.5-Coder-32B-Instruct

    128k

    8k

    不支持

    对话,代码

    千问_qwen

    Qwen2.5-32B-Instruct 是阿里云发布的最新大语言模型系列之一。该 32B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升

    Qwen/Qwen2.5-Coder-7B-Instruct

    128k

    8k

    不支持

    对话

    千问_qwen

    Qwen2.5-7B-Instruct 是阿里云发布的最新大语言模型系列之一。该 7B 模型在编码和数学等领域具有显著改进的能力。该模型还提供了多语言支持,覆盖超过 29 种语言,包括中文、英文等。模型在指令跟随、理解结构化数据以及生成结构化输出(尤其是 JSON)方面都有显著提升

    Qwen/QwQ-32B-Preview

    32k

    16k

    不支持

    对话,推理

    千问_qwen

    QwQ-32B-Preview 是由 Qwen 团队开发的实验性研究模型,旨在提升人工智能的推理能力。作为预览版本,它展示了出色的分析能力,但也存在一些重要的限制: 1. 语言混合和代码切换:模型可能会混合使用语言或在语言之间意外切换,影响响应的清晰度。 2. 递归推理循环:模型可能会进入循环推理模式,导致冗长的回答而没有明确的结论。 3. 安全和伦理考量:模型需要加强安全措施以确保可靠和安全的性能,用户在使用时应谨慎。 4. 性能和基准限制:模型在数学和编程方面表现出色,但在常识推理和细微语言理解等其他领域仍有改进空间。

    qwen1.5-110b-chat

    32k

    8k

    不支持

    对话

    千问_qwen

    -

    qwen1.5-14b-chat

    8k

    2k

    不支持

    对话

    千问_qwen

    -

    qwen1.5-32b-chat

    32k

    2k

    不支持

    对话

    千问_qwen

    -

    qwen1.5-72b-chat

    32k

    2k

    不支持

    对话

    千问_qwen

    -

    qwen1.5-7b-chat

    8k

    2k

    不支持

    对话

    千问_qwen

    -

    qwen2-57b-a14b-instruct

    65k

    6k

    不支持

    对话

    千问_qwen

    -

    Qwen2-72B-Instruct

    -

    -

    不支持

    对话

    千问_qwen

    -

    qwen2-7b-instruct

    128k

    6k

    不支持

    对话

    千问_qwen

    -

    qwen2-math-72b-instruct

    4k

    3k

    不支持

    对话

    千问_qwen

    -

    qwen2-math-7b-instruct

    4k

    3k

    不支持

    对话

    千问_qwen

    -

    qwen2.5-14b-instruct

    128k

    8k

    不支持

    对话

    千问_qwen

    -

    qwen2.5-32b-instruct

    128k

    8k

    不支持

    对话

    千问_qwen

    -

    qwen2.5-72b-instruct

    128k

    8k

    不支持

    对话

    千问_qwen

    -

    qwen2.5-7b-instruct

    128k

    8k

    不支持

    对话

    千问_qwen

    -

    qwen2.5-coder-14b-instruct

    128k

    8k

    不支持

    对话,代码

    千问_qwen

    -

    qwen2.5-coder-32b-instruct

    128k

    8k

    不支持

    对话,代码

    千问_qwen

    -

    qwen2.5-coder-7b-instruct

    128k

    8k

    不支持

    对话,代码

    千问_qwen

    -

    qwen2.5-math-72b-instruct

    4k

    3k

    不支持

    对话

    千问_qwen

    -

    qwen2.5-math-7b-instruct

    4k

    3k

    不支持

    对话

    千问_qwen

    -

    deepseek-ai/DeepSeek-R1

    64k

    -

    不支持

    对话,推理

    深度求索_deepseek

    DeepSeek-R1模型是一款基于纯强化学习的开源推理模型,其在数学、代码和自然语言推理等任务上表现出色,性能可与OpenAI的o1模型相媲美,且在多个基准测试中取得了优异的成绩。

    deepseek-ai/DeepSeek-V2-Chat

    128k

    -

    不支持

    对话

    深度求索_deepseek

    DeepSeek-V2 是一个强大、经济高效的混合专家(MoE)语言模型。它在 8.1 万亿个 token 的高质量语料库上进行了预训练,并通过监督微调(SFT)和强化学习(RL)进一步提升了模型能力。与 DeepSeek 67B 相比, DeepSeek-V2 在性能更强的同时,节省了 42.5% 的训练成本,减少了 93.3% 的 KV 缓存,并将最大生成吞吐量提高到了 5.76 倍。

    deepseek-ai/DeepSeek-V2.5

    32k

    -

    支持

    对话

    深度求索_deepseek

    DeepSeek-V2.5 是 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct 的升级版本,集成了两个先前版本的通用和编码能力。该模型在多个方面进行了优化,包括写作和指令跟随能力,更好地与人类偏好保持一致。

    deepseek-ai/DeepSeek-V3

    128k

    4k

    不支持

    对话

    深度求索_deepseek

    deepseek开源版本,相对官方版上下文更长,无敏感词拒答等问题。

    deepseek-chat

    64k

    8k

    支持

    对话

    深度求索_deepseek

    236B 参数量,64K 上下文(API),中文综合能力(AlignBench)位列开源榜首,与 GPT-4-Turbo,文心 4.0 等闭源模型在评测中处于同一梯队

    deepseek-coder

    64k

    8k

    支持

    对话,代码

    深度求索_deepseek

    236B 参数量,64K 上下文(API),中文综合能力(AlignBench)位列开源榜首,与 GPT-4-Turbo,文心 4.0 等闭源模型在评测中处于同一梯队

    deepseek-reasoner

    64k

    8k

    支持

    对话,推理

    深度求索_deepseek

    DeepSeek-Reasoner(DeepSeek-R1)是DeepSeek最新推出的推理模型,旨在通过强化学习训练来提升推理能力。该模型的推理过程包含大量的反思和验证,能够处理复杂的逻辑推理任务,其思维链长度可达数万字。DeepSeek-R1在数学、代码及其他复杂问题的解答上表现出色,已被广泛应用于多种场景,显示出其强大的推理能力和灵活性。与其他模型相比,DeepSeek-R1在推理性能上接近顶尖的闭源模型,展现了开源模型在推理领域的潜力和竞争力。

    hunyuan-code

    4k

    4k

    不支持

    对话,代码

    腾讯_hunyuan

    混元最新代码生成模型,经过 200B 高质量代码数据增训基座模型,迭代半年高质量 SFT 数据训练,上下文长窗口长度增大到 8K,五大语言代码生成自动评测指标上位居前列;五大语言10项考量各方面综合代码任务人工高质量评测上,性能处于第一梯队。

    hunyuan-functioncall

    28k

    4k

    支持

    对话

    腾讯_hunyuan

    混元最新 MOE 架构 FunctionCall 模型,经过高质量的 FunctionCall 数据训练,上下文窗口达 32K,在多个维度的评测指标上处于领先。

    hunyuan-large

    28k

    4k

    不支持

    对话

    腾讯_hunyuan

    Hunyuan-large 模型总参数量约 389B,激活参数量约 52B,是当前业界参数规模最大、效果最好的 Transformer 架构的开源 MoE 模型。

    hunyuan-large-longcontext

    128k

    6k

    不支持

    对话

    腾讯_hunyuan

    擅长处理长文任务如文档摘要和文档问答等,同时也具备处理通用文本生成任务的能力。在长文本的分析和生成上表现优异,能有效应对复杂和详尽的长文内容处理需求。

    hunyuan-lite

    250k

    6k

    不支持

    对话

    腾讯_hunyuan

    升级为 MOE 结构,上下文窗口为 256k ,在 NLP,代码,数学,行业等多项评测集上领先众多开源模型。

    hunyuan-pro

    28k

    4k

    支持

    对话

    腾讯_hunyuan

    万亿级参数规模 MOE-32K 长文模型。在各种 benchmark 上达到绝对领先的水平,复杂指令和推理,具备复杂数学能力,支持 functioncall,在多语言翻译、金融法律医疗等领域应用重点优化。

    hunyuan-role

    28k

    4k

    不支持

    对话

    腾讯_hunyuan

    混元最新版角色扮演模型,混元官方精调训练推出的角色扮演模型,基于混元模型结合角色扮演场景数据集进行增训,在角色扮演场景具有更好的基础效果。

    hunyuan-standard

    30k

    2k

    不支持

    对话

    腾讯_hunyuan

    采用更优的路由策略,同时缓解了负载均衡和专家趋同的问题。 MOE-32K 性价比相对更高,在平衡效果、价格的同时,可对实现对长文本输入的处理。

    hunyuan-standard-256K

    250k

    6k

    不支持

    对话

    腾讯_hunyuan

    采用更优的路由策略,同时缓解了负载均衡和专家趋同的问题。长文方面,大海捞针指标达到99.9%。 MOE-256K 在长度和效果上进一步突破,极大的扩展了可输入长度。

    hunyuan-translation-lite

    4k

    4k

    不支持

    对话

    腾讯_hunyuan

    混元翻译模型支持自然语言对话式翻译;支持中文和英语、日语、法语、葡萄牙语、西班牙语、土耳其语、俄语、阿拉伯语、韩语、意大利语、德语、越南语、马来语、印尼语15种语言互译。

    hunyuan-turbo

    28k

    4k

    支持

    对话

    腾讯_hunyuan

    Hunyuan-turbo 模型默认版本,采用全新的混合专家模型(MoE)结构,相比hunyuan-pro推理效率更快,效果表现更强。

    hunyuan-turbo-latest

    28k

    4k

    支持

    对话

    腾讯_hunyuan

    Hunyuan-turbo 模型动态更新版本,是混元模型系列效果最好的版本,与C端(腾讯元宝)保持一致。

    hunyuan-turbo-vision

    8k

    2k

    支持

    识图,对话

    腾讯_hunyuan

    混元新一代视觉语言旗舰大模型,采用全新的混合专家模型(MoE)结构,在图文理解相关的基础识别、内容创作、知识问答、分析推理等能力上相比前一代模型全面提升。最大输入6k,最大输出2k

    hunyuan-vision

    8k

    2k

    支持

    对话,识图

    腾讯_hunyuan

    混元最新多模态模型,支持图片+文本输入生成文本内容。 图片基础识别:对图片中主体、元素、场景等进行识别 图片内容创作:对图片进行概述、创作广告文案、朋友圈、诗词等 图片多轮对话:输出单张图片进行多轮交互问答 图片分析推理:对图片中逻辑关系、数学题、代码、图表进行统计分析 图片知识问答:对图片包含的知识点进行问答,例如历史事件、电影海报 图片 OCR:对自然生活场景、非自然场景的图片识别文字。

    SparkDesk-Lite

    4k

    -

    不支持

    对话

    星火_SparkDesk

    支持在线联网搜索功能,响应快速、便捷,适用于低算力推理与模型精调等定制化场景

    SparkDesk-Max

    128k

    -

    支持

    对话

    星火_SparkDesk

    基于最新版星火大模型引擎4.0 Turbo 量化而来,支持联网搜索、天气、日期等多个内置插件,核心能力全面升级,各场景应用效果普遍提升,支持System角色人设与FunctionCall函数调用

    SparkDesk-Max-32k

    32k

    -

    支持

    对话

    星火_SparkDesk

    推理更强:更强的上下文理解和逻辑推理能力,输入更长:支持32K tokens的文本输入,适用于长文档阅读、私有知识问答等场景

    SparkDesk-Pro

    128k

    -

    不支持

    对话

    星火_SparkDesk

    数学、代码、医疗、教育等场景专项优化,支持联网搜索、天气、日期等多个内置插件,覆盖大部分知识问答、语言理解、文本创作等多个场景

    SparkDesk-Pro-128K

    128k

    -

    不支持

    对话

    星火_SparkDesk

    专业级大语言模型,具有百亿级参数,在医疗、教育和代码等场景进行了专项优化,搜索场景延时更低。适用于文本、智能问答等对性能和响应速度有更高要求的业务场景。

    moonshot-v1-128k

    128k

    4k

    支持

    对话

    月之暗面_moonshot

    长度为 8k 的模型,适用于生成短文本。

    moonshot-v1-32k

    32k

    4k

    支持

    对话

    月之暗面_moonshot

    长度为 32k 的模型,适用于生成长文本。

    moonshot-v1-8k

    8k

    4k

    支持

    对话

    月之暗面_moonshot

    长度为 128k 的模型,适用于生成超长文本。

    codegeex-4

    128k

    4k

    不支持

    对话,代码

    智谱_codegeex

    智谱的代码模型:适用于代码自动补全任务

    charglm-3

    4k

    2k

    不支持

    对话

    智谱_glm

    拟人模型

    emohaa

    8k

    4k

    不支持

    对话

    智谱_glm

    心理模型:具备专业咨询能力,帮助用户理解情感并应对情绪问题

    glm-3-turbo

    128k

    4k

    不支持

    对话

    智谱_glm

    即将弃用(2025年6月30日)

    glm-4

    128k

    4k

    支持

    对话

    智谱_glm

    旧版旗舰:发布于2024年1月16日,目前已被GLM-4-0520取代

    glm-4-0520

    128k

    4k

    支持

    对话

    智谱_glm

    高智能模型:适用于处理高度复杂和多样化的任务

    glm-4-air

    128k

    4k

    支持

    对话

    智谱_glm

    高性价比:推理能力和价格之间最平衡的模型

    glm-4-airx

    8k

    4k

    支持

    对话

    智谱_glm

    极速推理:具有超快的推理速度和强大的推理效果

    glm-4-flash

    128k

    4k

    支持

    对话

    智谱_glm

    高速低价:超快推理速度

    glm-4-flashx

    128k

    4k

    支持

    对话

    智谱_glm

    高速低价:Flash增强版本,超快推理速度

    glm-4-long

    1m

    4k

    支持

    对话

    智谱_glm

    超长输入:专为处理超长文本和记忆型任务设计

    glm-4-plus

    128k

    4k

    支持

    对话

    智谱_glm

    高智能旗舰: 性能全面提升,长文本和复杂任务能力显著增强

    glm-4v

    2k

    -

    不支持

    对话,识图

    智谱_glm

    图像理解:具备图像理解能力和推理能力

    glm-4v-flash

    2k

    1k

    不支持

    对话,识图

    智谱_glm

    免费模型:具备强大的图片理解能力

    360gpt-pro

    8k

    -

    不支持

    对话

    360AI_360gpt

    360智脑系列效果最好的主力千亿级大模型,广泛适用于各领域复杂任务场景。

    360gpt-turbo

    7k

    Logo
    Logo

    模型榜单

    这是一个基于 Chatbot Arena (lmarena.ai) 数据的排行榜,通过自动化流程生成。

    数据更新时间: 2025-12-09 08:08:59 UTC / 2025-12-09 16:08:59 CST (北京时间)

    排行榜

    Rank
    Rank Spread(Upper-Lower)
    模型
    分数
    95% 置信区间 (±)
    票数
    组织/公司
    许可证

    说明

    • 排名 (UB):基于 Bradley-Terry 模型计算的排名。此排名反映了模型在竞技场中的综合表现,并提供了其 Elo 分数的 上界 估计,帮助理解模型的潜在竞争力。

    • 模型:大型语言模型 (LLM) 的名称。部分模型名称可能已嵌入相关链接。

    • 分数:模型在竞技场中通过用户投票获得的 Elo 评分。Elo 评分是一种相对排名系统,分数越高表示模型表现越好。

    • 95% 置信区间 (±):模型 Elo 评分的95%置信区间(例如:±6

    数据来源与更新频率

    本排行榜数据由自动化脚本直接从 1 官方网站获取。此排行榜由 GitHub Actions 每天自动更新。

    免责声明

    本报告仅供参考。排行榜数据是动态变化的,并基于特定时间段内用户在 Chatbot Arena 上的偏好投票。数据的完整性和准确性取决于上游数据源。不同模型可能采用不同的许可协议,使用时请务必参考模型提供商的官方说明。

    Anthropicclaude-opus-4-5-20251101-thinking-32k

    1471

    ±8

    7,980

    Anthropic

    Proprietary

    4

    3◄─►6

    grok-4.1

    1463

    ±7

    14,324

    xAI

    Proprietary

    5

    3◄─►6

    Anthropicclaude-opus-4-5-20251101

    1462

    ±8

    8,733

    Anthropic

    Proprietary

    6

    3◄─►10

    gpt-5.1-high

    1457

    ±7

    11,949

    OpenAI

    Proprietary

    7

    6◄─►11

    gemini-2.5-pro

    1451

    ±4

    74,939

    Google

    Proprietary

    8

    6◄─►12

    Anthropicclaude-sonnet-4-5-20250929-thinking-32k

    1448

    ±5

    25,961

    Anthropic

    Proprietary

    9

    6◄─►12

    Anthropicclaude-opus-4-1-20250805-thinking-16k

    1448

    ±4

    41,812

    Anthropic

    Proprietary

    10

    6◄─►15

    Anthropicclaude-sonnet-4-5-20250929

    1445

    ±5

    21,104

    Anthropic

    Proprietary

    11

    7◄─►17

    gpt-4.5-preview-2025-02-27

    1443

    ±6

    14,644

    OpenAI

    Proprietary

    12

    8◄─►17

    Anthropicclaude-opus-4-1-20250805

    1441

    ±4

    54,843

    Anthropic

    Proprietary

    13

    10◄─►17

    chatgpt-4o-latest-20250326

    1440

    ±3

    61,196

    OpenAI

    Proprietary

    14

    10◄─►19

    gpt-5-high

    1437

    ±5

    32,890

    OpenAI

    Proprietary

    15

    10◄─►23

    gpt-5.1

    1436

    ±7

    12,836

    OpenAI

    Proprietary

    16

    11◄─►21

    o3-2025-04-16

    1434

    ±4

    61,592

    OpenAI

    Proprietary

    17

    11◄─►24

    qwen3-max-preview

    1433

    ±5

    28,132

    Alibaba

    Proprietary

    18

    14◄─►39

    MoonshotAIkimi-k2-thinking-turbo

    1428

    ±6

    13,647

    Moonshot

    Modified MIT

    19

    14◄─►39

    grok-4-1-fast-reasoning

    1427

    ±8

    6,975

    xAI

    Proprietary

    20

    15◄─►39

    glm-4.6

    1426

    ±5

    22,680

    Z.ai

    MIT

    21

    17◄─►39

    gpt-5-chat

    1425

    ±4

    32,135

    OpenAI

    Proprietary

    22

    16◄─►39

    qwen3-max-2025-09-23

    1424

    ±6

    9,256

    Alibaba

    Proprietary

    23

    18◄─►39

    Anthropicclaude-opus-4-20250514-thinking-16k

    1423

    ±4

    37,874

    Anthropic

    Proprietary

    24

    16◄─►39

    deepseek-v3.2-exp

    1423

    ±7

    11,969

    DeepSeek AI

    MIT

    25

    15◄─►45

    mistral-large-3

    1422Preliminary

    ±10

    4,393

    Mistral

    Apache 2.0

    26

    18◄─►39

    qwen3-235b-a22b-instruct-2507

    1421

    ±4

    49,337

    Alibaba

    Apache 2.0

    27

    18◄─►42

    deepseek-v3.2-exp-thinking

    1421

    ±7

    9,225

    DeepSeek AI

    MIT

    28

    18◄─►45

    grok-4-fast-chat

    1420

    ±8

    7,059

    xAI

    Proprietary

    29

    18◄─►47

    deepseek-v3.2-thinking

    1418

    ±10

    3,983

    DeepSeek AI

    MIT

    30

    18◄─►46

    MoonshotAIkimi-k2-0905-preview

    1418

    ±7

    11,841

    Moonshot

    Modified MIT

    31

    18◄─►45

    deepseek-r1-0528

    1418

    ±6

    19,240

    DeepSeek

    MIT

    32

    18◄─►47

    ernie-5.0-preview-1022

    1417

    ±9

    4,704

    Baidu

    Proprietary

    33

    18◄─►45

    MoonshotAIkimi-k2-0711-preview

    1417

    ±5

    28,667

    Moonshot

    Modified MIT

    34

    18◄─►46

    deepseek-v3.1

    1417

    ±6

    15,255

    DeepSeek

    MIT

    35

    18◄─►46

    deepseek-v3.1-thinking

    1416

    ±7

    11,985

    DeepSeek

    MIT

    36

    18◄─►50

    deepseek-v3.1-terminus

    1415

    ±10

    3,746

    DeepSeek AI

    MIT

    37

    18◄─►47

    qwen3-vl-235b-a22b-instruct

    1415

    ±7

    8,535

    Alibaba

    Apache 2.0

    38

    18◄─►52

    deepseek-v3.1-terminus-thinking

    1414

    ±10

    3,522

    DeepSeek AI

    MIT

    39

    18◄─►56

    deepseek-v3.2

    1413

    ±10

    4,475

    DeepSeek AI

    MIT

    40

    25◄─►47

    Anthropicclaude-opus-4-20250514

    1412

    ±4

    45,676

    Anthropic

    Proprietary

    41

    26◄─►47

    gpt-4.1-2025-04-14

    1412

    ±4

    52,587

    OpenAI

    Proprietary

    42

    26◄─►48

    mistral-medium-2508

    1411

    ±4

    43,452

    Mistral

    Proprietary

    43

    27◄─►50

    grok-3-preview-02-24

    1410

    ±4

    34,126

    xAI

    Proprietary

    44

    27◄─►52

    grok-4-0709

    1409

    ±4

    42,573

    xAI

    Proprietary

    45

    27◄─►53

    glm-4.5

    1409

    ±5

    24,825

    Z.ai

    MIT

    46

    31◄─►52

    gemini-2.5-flash

    1408

    ±3

    74,323

    Google

    Proprietary

    47

    34◄─►58

    gemini-2.5-flash-preview-09-2025

    1405

    ±5

    27,425

    Google

    Proprietary

    48

    39◄─►59

    grok-4-fast-reasoning

    1402

    ±5

    18,884

    xAI

    Proprietary

    49

    40◄─►59

    Anthropicclaude-haiku-4-5-20251001

    1402

    ±5

    24,230

    Anthropic

    Proprietary

    50

    42◄─►59

    o1-2024-12-17

    1401

    ±4

    28,039

    OpenAI

    Proprietary

    51

    42◄─►61

    qwen3-next-80b-a3b-instruct

    1400

    ±5

    23,118

    Alibaba

    Apache 2.0

    52

    40◄─►63

    longcat-flash-chat

    1400

    ±6

    11,502

    Meituan

    MIT

    53

    46◄─►62

    Anthropicclaude-sonnet-4-20250514-thinking-32k

    1399

    ±4

    36,214

    Anthropic

    Proprietary

    54

    45◄─►62

    qwen3-235b-a22b-no-thinking

    1399

    ±5

    39,377

    Alibaba

    Apache 2.0

    55

    46◄─►66

    qwen3-235b-a22b-thinking-2507

    1397

    ±6

    9,346

    Alibaba

    Apache 2.0

    56

    47◄─►66

    deepseek-r1

    1396

    ±5

    18,718

    DeepSeek

    MIT

    57

    47◄─►68

    qwen3-vl-235b-a22b-thinking

    1394

    ±7

    7,986

    Alibaba

    Apache 2.0

    58

    48◄─►67

    gpt-5-mini-high

    1393

    ±5

    27,450

    OpenAI

    Proprietary

    59

    51◄─►67

    deepseek-v3-0324

    1392

    ±4

    46,784

    DeepSeek

    MIT

    60

    46◄─►73

    Tencenthunyuan-vision-1.5-thinking

    1391

    ±12

    2,212

    Tencent

    Proprietary

    61

    52◄─►68

    o4-mini-2025-04-16

    1391

    ±4

    46,845

    OpenAI

    Proprietary

    62

    51◄─►70

    mai-1-preview

    1390

    ±5

    18,180

    Microsoft AI

    Proprietary

    63

    54◄─►71

    Anthropicclaude-sonnet-4-20250514

    1389

    ±4

    41,654

    Anthropic

    Proprietary

    64

    55◄─►72

    o1-preview

    1387

    ±5

    31,505

    OpenAI

    Proprietary

    65

    55◄─►72

    Anthropicclaude-3-7-sonnet-20250219-thinking-32k

    1387

    ±4

    39,911

    Anthropic

    Proprietary

    66

    57◄─►72

    qwen3-coder-480b-a35b-instruct

    1385

    ±5

    23,154

    Alibaba

    Apache 2.0

    67

    54◄─►75

    Tencenthunyuan-t1-20250711

    1385

    ±9

    4,819

    Tencent

    Proprietary

    68

    59◄─►74

    mistral-medium-2505

    1383

    ±5

    34,527

    Mistral

    Proprietary

    69

    61◄─►74

    qwen3-30b-a3b-instruct-2507

    1382

    ±5

    24,196

    Alibaba

    Apache 2.0

    70

    62◄─►75

    gpt-4.1-mini-2025-04-14

    1381

    ±4

    40,494

    OpenAI

    Proprietary

    71

    61◄─►78

    Tencenthunyuan-turbos-20250416

    1380

    ±6

    11,130

    Tencent

    Proprietary

    72

    63◄─►76

    gemini-2.5-flash-lite-preview-09-2025-no-thinking

    1379

    ±4

    27,328

    Google

    Proprietary

    73

    66◄─►79

    gemini-2.5-flash-lite-preview-06-17-thinking

    1375

    ±4

    33,970

    Google

    Proprietary

    74

    67◄─►80

    qwen3-235b-a22b

    1374

    ±5

    27,168

    Alibaba

    Apache 2.0

    75

    69◄─►80

    qwen2.5-max

    1373

    ±4

    33,548

    Alibaba

    Proprietary

    76

    71◄─►80

    Anthropicclaude-3-5-sonnet-20241022

    1372

    ±3

    89,848

    Anthropic

    Proprietary

    77

    71◄─►83

    Anthropicclaude-3-7-sonnet-20250219

    1371

    ±4

    44,561

    Anthropic

    Proprietary

    78

    72◄─►83

    glm-4.5-air

    1370

    ±4

    31,673

    Z.ai

    MIT

    79

    73◄─►86

    qwen3-next-80b-a3b-thinking

    1367

    ±6

    13,822

    Alibaba

    Apache 2.0

    80

    74◄─►86

    Minimaxminimax-m1

    1366

    ±4

    36,884

    MiniMax

    Apache 2.0

    81

    77◄─►86

    gemma-3-27b-it

    1365

    ±4

    49,316

    Google

    Gemma

    82

    77◄─►90

    o3-mini-high

    1363

    ±5

    18,735

    OpenAI

    Proprietary

    83

    77◄─►91

    grok-3-mini-high

    1362

    ±5

    17,591

    xAI

    Proprietary

    84

    79◄─►93

    gemini-2.0-flash-001

    1360

    ±4

    45,109

    Google

    Proprietary

    85

    79◄─►101

    deepseek-v3

    1357

    ±5

    21,994

    DeepSeek

    DeepSeek

    86

    79◄─►101

    grok-3-mini-beta

    1357

    ±5

    23,794

    xAI

    Proprietary

    87

    82◄─►106

    mistral-small-2506

    1355

    ±5

    18,329

    Mistral

    Apache 2.0

    88

    84◄─►106

    gemini-2.0-flash-lite-preview-02-05

    1353

    ±4

    25,215

    Google

    Proprietary

    89

    84◄─►107

    gpt-oss-120b

    1353

    ±4

    31,271

    OpenAI

    Apache 2.0

    90

    85◄─►106

    Coherecommand-a-03-2025

    1352

    ±3

    57,830

    Cohere

    CC-BY-NC-4.0

    91

    82◄─►109

    glm-4.5v

    1352

    ±8

    4,978

    Z.ai

    MIT

    92

    85◄─►107

    gemini-1.5-pro-002

    1351

    ±3

    56,012

    Google

    Proprietary

    93

    82◄─►109

    amazon-nova-experimental-chat-10-20

    1350

    ±8

    5,939

    Amazon

    Proprietary

    94

    87◄─►109

    o3-mini

    1348

    ±3

    58,812

    OpenAI

    Proprietary

    95

    82◄─►118

    Tencenthunyuan-turbos-20250226

    1346

    ±12

    2,250

    Tencent

    Proprietary

    96

    85◄─►111

    ling-flash-2.0

    1346

    ±7

    7,158

    Ant Group

    MIT

    97

    85◄─►115

    Minimaxminimax-m2

    1346

    ±8

    7,123

    MiniMax

    Apache 2.0

    98

    85◄─►113

    Stepfunstep-3

    1346

    ±7

    6,642

    StepFun

    Apache 2.0

    99

    83◄─►119

    Nvidiallama-3.1-nemotron-ultra-253b-v1

    1346

    ±12

    2,573

    Nvidia

    Nvidia Open Model

    100

    85◄─►119

    amazon-nova-experimental-chat-10-09

    1345

    ±11

    2,892

    Amazon

    Proprietary

    101

    90◄─►109

    gpt-4o-2024-05-13

    1345

    ±3

    113,568

    OpenAI

    Proprietary

    102

    85◄─►118

    qwen3-32b

    1345

    ±9

    3,943

    Alibaba

    Apache 2.0

    103

    85◄─►118

    qwen-plus-0125

    1345

    ±8

    5,861

    Alibaba

    Proprietary

    104

    87◄─►118

    glm-4-plus-0111

    1343

    ±8

    5,806

    Zhipu

    Proprietary

    105

    92◄─►111

    Anthropicclaude-3-5-sonnet-20240620

    1342

    ±3

    82,864

    Anthropic

    Proprietary

    106

    87◄─►121

    gemma-3-12b-it

    1340

    ±9

    3,866

    Google

    Gemma

    107

    87◄─►123

    Nvidianvidia-llama-3.3-nemotron-super-49b-v1.5

    1340

    ±10

    3,492

    Nvidia

    Nvidia Open

    108

    87◄─►124

    Tencenthunyuan-turbo-0110

    1339

    ±11

    2,322

    Tencent

    Proprietary

    109

    92◄─►120

    gpt-5-nano-high

    1339

    ±7

    8,387

    OpenAI

    Proprietary

    110

    96◄─►120

    Metallama-3.1-405b-instruct-bf16

    1335

    ±4

    41,932

    Meta

    Llama 3.1 Community

    111

    97◄─►120

    o1-mini

    1335

    ±4

    52,301

    OpenAI

    Proprietary

    112

    98◄─►123

    gpt-4o-2024-08-06

    1334

    ±4

    45,787

    OpenAI

    Proprietary

    113

    100◄─►122

    grok-2-2024-08-13

    1334

    ±4

    63,725

    xAI

    Proprietary

    114

    99◄─►123

    qwq-32b

    1334

    ±4

    26,273

    Alibaba

    Apache 2.0

    115

    98◄─►123

    gemini-advanced-0514

    1334

    ±5

    50,654

    Google

    Proprietary

    116

    100◄─►123

    Metallama-3.1-405b-instruct-fp8

    1333

    ±3

    60,272

    Meta

    Llama 3.1 Community

    117

    96◄─►134

    Stepfunstep-2-16k-exp-202412

    1332

    ±9

    4,895

    StepFun

    Proprietary

    118

    106◄─►135

    01.AIyi-lightning

    1328

    ±5

    27,624

    01 AI

    Proprietary

    119

    109◄─►135

    Metallama-4-maverick-17b-128e-instruct

    1327

    ±4

    41,202

    Meta

    Llama 4

    120

    110◄─►138

    qwen3-30b-a3b

    1326

    ±5

    27,492

    Alibaba

    Apache 2.0

    121

    100◄─►146

    Nvidiallama-3.3-nemotron-49b-super-v1

    1326

    ±12

    2,243

    Nvidia

    Nvidia

    122

    104◄─►145

    Tencenthunyuan-large-2025-02-10

    1325

    ±10

    3,760

    Tencent

    Proprietary

    123

    116◄─►140

    gpt-4-turbo-2024-04-09

    1324

    ±4

    98,965

    OpenAI

    Proprietary

    124

    117◄─►141

    Anthropicclaude-3-5-haiku-20241022

    1322

    ±3

    71,378

    Anthropic

    Proprietary

    125

    117◄─►141

    Metallama-4-scout-17b-16e-instruct

    1322

    ±5

    31,199

    Meta

    Llama

    126

    110◄─►146

    deepseek-v2.5-1210

    1322

    ±8

    6,877

    DeepSeek

    DeepSeek

    127

    117◄─►141

    Anthropicclaude-3-opus-20240229

    1322

    ±3

    196,368

    Anthropic

    Proprietary

    128

    117◄─►141

    gemini-1.5-pro-001

    1322

    ±4

    79,769

    Google

    Proprietary

    129

    116◄─►146

    gpt-4.1-nano-2025-04-14

    1321

    ±8

    6,143

    OpenAI

    Proprietary

    130

    117◄─►146

    ring-flash-2.0

    1320

    ±7

    7,282

    Ant Group

    MIT

    131

    117◄─►146

    Stepfunstep-1o-turbo-202506

    1320

    ±7

    9,665

    StepFun

    Proprietary

    132

    120◄─►145

    Metallama-3.3-70b-instruct

    1319

    ±3

    56,011

    Meta

    Llama-3.3

    133

    118◄─►146

    gemma-3n-e4b-it

    1318

    ±5

    23,471

    Google

    Gemma

    134

    120◄─►146

    glm-4-plus

    1318

    ±5

    26,342

    Zhipu AI

    Proprietary

    135

    117◄─►147

    gpt-oss-20b

    1318

    ±6

    10,849

    OpenAI

    Apache 2.0

    136

    120◄─►147

    qwen-max-0919

    1317

    ±6

    16,598

    Alibaba

    Qwen

    137

    122◄─►146

    gpt-4o-mini-2024-07-18

    1316

    ±3

    69,291

    OpenAI

    Proprietary

    138

    121◄─►152

    qwen2.5-plus-1127

    1314

    ±6

    10,252

    Alibaba

    Proprietary

    139

    126◄─►151

    gpt-4-1106-preview

    1313

    ±4

    101,117

    OpenAI

    Proprietary

    140

    126◄─►151

    mistral-large-2407

    1313

    ±4

    45,968

    Mistral

    Mistral Research

    141

    126◄─►151

    gpt-4-0125-preview

    1313

    ±4

    94,534

    OpenAI

    Proprietary

    142

    126◄─►152

    athene-v2-chat

    1313

    ±4

    24,880

    NexusFlow

    NexusFlow

    143

    117◄─►156

    olmo-3-32b-think

    1312

    ±12

    2,551

    Allen AI

    Apache 2.0

    144

    117◄─►156

    mercury

    1311

    ±14

    1,967

    Inception AI

    Proprietary

    145

    121◄─►156

    Tencenthunyuan-standard-2025-02-10

    1310

    ±10

    3,920

    Tencent

    Proprietary

    146

    128◄─►153

    gemini-1.5-flash-002

    1310

    ±4

    35,180

    Google

    Proprietary

    147

    138◄─►156

    grok-2-mini-2024-08-13

    1307

    ±4

    52,789

    xAI

    Proprietary

    148

    138◄─►156

    deepseek-v2.5

    1306

    ±5

    24,839

    DeepSeek

    DeepSeek

    149

    138◄─►156

    magistral-medium-2506

    1305

    ±6

    11,999

    Mistral

    Proprietary

    150

    141◄─►156

    mistral-large-2411

    1305

    ±4

    28,455

    Mistral

    MRL

    151

    138◄─►156

    athene-70b-0725

    1305

    ±6

    19,796

    NexusFlow

    CC-BY-NC-4.0

    152

    142◄─►156

    mistral-small-3.1-24b-instruct-2503

    1303

    ±4

    34,140

    Mistral

    Apache 2.0

    153

    136◄─►161

    gemma-3-4b-it

    1303

    ±9

    4,195

    Google

    Gemma

    154

    144◄─►156

    qwen2.5-72b-instruct

    1302

    ±4

    39,632

    Alibaba

    Qwen

    155

    144◄─►164

    Nvidiallama-3.1-nemotron-70b-instruct

    1297

    ±8

    7,216

    Nvidia

    Llama 3.1

    156

    144◄─►165

    Tencenthunyuan-large-vision

    1295

    ±9

    5,599

    Tencent

    Proprietary

    157

    154◄─►164

    Metallama-3.1-70b-instruct

    1293

    ±4

    56,003

    Meta

    Llama 3.1 Community

    158

    155◄─►167

    amazon-nova-pro-v1.0

    1288

    ±4

    25,218

    Amazon

    Proprietary

    159

    154◄─►169

    jamba-1.5-large

    1288

    ±7

    8,730

    AI21 Labs

    Jamba Open

    160

    155◄─►167

    gemma-2-27b-it

    1287

    ±3

    76,195

    Google

    Gemma license

    161

    154◄─►169

    reka-core-20240904

    1287

    ±7

    7,380

    Reka AI

    Proprietary

    162

    155◄─►169

    gpt-4-0314

    1286

    ±5

    54,754

    OpenAI

    Proprietary

    163

    154◄─►175

    Nvidiallama-3.1-nemotron-51b-instruct

    1286

    ±10

    3,777

    Nvidia

    Llama 3.1

    164

    154◄─►175

    llama-3.1-tulu-3-70b

    1286

    ±10

    2,881

    Ai2

    Llama 3.1

    165

    157◄─►170

    gemini-1.5-flash-001

    1284

    ±4

    63,418

    Google

    Proprietary

    166

    158◄─►174

    Anthropicclaude-3-sonnet-20240229

    1281

    ±4

    110,173

    Anthropic

    Proprietary

    167

    158◄─►175

    gemma-2-9b-it-simpo

    1278

    ±7

    10,108

    Princeton

    MIT

    168

    160◄─►175

    Nvidianemotron-4-340b-instruct

    1278

    ±5

    19,913

    Nvidia

    NVIDIA Open Model

    169

    160◄─►176

    Coherecommand-r-plus-08-2024

    1277

    ±7

    9,931

    Cohere

    CC-BY-NC-4.0

    170

    164◄─►175

    Metallama-3-70b-instruct

    1276

    ±3

    158,908

    Meta

    Llama 3 Community

    171

    164◄─►176

    gpt-4-0613

    1275

    ±4

    89,612

    OpenAI

    Proprietary

    172

    164◄─►178

    mistral-small-24b-instruct-2501

    1274

    ±6

    14,830

    Mistral

    Apache 2.0

    173

    163◄─►180

    glm-4-0520

    1273

    ±7

    9,857

    Zhipu AI

    Proprietary

    174

    164◄─►180

    reka-flash-20240904

    1273

    ±7

    7,583

    Reka AI

    Proprietary

    175

    165◄─►184

    qwen2.5-coder-32b-instruct

    1269

    ±8

    5,452

    Alibaba

    Apache 2.0

    176

    170◄─►184

    Coherec4ai-aya-expanse-32b

    1267

    ±5

    27,362

    Cohere

    CC-BY-NC-4.0

    177

    172◄─►184

    gemma-2-9b-it

    1264

    ±4

    54,954

    Google

    Gemma license

    178

    172◄─►186

    deepseek-coder-v2

    1263

    ±6

    15,242

    DeepSeek AI

    DeepSeek License

    179

    173◄─►185

    Coherecommand-r-plus

    1263

    ±4

    78,401

    Cohere

    CC-BY-NC-4.0

    180

    173◄─►186

    qwen2-72b-instruct

    1262

    ±5

    37,688

    Alibaba

    Qianwen LICENSE

    181

    175◄─►186

    Anthropicclaude-3-haiku-20240307

    1261

    ±4

    118,626

    Anthropic

    Proprietary

    182

    175◄─►186

    amazon-nova-lite-v1.0

    1260

    ±5

    19,760

    Amazon

    Proprietary

    183

    175◄─►186

    gemini-1.5-flash-8b-001

    1259

    ±4

    35,914

    Google

    Proprietary

    184

    178◄─►186

    Azurephi-4

    1255

    ±4

    24,354

    Microsoft

    MIT

    185

    175◄─►191

    olmo-2-0325-32b-instruct

    1252

    ±11

    3,377

    Allen AI

    Apache-2.0

    186

    179◄─►190

    Coherecommand-r-08-2024

    1251

    ±7

    10,229

    Cohere

    CC-BY-NC-4.0

    187

    185◄─►195

    mistral-large-2402

    1242

    ±5

    63,404

    Mistral

    Proprietary

    188

    185◄─►195

    amazon-nova-micro-v1.0

    1241

    ±5

    19,774

    Amazon

    Proprietary

    189

    185◄─►200

    jamba-1.5-mini

    1239

    ±7

    8,918

    AI21 Labs

    Jamba Open

    190

    185◄─►203

    ministral-8b-2410

    1237

    ±9

    4,833

    Mistral

    MRL

    191

    187◄─►202

    qwen1.5-110b-chat

    1234

    ±5

    26,679

    Alibaba

    Qianwen LICENSE

    192

    187◄─►203

    gemini-pro-dev-api

    1234

    ±7

    18,454

    Google

    Proprietary

    193

    187◄─►203

    qwen1.5-72b-chat

    1234

    ±5

    39,689

    Alibaba

    Qianwen LICENSE

    194

    187◄─►204

    reka-flash-21b-20240226-online

    1233

    ±7

    15,606

    Reka AI

    Proprietary

    195

    186◄─►205

    Tencenthunyuan-standard-256k

    1233

    ±12

    2,761

    Tencent

    Proprietary

    196

    189◄─►204

    mixtral-8x22b-instruct-v0.1

    1230

    ±4

    52,214

    Mistral

    Apache 2.0

    197

    189◄─►205

    Coherecommand-r

    1228

    ±5

    54,710

    Cohere

    CC-BY-NC-4.0

    198

    189◄─►206

    reka-flash-21b-20240226

    1227

    ±6

    25,026

    Reka AI

    Proprietary

    199

    191◄─►206

    gpt-3.5-turbo-0125

    1224

    ±5

    67,214

    OpenAI

    Proprietary

    200

    190◄─►207

    mistral-medium

    1224

    ±5

    34,893

    Mistral

    Proprietary

    201

    190◄─►207

    Coherec4ai-aya-expanse-8b

    1223

    ±7

    9,922

    Cohere

    CC-BY-NC-4.0

    202

    194◄─►206

    Metallama-3-8b-instruct

    1223

    ±4

    106,055

    Meta

    Llama 3 Community

    203

    189◄─►209

    llama-3.1-tulu-3-8b

    1222

    ±11

    2,943

    Ai2

    Llama 3.1

    204

    189◄─►210

    gemini-pro

    1222

    ±12

    6,418

    Google

    Proprietary

    205

    196◄─►211

    HuggingFacezephyr-orpo-141b-A35b-v0.1

    1214

    ±11

    4,712

    HuggingFace

    Apache 2.0

    206

    201◄─►210

    01.AIyi-1.5-34b-chat

    1213

    ±5

    24,417

    01 AI

    Apache-2.0

    207

    203◄─►210

    Metallama-3.1-8b-instruct

    1211

    ±4

    50,234

    Meta

    Llama 3.1 Community

    208

    198◄─►216

    granite-3.1-8b-instruct

    1210

    ±11

    3,142

    IBM

    Apache 2.0

    209

    203◄─►216

    qwen1.5-32b-chat

    1205

    ±6

    22,068

    Alibaba

    Qianwen LICENSE

    210

    204◄─►218

    gpt-3.5-turbo-1106

    1202

    ±9

    16,760

    OpenAI

    Proprietary

    211

    207◄─►218

    Azurephi-3-medium-4k-instruct

    1198

    ±5

    25,301

    Microsoft

    MIT

    212

    208◄─►218

    gemma-2-2b-it

    1198

    ±4

    46,901

    Google

    Gemma license

    213

    208◄─►218

    mixtral-8x7b-instruct-v0.1

    1198

    ±4

    74,303

    Mistral

    Apache 2.0

    214

    208◄─►223

    dbrx-instruct-preview

    1196

    ±6

    32,760

    Databricks

    DBRX LICENSE

    215

    208◄─►226

    qwen1.5-14b-chat

    1193

    ±7

    18,066

    Alibaba

    Qianwen LICENSE

    216

    208◄─►227

    InternLMinternlm2_5-20b-chat

    1192

    ±7

    10,038

    InternLM

    Other

    217

    210◄─►233

    Azurewizardlm-70b

    1185

    ±9

    8,270

    Microsoft

    Llama 2 Community

    218

    210◄─►234

    deepseek-llm-67b-chat

    1184

    ±12

    4,950

    DeepSeek AI

    DeepSeek License

    219

    214◄─►231

    01.AIyi-34b-chat

    1184

    ±7

    15,624

    01 AI

    Yi License

    220

    214◄─►233

    granite-3.0-8b-instruct

    1184

    ±9

    6,727

    IBM

    Apache 2.0

    221

    214◄─►233

    OpenChatopenchat-3.5-0106

    1183

    ±8

    12,712

    OpenChat

    Apache-2.0

    222

    214◄─►234

    OpenChatopenchat-3.5

    1182

    ±10

    8,009

    OpenChat

    Apache-2.0

    223

    214◄─►235

    granite-3.1-2b-instruct

    1181

    ±11

    3,235

    IBM

    Apache 2.0

    224

    215◄─►233

    Snowflakesnowflake-arctic-instruct

    1180

    ±6

    33,272

    Snowflake

    Apache 2.0

    225

    216◄─►234

    gemma-1.1-7b-it

    1180

    ±6

    24,327

    Google

    Gemma license

    226

    215◄─►236

    tulu-2-dpo-70b

    1179

    ±10

    6,579

    AllenAI/UW

    AI2 ImpACT Low-risk

    227

    215◄─►238

    openhermes-2.5-mistral-7b

    1176

    ±10

    5,026

    NousResearch

    Apache-2.0

    228

    217◄─►237

    vicuna-33b

    1174

    ±6

    22,613

    LMSYS

    Non-commercial

    229

    217◄─►238

    starling-lm-7b-beta

    1173

    ±7

    16,190

    Nexusflow

    Apache-2.0

    230

    217◄─►238

    Azurephi-3-small-8k-instruct

    1172

    ±6

    17,983

    Microsoft

    MIT

    231

    218◄─►238

    Metallama-2-70b-chat

    1172

    ±5

    38,767

    Meta

    Llama 2 Community

    232

    218◄─►241

    starling-lm-7b-alpha

    1168

    ±8

    10,267

    UC Berkeley

    CC-BY-NC-4.0

    233

    222◄─►242

    Metallama-3.2-3b-instruct

    1167

    ±8

    8,043

    Meta

    Llama 3.2

    234

    217◄─►243

    nous-hermes-2-mixtral-8x7b-dpo

    1166

    ±12

    3,792

    NousResearch

    Apache-2.0

    235

    225◄─►248

    qwq-32b-preview

    1160

    ±11

    3,256

    Alibaba

    Apache 2.0

    236

    226◄─►250

    Nvidiallama2-70b-steerlm-chat

    1157

    ±13

    3,605

    Nvidia

    Llama 2 Community

    237

    232◄─►247

    granite-3.0-2b-instruct

    1157

    ±8

    6,922

    IBM

    Apache 2.0

    238

    228◄─►252

    solar-10.7b-instruct-v1.0

    1154

    ±13

    4,187

    Upstage AI

    CC-BY-NC-4.0

    239

    227◄─►256

    dolphin-2.2.1-mistral-7b

    1152

    ±15

    1,685

    Cognitive Computations

    Apache-2.0

    240

    234◄─►251

    mistral-7b-instruct-v0.2

    1151

    ±7

    19,603

    Mistral

    Apache-2.0

    241

    232◄─►255

    mpt-30b-chat

    1151

    ±12

    2,606

    MosaicML

    CC-BY-NC-SA-4.0

    242

    233◄─►252

    Azurewizardlm-13b

    1150

    ±9

    7,122

    Microsoft

    Llama 2 Community

    243

    232◄─►259

    falcon-180b-chat

    1147

    ±17

    1,312

    TII

    Falcon-180B TII License

    244

    235◄─►257

    qwen1.5-7b-chat

    1144

    ±10

    4,782

    Alibaba

    Qianwen LICENSE

    245

    235◄─►256

    Azurephi-3-mini-4k-instruct-june-2024

    1143

    ±6

    12,415

    Microsoft

    MIT

    246

    235◄─►256

    Metallama-2-13b-chat

    1143

    ±7

    19,357

    Meta

    Llama 2 Community

    247

    236◄─►257

    vicuna-13b

    1142

    ±7

    19,539

    LMSYS

    Llama 2 Community

    248

    235◄─►259

    qwen-14b-chat

    1139

    ±11

    5,004

    Alibaba

    Qianwen LICENSE

    249

    237◄─►259

    Metacodellama-34b-instruct

    1137

    ±9

    7,417

    Meta

    Llama 2 Community

    250

    237◄─►259

    palm-2

    1137

    ±9

    8,634

    Google

    Proprietary

    251

    238◄─►259

    gemma-7b-it

    1135

    ±9

    9,034

    Google

    Gemma license

    252

    241◄─►260

    HuggingFacezephyr-7b-beta

    1132

    ±9

    11,220

    HuggingFace

    MIT

    253

    241◄─►260

    Azurephi-3-mini-128k-instruct

    1131

    ±7

    21,024

    Microsoft

    MIT

    254

    245◄─►260

    Azurephi-3-mini-4k-instruct

    1129

    ±6

    20,539

    Microsoft

    MIT

    255

    239◄─►264

    HuggingFacezephyr-7b-alpha

    1129

    ±16

    1,803

    HuggingFace

    MIT

    256

    241◄─►264

    guanaco-33b

    1128

    ±12

    2,955

    UW

    Non-commercial

    257

    247◄─►264

    stripedhyena-nous-7b

    1121

    ±11

    5,214

    Together AI

    Apache 2.0

    258

    242◄─►265

    Metacodellama-70b-instruct

    1119

    ±18

    1,151

    Meta

    Llama 2 Community

    259

    247◄─►264

    HuggingFacesmollm2-1.7b-instruct

    1118

    ±14

    2,244

    HuggingFace

    Apache 2.0

    260

    252◄─►264

    vicuna-7b

    1115

    ±9

    6,972

    LMSYS

    Llama 2 Community

    261

    255◄─►264

    gemma-1.1-2b-it

    1114

    ±8

    11,035

    Google

    Gemma license

    262

    255◄─►264

    Metallama-3.2-1b-instruct

    1113

    ±8

    8,166

    Meta

    Llama 3.2

    263

    255◄─►265

    mistral-7b-instruct

    1111

    ±9

    9,042

    Mistral

    Apache 2.0

    264

    255◄─►265

    Metallama-2-7b-chat

    1109

    ±7

    14,272

    Meta

    Llama 2 Community

    265

    262◄─►269

    gemma-2b-it

    1091

    ±12

    4,817

    Google

    Gemma license

    266

    265◄─►267

    qwen1.5-4b-chat

    1091

    ±9

    7,662

    Alibaba

    Qianwen LICENSE

    267

    265◄─►272

    olmo-7b-instruct

    1075

    ±11

    6,412

    Allen AI

    Apache-2.0

    268

    266◄─►272

    koala-13b

    1070

    ±10

    6,998

    UC Berkeley

    Non-commercial

    269

    267◄─►272

    alpaca-13b

    1066

    ±11

    5,828

    Stanford

    Non-commercial

    270

    266◄─►273

    gpt4all-13b-snoozy

    1065

    ±15

    1,773

    Nomic AI

    Non-commercial

    271

    267◄─►273

    mpt-7b-chat

    1061

    ±12

    3,977

    MosaicML

    CC-BY-NC-SA-4.0

    272

    267◄─►273

    chatglm3-6b

    1057

    ±12

    4,692

    Tsinghua

    Apache-2.0

    273

    270◄─►275

    RWKVRWKV-4-Raven-14B

    1041

    ±11

    4,898

    RWKV

    Apache 2.0

    274

    273◄─►275

    chatglm2-6b

    1026

    ±14

    2,683

    Tsinghua

    Apache-2.0

    275

    273◄─►275

    oasst-pythia-12b

    1022

    ±11

    6,343

    OpenAssistant

    Apache 2.0

    276

    276◄─►279

    chatglm-6b

    996

    ±13

    4,968

    Tsinghua

    Non-commercial

    277

    276◄─►279

    fastchat-t5-3b

    991

    ±12

    4,270

    LMSYS

    Apache 2.0

    278

    276◄─►280

    dolly-v2-12b

    978

    ±14

    3,471

    Databricks

    MIT

    279

    276◄─►280

    Metallama-13b

    971

    ±16

    2,441

    Meta

    Non-commercial

    280

    278◄─►280

    Stabilitystablelm-tuned-alpha-7b

    952

    ±13

    3,325

    Stability AI

    CC-BY-NC-SA-4.0

    )。这个区间越小,表示模型的评分越稳定和可靠。
  • 票数:该模型在竞技场中收到的总投票数量。投票数越多,通常意味着其评分的统计可靠性越高。

  • 组织/公司:提供该模型的组织或公司。

  • 许可证:模型的许可协议类型,例如专有 (Proprietary)、Apache 2.0、MIT 等。

  • 1

    1◄─►2

    gemini-3-pro

    1491

    ±7

    13,801

    Google

    Proprietary

    2

    1◄─►3

    grok-4.1-thinking

    1481

    ±7

    14,412

    xAI

    Proprietary

    3

    2

    2◄─►6