2025-06-01 08:55:52

LM Studio：Ollama的替代方案，探索本地大模型调用的实际应用

0.前言

可像 Ollama 通过暴露本地端口，实现本地客户端调用。

1.选择模型

在 LM Studio 的 “开发者” 选项卡中选择模型：

2.端口暴露

设置暴露的端口（默认1234）：

Ollama平替！LM

启用 CORS 后，可对接网页应用或其他客户端工具。

3.启动服务

点击状态选项卡：

控制台会显示运行日志和访问地址：

2025-04-26 20:55:13  [INFO] [LM STUDIO SERVER] Success! HTTP server listening on port 12342025-04-26 20:55:13  [INFO] 2025-04-26 20:55:13  [INFO] [LM STUDIO SERVER] Supported endpoints:2025-04-26 20:55:13  [INFO] [LM STUDIO SERVER] -> GET http://localhost:1234/v1/models2025-04-26 20:55:13  [INFO] [LM STUDIO SERVER] -> POST http://localhost:1234/v1/chat/completions2025-04-26 20:55:13  [INFO] [LM STUDIO SERVER] -> POST http://localhost:1234/v1/completions2025-04-26 20:55:13  [INFO] [LM STUDIO SERVER] -> POST http://localhost:1234/v1/embeddings2025-04-26 20:55:13  [INFO] 2025-04-26 20:55:13  [INFO] [LM STUDIO SERVER] Logs are saved into /Users/javaedge/.lmstudio/server-logs2025-04-26 20:55:13  [INFO] Server started.

4.快速上手

4.1 快速ping

列出已加载并就绪的模型：

curl http://127.0.0.1:1234/v1/models/

Ollama平替！LM

这也是验证服务器是否可访问的一种有效方法！

4.2 聊天

这是一个类似调用OpenAI的操作，通过curl工具访问/v1/chat/completion端点：

在Mac或Linux系统，可用任意终端运行
Windows系统用Git Bash

curl http://127.0.0.1:1234/v1/chat/completions \  -H "Content-Type: application/json" \  -d {    "model": "llama-4-maverick-17b-128e-instruct",    "messages": [       { "role": "system", "content": "Always answer in rhymes." },      { "role": "user", "content": "Introduce yourself." }    ],     "temperature": 0.7,     "max_tokens": -1,    "stream": true  }

该调用是“无状态的”，即服务器不会保留对话历史记录。调用方有责任在每次调用时提供完整的对话历史记录。