REST API

把节点本地的适配分析通过 HTTP 暴露出来。

`llmfit serve` 会把 TUI 和 CLI 使用的同一套硬件感知判断逻辑转成 API。当你希望调度器、Agent、仪表盘或内部平台以编程方式消费推荐结果时，这是最合适的接口层。

llmfit serve --host 0.0.0.0 --port 8787

方法	路径	用途
GET	`/health`	节点本地 API 存活检查。
GET	`/api/v1/system`	返回节点身份与检测到的硬件画像。
GET	`/api/v1/models`	返回当前节点可筛选、可排序的模型适配结果集。
GET	`/api/v1/models/top`	返回保守语义下的 top-k 可运行模型。
GET	`/api/v1/models/{name}`	按模型家族或名称约束进行搜索。

推荐查询参数

控制推荐结果有多保守。

`limit` / `n`

限制返回行数。仪表盘和调度器通常应该使用较小的 top-k 值。

`min_fit`

生产默认建议使用 good；如果只是探索拉伸空间，可以放宽到 marginal。

`use_case`

可按 coding、chat、reasoning、embedding 等工作负载类别进行约束。

`runtime`

当你的环境统一使用 MLX 或 llama.cpp 等特定运行时时，可以进一步限制结果。

集成方式

团队通常这样接入。

调度器轮询

先调用 /health。
再获取 /api/v1/system。
然后查询 /api/v1/models/top?min_fit=good&limit=5。
最后把节点信息附加到你自己的控制平面里。

Agent 工具调用

让内部 Agent 在选模型、排任务或分配工作负载之前，先查询节点本地适配结果。

内部运营门户

把推荐结果接到一个小型运维界面上，减少团队在聊天工具里反复询问“这台机器能跑什么”。

快速开始

curl http://127.0.0.1:8787/health
curl http://127.0.0.1:8787/api/v1/system
curl "http://127.0.0.1:8787/api/v1/models?limit=20&min_fit=marginal&sort=score"

按工作负载筛选

curl "http://127.0.0.1:8787/api/v1/models/top?limit=5&min_fit=good&use_case=coding"
curl "http://127.0.0.1:8787/api/v1/models/Mistral?runtime=any"

生产默认建议

如果希望调度策略更稳妥，优先使用 `min_fit=good`、`include_too_tight=false`、`sort=score` 和较小的 `limit` 值。

还需要部署细节？

把 serve 模式与适合你的运行时或托管方案组合起来。

查看自托管指南阅读文档

把节点本地的适配分析通过 HTTP 暴露出来。

控制推荐结果有多保守。

limit / n

min_fit

use_case

runtime

团队通常这样接入。

调度器轮询

Agent 工具调用

内部运营门户

快速开始

按工作负载筛选

把 serve 模式与适合你的运行时或托管方案组合起来。

`limit` / `n`

`min_fit`

`use_case`

`runtime`