LLMFit 标志 LLMFit

REST API

把节点本地的适配分析通过 HTTP 暴露出来。

`llmfit serve` 会把 TUI 和 CLI 使用的同一套硬件感知判断逻辑转成 API。 当你希望调度器、Agent、仪表盘或内部平台以编程方式消费推荐结果时, 这是最合适的接口层。

llmfit serve --host 0.0.0.0 --port 8787
方法 路径 用途
GET /health 节点本地 API 存活检查。
GET /api/v1/system 返回节点身份与检测到的硬件画像。
GET /api/v1/models 返回当前节点可筛选、可排序的模型适配结果集。
GET /api/v1/models/top 返回保守语义下的 top-k 可运行模型。
GET /api/v1/models/{name} 按模型家族或名称约束进行搜索。

推荐查询参数

控制推荐结果有多保守。

limit / n

限制返回行数。仪表盘和调度器通常应该使用较小的 top-k 值。

min_fit

生产默认建议使用 good;如果只是探索拉伸空间,可以放宽到 marginal

use_case

可按 coding、chat、reasoning、embedding 等工作负载类别进行约束。

runtime

当你的环境统一使用 MLX 或 llama.cpp 等特定运行时时,可以进一步限制结果。

集成方式

团队通常这样接入。

调度器轮询

  1. 先调用 /health
  2. 再获取 /api/v1/system
  3. 然后查询 /api/v1/models/top?min_fit=good&limit=5
  4. 最后把节点信息附加到你自己的控制平面里。

Agent 工具调用

让内部 Agent 在选模型、排任务或分配工作负载之前,先查询节点本地适配结果。

内部运营门户

把推荐结果接到一个小型运维界面上,减少团队在聊天工具里反复询问“这台机器能跑什么”。

快速开始

curl http://127.0.0.1:8787/health
curl http://127.0.0.1:8787/api/v1/system
curl "http://127.0.0.1:8787/api/v1/models?limit=20&min_fit=marginal&sort=score"

按工作负载筛选

curl "http://127.0.0.1:8787/api/v1/models/top?limit=5&min_fit=good&use_case=coding"
curl "http://127.0.0.1:8787/api/v1/models/Mistral?runtime=any"
生产默认建议

如果希望调度策略更稳妥,优先使用 `min_fit=good`、`include_too_tight=false`、`sort=score` 和较小的 `limit` 值。

还需要部署细节?

把 serve 模式与适合你的运行时或托管方案组合起来。