limit / n
限制返回行数。仪表盘和调度器通常应该使用较小的 top-k 值。
REST API
`llmfit serve` 会把 TUI 和 CLI 使用的同一套硬件感知判断逻辑转成 API。 当你希望调度器、Agent、仪表盘或内部平台以编程方式消费推荐结果时, 这是最合适的接口层。
llmfit serve --host 0.0.0.0 --port 8787
| 方法 | 路径 | 用途 |
|---|---|---|
| GET | /health |
节点本地 API 存活检查。 |
| GET | /api/v1/system |
返回节点身份与检测到的硬件画像。 |
| GET | /api/v1/models |
返回当前节点可筛选、可排序的模型适配结果集。 |
| GET | /api/v1/models/top |
返回保守语义下的 top-k 可运行模型。 |
| GET | /api/v1/models/{name} |
按模型家族或名称约束进行搜索。 |
推荐查询参数
limit / n限制返回行数。仪表盘和调度器通常应该使用较小的 top-k 值。
min_fit生产默认建议使用 good;如果只是探索拉伸空间,可以放宽到 marginal。
use_case可按 coding、chat、reasoning、embedding 等工作负载类别进行约束。
runtime当你的环境统一使用 MLX 或 llama.cpp 等特定运行时时,可以进一步限制结果。
集成方式
/health。/api/v1/system。/api/v1/models/top?min_fit=good&limit=5。让内部 Agent 在选模型、排任务或分配工作负载之前,先查询节点本地适配结果。
把推荐结果接到一个小型运维界面上,减少团队在聊天工具里反复询问“这台机器能跑什么”。
curl http://127.0.0.1:8787/health
curl http://127.0.0.1:8787/api/v1/system
curl "http://127.0.0.1:8787/api/v1/models?limit=20&min_fit=marginal&sort=score"
curl "http://127.0.0.1:8787/api/v1/models/top?limit=5&min_fit=good&use_case=coding"
curl "http://127.0.0.1:8787/api/v1/models/Mistral?runtime=any"
如果希望调度策略更稳妥,优先使用 `min_fit=good`、`include_too_tight=false`、`sort=score` 和较小的 `limit` 值。
还需要部署细节?