应用场景

LLMFit 在什么情况下最有实际价值。

只要本地 AI 的选型决策需要更快、更少浪费、更容易向团队解释， LLMFit 就能发挥作用。尤其当同一个问题要在多台机器、多个项目、多个客户环境里反复回答时，它的价值会更明显。

先按 coding、chat、reasoning 或 multimodal 场景筛选，再比较你手上这台机器真正适合跑哪些模型。

llmfit
llmfit recommend --json --use-case coding --limit 5

在每台节点上运行 serve 模式，让调度器或资产平台查询统一格式的可运行模型列表。

llmfit serve --host 0.0.0.0 --port 8787
curl http://node:8787/api/v1/models/top?min_fit=good

先以目标模型为起点，反推需要怎样的硬件，而不是买完机器之后才发现模型路线不可行。

llmfit plan "Qwen/Qwen3-4B-MLX-4bit" --context 8192 --target-tps 25

把“这套客户硬件适合跑什么模型”从个人经验判断，提升为一套可审查、可记录、可复用的建议流程。

用户画像

适合哪些专业使用者。

希望快速得到结论：这台笔记本或工作站到底该跑什么模型，避免浪费存储和配置时间。

需要把节点侧模型可用性暴露给更大的内部平台、调度系统或机器资源目录。

需要给客户或业务团队提供更有依据的建议，而不是“我个人更喜欢哪个模型”。

需要在混合 CPU、小显卡和边缘设备上挤出尽可能实用的本地 AI 效果。

工作流示例

在拉取模型之前先用 TUI 或 CLI 判断，这是减少无效下载和错误选型最简单的一步。

在每台机器上运行 `llmfit serve`，再由控制平面统一聚合结果并做多节点决策。

当你已经确定目标模型家族时，计划模式可以帮你反推出达到目标所需的硬件路径。

下一步

查看 API 部署方案