1. 笔记本或工作站评估
先按 coding、chat、reasoning 或 multimodal 场景筛选,再比较你手上这台机器真正适合跑哪些模型。
llmfit
llmfit recommend --json --use-case coding --limit 5
应用场景
只要本地 AI 的选型决策需要更快、更少浪费、更容易向团队解释, LLMFit 就能发挥作用。尤其当同一个问题要在多台机器、多个项目、 多个客户环境里反复回答时,它的价值会更明显。
先按 coding、chat、reasoning 或 multimodal 场景筛选,再比较你手上这台机器真正适合跑哪些模型。
llmfit
llmfit recommend --json --use-case coding --limit 5
在每台节点上运行 serve 模式,让调度器或资产平台查询统一格式的可运行模型列表。
llmfit serve --host 0.0.0.0 --port 8787
curl http://node:8787/api/v1/models/top?min_fit=good
先以目标模型为起点,反推需要怎样的硬件,而不是买完机器之后才发现模型路线不可行。
llmfit plan "Qwen/Qwen3-4B-MLX-4bit" --context 8192 --target-tps 25
把“这套客户硬件适合跑什么模型”从个人经验判断,提升为一套可审查、可记录、可复用的建议流程。
用户画像
希望快速得到结论:这台笔记本或工作站到底该跑什么模型,避免浪费存储和配置时间。
需要把节点侧模型可用性暴露给更大的内部平台、调度系统或机器资源目录。
llmfit serve/api/v1/system 与 /api/v1/models/topmin_fit=good 作为保守基线需要给客户或业务团队提供更有依据的建议,而不是“我个人更喜欢哪个模型”。
需要在混合 CPU、小显卡和边缘设备上挤出尽可能实用的本地 AI 效果。
工作流示例
在拉取模型之前先用 TUI 或 CLI 判断,这是减少无效下载和错误选型最简单的一步。
在每台机器上运行 `llmfit serve`,再由控制平面统一聚合结果并做多节点决策。
当你已经确定目标模型家族时,计划模式可以帮你反推出达到目标所需的硬件路径。
下一步