产品文档
理解 LLMFit 如何判断本地模型适配度。
LLMFit 是一个面向硬件的判断层。它不替代 Ollama、llama.cpp、MLX 等推理运行时,而是在下载、部署和调度之前,先告诉你哪些模型、 哪些量化方式、哪些运行路径对当前机器更合理。
核心模型
引擎究竟在评估什么。
硬件形态
总内存、可用内存、CPU 核心数、GPU 数量、显存、后端类型、统一内存以及提供方安装状态。
模型形态
参数规模、上下文长度、发布时间、MoE 特性、量化选项以及提供方可用性。
适配维度
适配度、速度、上下文与质量分数会综合形成排序,而不是依赖单一 Benchmark。
运行路径
GPU、CPU offload、纯 CPU 和统一内存场景被分别建模,因为它们的实际可用性差异非常大。
适配等级
这是运营标签,不是营销标签。
Perfect
模型可以相对从容地运行,是当前硬件下高置信度的本地部署候选。
Good
资源消耗合理、可稳定运行。对于保守部署策略,通常是更合适的默认阈值。
Marginal
技术上能跑,但内存压力或预期吞吐更紧张,需要谨慎评估交互体验与稳定性。
Too tight
适合做分析参考,但一般不应作为安全的默认部署目标进入生产调度结果。
接口层
同一套引擎,多种使用入口。
| 入口 | 适用场景 | 常见命令 |
|---|---|---|
| TUI | 交互式筛选、模型对比、计划模式 | llmfit |
| CLI | 脚本化、JSON 导出、批量审计、重复检查 | llmfit recommend --json |
| REST API | 调度器、Agent、内部平台、节点侧服务 | llmfit serve --host 0.0.0.0 --port 8787 |
| Desktop | 希望保留同一套逻辑但使用图形界面的 macOS 用户 | cargo tauri build |
运行时覆盖
LLMFit 可以和哪些栈协同。
Ollama
支持检测、已安装模型感知,以及以拉取模型为中心的工作流。
llama.cpp / GGUF
面向常见本地 CPU/GPU 路线的量化感知适配分析。
MLX
针对 Apple Silicon 的模型处理与吞吐预估。
Docker Model Runner
适合正在标准化本地模型栈的团队做容器化运行时覆盖。
仓库结构
当前代码库交付了什么。
llmfit-core/
硬件检测、模型目录、适配评分、计划逻辑与提供方集成都在这里。
llmfit-tui/
终端 UI、经典 CLI 命令和 REST API 入口点。
llmfit-desktop/
面向 macOS 的 Tauri 桌面封装,为图形化使用方式提供入口。
site/
可独立部署的品牌站点与文档站资产,与运行时工具相互解耦。
下一步