产品文档

理解 LLMFit 如何判断本地模型适配度。

LLMFit 是一个面向硬件的判断层。它不替代 Ollama、llama.cpp、MLX 等推理运行时，而是在下载、部署和调度之前，先告诉你哪些模型、哪些量化方式、哪些运行路径对当前机器更合理。

569 当前已内置的模型目录条目数量

142 目录元数据中已覆盖的提供方名称数量

2 当前目录可直接过滤的能力标记：工具调用与视觉能力

核心模型

引擎究竟在评估什么。

总内存、可用内存、CPU 核心数、GPU 数量、显存、后端类型、统一内存以及提供方安装状态。

参数规模、上下文长度、发布时间、MoE 特性、量化选项以及提供方可用性。

适配度、速度、上下文与质量分数会综合形成排序，而不是依赖单一 Benchmark。

GPU、CPU offload、纯 CPU 和统一内存场景被分别建模，因为它们的实际可用性差异非常大。

适配等级

模型可以相对从容地运行，是当前硬件下高置信度的本地部署候选。

资源消耗合理、可稳定运行。对于保守部署策略，通常是更合适的默认阈值。

技术上能跑，但内存压力或预期吞吐更紧张，需要谨慎评估交互体验与稳定性。

适合做分析参考，但一般不应作为安全的默认部署目标进入生产调度结果。

接口层

运行时覆盖

Ollama 支持检测、已安装模型感知，以及以拉取模型为中心的工作流。

llama.cpp / GGUF 面向常见本地 CPU/GPU 路线的量化感知适配分析。

MLX 针对 Apple Silicon 的模型处理与吞吐预估。

Docker Model Runner 适合正在标准化本地模型栈的团队做容器化运行时覆盖。

仓库结构

硬件检测、模型目录、适配评分、计划逻辑与提供方集成都在这里。

终端 UI、经典 CLI 命令和 REST API 入口点。

面向 macOS 的 Tauri 桌面封装，为图形化使用方式提供入口。

可独立部署的品牌站点与文档站资产，与运行时工具相互解耦。

下一步

研究 API 查看对比