系统要求


内存要求

不同的模型规格,需要的物理内存大小不相同,模型越大,推理速度越慢。

由于当前只支持 CPU 推理,建议不要使用高于 7B 的模型规格,推荐使用 Q4_0 量化后的模型, 以达到最佳推理速度。

内存要求

Model Original size Q4 size
7B 13 GB 3.9 GB
13B 24 GB 7.8 GB
30B 60 GB 19.5 GB
65B 120 GB 38.5 GB

推理引擎会将模型全部加载到内存,因此内存的要求和模型在磁盘上的大小相当(略大,除了模型,还需要缓存一些内容)。

Q4 表示 4bit 量化,你可以通过 Q4 的尺寸推断出其他量化格式的模型大小。


模型支持

目前 MediaPipe4ULLM 使用 llama.cpp作为推理后端,因此支持的模型和 llama.cpp 保持一致:


性能参考

不同的 CPU 可能对性能产生一定影响,以下是用非常低端的设备实测的数据:

CPU: AMD3600
RAM: 32G
GPU: NVIDIA GTX 2060 (6G)

速度: 5.5-6.5 TPS (tokens per second)

使用 Intel CPU 推理速度会有提升, 测试数据证明哪怕是低端设备也能运行 LLM 。