大模型有时候真没小模型好用。
昨晚在给博客网站做一些 vibe coding 的工作,有个从公众号拉文章到博客网站的操作,拉完之后博客网站不显示内容只有一个原文链接,我让具有 200B 参数的 MiniMax-M2.7 模型解决这个问题,跑了两三遍,做了一堆工作后打开网站一看啥也没动。我就知道这模型好拉。
云端大模型的局限
换啥模型好呢,之前 qwen3.5 27B 在 Pinchbench 榜单上屠了一堆大模型,现在更新到 qwen3.6 了,能不能部署到本地试一下?
查资料配 ollama 下载模型文件加载,然后发现工具调用不上,显卡调用不如意。转头换 llama.cpp,为啥不用 vllm 呢因为吃过 vllm 的亏了……当时为了给联想 PGX,一台有着 128G 统一内存的小盒子部署一个本地模型结果花了我一天半的时间。
我的电脑有两张显卡,一张是 2060 12G,一张是 5060ti 16G,在买这两张显卡的时候就已经考虑到要大显存用于应对视频剪辑需求以及日益增长的 AI 需求。在 llama.cpp 上通过极限调参实现了 qwen3.5 27B 在 120k 上下文窗口配置下的本地部署。
本地小模型的优势
实测吐字速度在 20 tokens/s,跟付费了的云端大模型没法比,但是我让它去解决 MiniMax 跑两三遍都没解决的问题时,qwen 只跑了一遍就发现问题并解决了,而且不像 MiniMax 弯弯绕绕一大堆。
效率胜于规模
这也印证了 openAI 高管描述 gpt5.5 比 gpt5.4 定价更贵的一句话:更好的模型解决问题的路径更短,耗费的时间更短,消耗的 tokens 更少,实际上是更省钱了。
(唉我刚给 MiniMax 氪的年卡啊……希望 MiniMax 迭代快点而且出点小模型选择吧,大模型有时候解决问题尤其是 vibe coding 的时候真不如小模型)
