两个人一前一后的图片 将 600 亿参数大模子装进手机的瓶颈,终于被中国 AI 公司破损了

一个 8B 参数的大模子,频频需要约 16GB 显存。参数越多,越吃显存,这便是为什么两个人一前一后的图片,内存价钱一天比一天高。
当今,有一种步调,不错省下 6 倍显存,却果然不损耗模子性能。
当年两年,围绕这个看似极点的想路,一条公共性的时候竞赛正在成型。而就在这条赛谈上,一个皆备基于国产算力的有贪图,刚刚给出了我方的第一个回复。
模子被压到了不到 3B,同期,才调却不错保留 97%,以致更进一步,若是结合 MoE 架构,畴昔不错平直在一部 8GB 内存的手机,运行 600 亿参数的大模子。
听上去匪夷所想,奈何作念到的?
三个值,能跑大模子吗
传统大模子用极端精准的数字存储,意味着每个权重不错取几万种不同的数值,精度很高,但也很占内存。三值量化是一个极点的反向操作:平直把可选的数值从几万种砍到三种。时候上,这被称为 1.58-bit,因为编码三个值无意需要约 1.58 个二进制位。
这个压缩有多极点?打个比喻:若是传统大模子的权重是一幅全彩像片,三值量化便是把它压成唯有黑、白、灰三色的极简图形。
直观上你会合计这势必亏本惨重。但当年两年的究诘反复阐扬,模子权重里存在浩荡冗余信息。三个值,若是分派妥当,足以承载绝大部分的模子才调。

这不是一个新见解。2024 年,微软究诘院发布了 BitNet b1.58,第一次系统论证了三值大模子不错靠近全精度模子的性能。微软随后在客岁进一步发布了 BitNet b1.58 2B4T,一个 20 亿参数、4 万亿 token 历练的开源三值模子。上个月,好意思国公司 PrismML 发布了 Ternary Bonsai 系列,声称是首批买卖可用的 1.58-bit 模子。

▲
上:Llama FP16架构,下:微软究诘院开发的BitNet架构
学术界也不异在跟进:Tequila 建议了贬责三值量化中「死权重罗网」的新步调,TernaryLM 探索了从零初始的原生三值历练。
一条公共赛谈正在成型。但有一个要津问题永久莫得被回复:
三值大模子历练,能在国产算力上跑通吗?
昇腾上的第一次两个人一前一后的图片
这一次,在华为鲲鹏昇腾开发者大会(KADC 2026)上,面壁智能给出了谜底。
BitCPM-CANN 是面壁智能招引清华大学、OpenBMB 开源社区发布的三值大模子系列。它的意旨不仅在于「又发了一个三值模子」。在公共赛谈上,BitCPM-CANN 作念到了三个此前莫得东谈主作念到的事情。
第一次,在华为昇腾上端到端完成三值大模子历练。此前总计公开的三值模子历练都在 NVIDIA GPU 上完成。国产芯片阵营第一次领有了我方的三值历练才调。
第一次,一次性把范围推到 8B。此前昇腾上的低比特历练停留在较小范围的考据阶段。BitCPM-CANN 平直发布了 0.5B、1B、3B、8B 四个档位,粉饰从手机到 PC 的好意思满端侧场景。
第一次,完毕了与全精度模子的好意思满对照评测。11 项任务、四大类评测(学问、阅读知晓、学科知识、数学推理),1B 到 8B 档位的才调保留率在 95.7%到 97.2%之间。
97.2%的才调保留率意味着什么?在 ARC、CMMLU、GSM8K 等主流评测中,BitCPM-CANN 三值模子与同尺寸 MiniCPM4 全精度模子的差距,照旧小于好多全精度模子之间的差距。其中,3B 档位的保留率最高,达到 97.2%。
并且,这不仅仅论文里的数字,是能真确不错「拿来就用」的恶果。BitCPM-CANN 的一起尺寸版块照旧开源,0.5B 到 8B 四个档位都不错平直下载复现。

关于正经面壁智能 MiniCPM 系列的开发者来说,BitCPM-CANN 便是 MiniCPM 眷属的三值版块,如故一套生态。在并吞个 GitHub 社区,眷属前辈积聚了 3 万颗星、Hugging Face 总下载量超 3000 万的「家产」,当今滋长出来了新的标的。
6 倍显存,从处事器得手机都「吃到红利」
比拟 BF16 全精度模子,BitCPM-CANN 纯粹约 6 倍显存,这个数字开发者最能平直感知:一个 8B 参数的全精度模子需要约 16GB 显存,BitCPM-CANN 三值版块不到 3GB,不错带领运行在一部手机上,互助 MoE 与激活范围不停,60B 范围的模子有望装入结尾开采。
硬件端也照旧准备好了。高通最新的旗舰芯片 8850 和 8397 守旧 2-bit 原生推理,BitCPM-CANN 提供的无意是不错平直喂进去的低比特权重。
芯片厂商等供给,模子厂商等芯片,当今双方同期到位了,精品人妻无码一区二区三区在线奈何不是一种「双向奔赴」。
手机厂商对端侧大模子的干与一直在加快。上周 Google I/O 上,Gemini Intelligence 全面给与 Android 开采,从手机得腕表到车机;苹果也将在 6 月 WWDC 上展示下一代 Apple Intelligence 的紧要升级。

两大手机操作系统同期发力,共同指向一个现实:手机端侧要跑越来越强的 AI,内存便是最硬的瓶颈。谁能用更少的内存跑更强的模子,谁就掌合手了下一轮竞争的主动权。
推行上,若是结合总计这个词 AI 产业正在经验的阵痛,价值又会更进一竿:4 月时,高盛把全年 DRAM 价钱涨幅预期上调到 280%,好意思银预估公共 HBM 市集将达到 546 亿好意思元。

AI 基础法子最紧缺的资源便是内存,6 倍显存红利意味着不加多物理内存,就能把模子才调栽植数倍。在内存接续加价的情况下,这不是优化,是刚需。
三值量化不是「用精度换内存」的融合。当 97%的才调被保留住来时,证据传统 16 位模子里浩荡的精度可能是冗余的。三个值,足以承载一个大模子的绝大部分知识。低比特不再是工程上的纯粹技能,而是一种新的权重知识承载边幅。
为什么是面壁智能,为什么是当今
当 AI 从云表走向结尾,端侧模子正在成为个东谈主智能开采的中枢才调。手机、电脑、车机,每一个贴近用户的结尾都在等一个实足小、实足强、实足省内存的模子。这条赛谈的赢输手,不会是那些只会把模子作念大的团队,而是能把模子作念小、作念轻、作念到真确能跑起来的玩家。
为什么是面壁智能,能在端侧大模子这条路上,一直走在前沿?这个问题的谜底不在 BitCPM-CANN 自己,而在这家公司当年几年,一直在作念的一件看起来有些「别离群」的事。
面壁智能从修复之初就押注效能,在国内大多数团队追赶更大模子的时候,他们花了浩荡时代作念底层历练框架 BM-Train,贬责「奈何用更少的资源,训出实足好的模子」,这套基础法子积聚是其后一切的起首。
在 1.58-bit 方朝上,面壁智能的判断早于行业共鸣。好多数团队还在逗留极低比特是否可行时,面壁智能就选择了这条路子,先在 GPU 上跑通了好意思满的历练经由和步调论,再举座移动到昇腾平台上。不错说,BitCPM-CANN 不是把一个模子移植到了国产芯片上,而是把一整套经过考据的历练步调、效能路子和工程体系,搬进了国产算力的底座。
在模子层面,面壁智能的端侧模子 MiniCPM 系列在 GitHub 上积聚了逾越 3 万颗星,Hugging Face 开源总下载量逾越 3000 万,是端侧大模子边界最受迎接的中国开源模子眷属。

BitCPM-CANN 恰是 MiniCPM 眷属向三值量化的延长,远不啻一个展示性的「PPT 模子」,是一个真确可复用的工程地基。它背后的历练链路照旧被千里淀为昇腾低比特历练的基础法子,后续总计想在昇腾上作念低比特历练的团队,都不错在并吞套底座上起步。
值得一提的是,BitCPM-CANN 还在华为昇腾上完成了端到端的三值历练,历练效能达到惯例基线的 95%。这阐扬了这套步调论不依赖特定硬件平台,国产算力不异不错跑通。

不是等硬件变得实足重大来合乎模子,要让模子变得实足机灵来合乎硬件。
从历练端的华为昇腾,到推理端的结尾芯片,再到开源的模子和历练剧本,这是一条好意思满的国产闭环,框架国产,芯片国产,模子国产,步调论自主。面壁智能的下一步照旧明确:进一步栽植模子的才调保留率,用 MoE 架构推广更大范围模子的容量,把 6 倍显存红利好意思满开释到部署中。更长久的计较,是粉饰从预历练到对皆的全经由低比特化。
从底层历练框架 BM-Train,到端侧模子眷属 MiniCPM,再到 BitCPM-CANN,面壁智能用几年时代搭建了一套好意思满的端侧大模子时候体系。在公共赛谈上,面临微软、PrismML,面壁智能展现出了专有的不同上风之处在于:从框架、步调论、模子到芯片适配,构建了一条好意思满的端侧时候路子。
当 AI 竞争从「谁的模子更大」转向「谁能让智能真确跑在每一台开采上」时两个人一前一后的图片,掌合手端侧时候语言权的东谈主,才站在了最有意的位置。
声明:新浪网独家稿件,未经授权回绝转载。 -->
