华为发布开源技术 SINQ，大幅降低大语言模型硬件需求

大浪淘沙 · 发表于 4 小时前

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

×

华为苏黎世计算系统实验室推出名为 SINQ（Sinkhorn-Normalized Quantization）的开源量化技术，可将大语言模型内存使用量减少 60-70%，使原本需要超过 60GB 内存的模型能在约 20GB 配置上运行。该技术让此前需要 NVIDIA A100（1.9 万美元）或 H100（超过 3 万美元）企业级 GPU 的模型，现在可在单块 RTX 4090（约 1600 美元）消费级显卡上运行。

SINQ 采用双轴缩放和 Sinkhorn-Knopp 风格归一化两项创新技术，无需校准数据即可实现高质量量化。在 WikiText2 和 C4 等基准测试中，SINQ 在多种架构模型上均表现优异，量化速度比 HQQ 快约 2 倍，比 AWQ 快超过 30 倍。华为已在 GitHub 和 Hugging Face 上以 Apache 2.0 许可证开源该技术。

VentureBeat | Huggingface

[最新资讯] 华为发布开源技术 SINQ，大幅降低大语言模型硬件需求

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

版权声明

回复

浏览过的版块

帅哥

龙的传人

版主

活跃之星

寅虎

卯兔

常住居民

在线之星

在线之星

关于我们

服务支持

ysqbbs@outlook.com