
kilbo.com/news/article/A2026040208470003130)
倍。 这场下跌的导火索,是谷歌研究院即将在国际学习表征会议(ICLR 2026)上正式亮相的论文“TurboQuant”。谷歌团队称,通过两项创新技术PolarQuant(极坐标量化)和QJL(量化JL变换),实现了在“零损失”前提下将KV Cache压缩至3-bit精度,内存占用缩小至少6倍。该算法在H100 GPU加速器上相较于未量化键值还实现了高达8倍的性能提升。 谷歌本周在X平台上宣传
当前文章:http://j7xd.zb-xpr-quickq.com.cn/2gj9wa/f18ot.htm
发布时间:01:50:16
推荐阅读