文章详情

近年来,基于 Transformer 架构的大型语言模型(LLMs)取得了显著进展,诸如 Gemini-Pro1.5、C
2025-04-23 21:19:10
文章详情介绍
近年来,基于 Transformer 架构的大型语言模型(LLMs)取得了显著进展,诸如 Gemini-Pro1.5、Claude-3、GPT-4和 Llama-3.1等新模型能够处理成百上千的token。
然而,这些扩展的上下文长度带来了实际应用中的一些重大挑战。随着序列长度的增加,解码延迟上升,内存限制也成为了一个严重的瓶颈。KV 缓存在推理过程中储存上下文信息,随着上下文长度的增加,缓存的大小也呈比例增长,这导致内存饱和,严重影响了处理长输入序列的效率,因此迫切需要优化解决方案。
虽然市场上存在一些无训练的方法,但它们通常依赖于获取注意力权重来确定键值对的重要性,这使其与高效的注意力算法(如 FlashAttention)不兼容。这些方法往往需要对注意力矩阵进行部分重新计算,从而引入了时间和内存开销。因此,现有的压缩算法主要用于在生成答案之前压缩提示,而非优化在内存受限的生成过程中。这一局限性强调了需要开发既能保持模型性能又不需要架构修改的压缩技术。
来自索邦大学、法国国家信息与自动化研究所、罗马萨平扎大学、爱丁堡大学和 Miniml.AI 的研究团队提出了 Q-Filters,这是一种强大的无训练 KV 缓存压缩技术,利用基于查询的过滤方法来优化内存使用,同时保持模型性能。Q-Filters 通过评估与当前查询相关的键值对的重要性,而不是依赖于注意力权重。这种方法确保了与高效注意力算法的兼容性,且无需重新训练或修改架构。通过动态评估并保留最相关的上下文信息,Q-Filters 实现了显著的内存减少,同时维持了推理质量。
Q-Filters 在多个评估场景中表现出色,始终优于现有的 KV 缓存压缩方法。在对 Pile 数据集的语言建模测试中,该技术在所有压缩方案中实现了最低的困惑度。特别是在 Llama-3.1-70B 模型上,Q-Filters 在上下文保留至关重要的序列后半部分显示出显著的困惑度降低。
在 “针在干草堆” 任务中,Q-Filters 保持了91% 的准确率,成功地保存了极端上下文长度(从1K 到64K token)中的重要信息。综合评估还验证了该方法的优越性,尤其是在高压缩率下(32倍),Q-Filters 在长上下文建模基准测试中取得了最高分。
论文:https://arxiv.org/abs/2503.02812
huggingface:https://huggingface.co/collections/nthngdy/q-filters-67a4994dcb302a3d37f3d119
划重点:
🔍 Q-Filters 是一种无训练的 KV 缓存压缩技术,能够有效优化内存使用而不损失模型性能。
📊 该方法在多个评估中表现优越,特别是在语言建模和极端上下文任务上取得了最低的困惑度和最高的准确率。
🛠️ Q-Filters 与高效注意力算法兼容,且只需在模型训练后进行一次准备步骤,便可用于实际应用。
最新星火攻略
更多- 剑灵角色捏脸数据库:为每一位玩家打造独一无二的个性化角色体验
- 如何在逍遥九重天中有效分配养成资源以提高角色成长与战斗力
- 美国政府拟通过人工智能技术识别支持哈马斯的国际学生并采取签证撤销措施
- 暗黑破坏神3 购买建议及全面游戏评测与攻略解析
- 如何获得修真大道之花的详细攻略与技巧分享
- QQ音乐全新发布“AI音乐播客”功能:聆听音乐的同时享受理解与互动的新体验
- 探索魔兽世界盒子:深度分析这一游戏辅助神器的独特功能与使用技巧
- 如何在想不想修真的过程中掌握与理解神界的普遍运作规律和法则
- AI资讯快报:X平台官方账户遭冻结!全新Manus开源替代版即将发布;腾讯推出混元图生视频模型开源计划;Mistral AI发布全球最强OCR技术
- DNF石头详细解析:属性特点、获取途径及实用用途全面分析
- 思科创立开放性组织 AGNTCY,推动 AI 代理基础设施的创新与发展
- 哪些明星艺人一定能在票房大卖中获得五星评价呢?
- Spark-TTS:借助人工智能技术实现声音的“克隆”与“个性化定制”新可能性!
- 修真世界中烂陀寺的功防到底需要达到什么程度才能顺利修行?
- 净天之命1.77 深入解析与游戏玩法探讨:揭秘净天之命1.77的魅力与乐趣
最新星火智能
更多- 仅需三小时轻松复刻Manus!OpenManus强势登场,瞬间获得GitHub超3000个星标引发热议
- 三国战纪风云再起之赵云连招全解析,带您领略赵云强大连击技巧
- 凡人传说新手指南:踏入凡界生存所需的基本技巧和知识总览
- “Mistral AI 发布行业领先的文档识别技术 Mistral OCR:开创文档理解的新标准”
- 魔兽世界Boss掉落机制与数据解析,深入了解每个Boss的掉落物品与策略
- 凡人传说中星玄宗秘境八个位置的具体分布及其攻略解析
- Manus对官方X账号被冻结事件做出回应:强烈否认与加密货币诈骗活动存在任何关系
- 阿拉德冒险团的奇妙旅程:在未知世界中展开探索与挑战的精彩冒险之旅
- 饿了么宣布举办本地生活AI算法大赛,总奖金池高达30万元,诚邀各方才俊参与
- 进入修真的世界,你了解有哪些门派和他们的修炼特色吗?
- 在龙腾世界中选择最佳职业的攻略与建议,深入分析各职业优劣势
- 无代码3D创作工具Intangible成功获得400万美元融资,助力创意表达与数字艺术发展
- 探秘江湖挑战如何顺利通关天星70层的秘诀与技巧分享
- 英雄联盟开黑秘籍与乐趣深度探讨,分享最佳游戏策略与团队协作技巧
- 阿里通义千问推出的QwQ-32B推理大模型荣登全球开源社区排行榜首位