Ntk-aware 插值-尧图企业网站定制

1 引言文章链接https://www.reddit.com/r/LocalLLaMA/comments/14lz7j5/ntkaware_scaled_rope_allows_llama_models_to_have/位置插值Position Interpolation, PI[1] 是拓展旋转位置编码Rotary Position EmbeddingRoPE[2] 大模型上下文窗口的基础方案但全局统一压缩位置索引会丢失高频维度的细粒度位置信息短文本生成效果大幅衰减。NTK-aware[3] 插值针对该痛点做优化通过调整 RoPE[2] 基底实现频率分层处理高频近似外推、低频等价插值无需改动模型结构仅调整超参就能平衡长短文本性能落地门槛极低。下文完整讲解 NTK-aware[3] 的推导逻辑、缩放规律与实际应用优劣。2 NTK-awareRoPE[2] 回顾Roformer: Enhanced transformer with rotary position embedding-CSDN博客对位置索引为 p 的嵌入向量在复数域应用的旋转变换为其中是一个常数通常取 10000d 为输入特征的维度则周期 T 为随着 i 的增加三角函数周期 T 呈现单调递增趋势而频率则相应单调递减。因此低维可视为高频维度高维则为低频维度。值得注意的是采用 PI[1] 方法会导致高频维度变得过于密集。为此NTK-aware[3] 策略不同于 PI[1] 对所有维度的均匀缩放而是采取了差异化处理减少对高频区域的缩放同时增加对低频区域的缩放即实现高频外推与低频内插的平衡。给引入一个系数可以获得这样的变换为使最低频项和 PI[1] 一致有解得其中 k 为目标上下文窗口大小与预训练上下文窗口大小的比值。则频率向量freqs可以计算为则有可以计算出等效缩放倍数随着 i 的增加呈现单调递增趋势。当 i 接近0 时接近1几乎不压缩纯外推等效窗口放大 k 倍无任何收缩。随着 i 的增加增大压缩程度增大但仍小于 k减少了对高频区域的缩放同时增加了对低频区域的缩放。当 i 接近时接近 k此时和 PI[1] 几乎等价。因此NTK-aware[3] 巧妙地将外推和内插方法融为一体。3 总结本文系统梳理了 NTK-aware[3] 插值的设计动机、数学推导与分层缩放逻辑。作为线性位置插值 PI[1] 的优化方案NTK-aware[3] 精准解决了 PI[1] 全局统一压缩带来的高频位置分辨率丢失问题基于 RoPE[2] 高低频维度预训练充分程度不同的特性通过调整旋转基底实现差异化缩放高频维度等效近乎无压缩外推、低频维度效果与 PI[1] 完全对齐将外推与插值两种策略融合在一套公式中。从等效缩放倍率规律能够看出维度下标越小、频率越高压缩力度越弱仅最低频区间才达到和 PI[1] 一致的缩放倍数 k。该方案无需修改模型主干结构仅调整 RoPE[2] 基底超参即可部署轻度扩长上下文时甚至无需微调大幅平衡长文本建模与短句生成质量。但 NTK-aware[3] 仍存在局限全局统一基底调整无法精细区分中间频段超大扩展倍数下长距离检索效果会出现衰减后续 NTK-by-parts [4]、YaRN[5] 等分段优化方案也正是针对该短板进一步迭代。整体而言NTK-aware[3] 兼顾理论简洁性与工程易用性是本地部署开源大模型拓展上下文的经典实用方案。参考文献[1] Chen S, Wong S, Chen L, et al. Extending context window of large language models via positional interpolation[J]. arXiv preprint arXiv:2306.15595, 2023.[2] Su J, Ahmed M, Lu Y, et al. Roformer: Enhanced transformer with rotary position embedding[J]. Neurocomputing, 2024, 568: 127063.[3] Peng B, Quesnelle J. Ntk-aware scaled rope allows llama models to have extended (8k) context size without any fine-tuning and minimal perplexity degradation[EB/OL].(2023)[4] bloc97. Add NTK-Aware interpolation by parts correction, 2023. URL https://github. com/jquesnelle/scaled-rope/pull/1.[5] Peng B, Quesnelle J, Fan H, et al. Yarn: Efficient context window extension of large language models[C]//International Conference on Learning Representations. 2024, 2024: 31932-31951.

相关新闻

鸿蒙PC适配llvm-gcc-compat编译安装第三方库itertools，打造Rust 第三方迭代器增强库

鸿蒙PC适配llvm-gcc-compat编译安装第三方库chrono，打造Rust 第三方日期时间处理库

【AI应用实战-WorkBuddy】效率翻倍：我的 WorkBuddy 工作流分享（十八）

SRC漏洞挖掘实战：从信息搜集到逻辑漏洞的完整狩猎指南

OpenClaw+飞书机器人：本地大模型接入企业协作流实战指南

MATLAB学生大使：从技术探索到社区构建的实践指南

构建现代化文件交换系统：从对象存储到安全协作的工程实践

iOS应用安全深度解析：IPA文件静态与动态分析实战指南

PHP医疗数据安全备份加密：避开密钥管理、算法误用与流程漏洞三大致命陷阱

RAG 系统中「检索质量」与「生成质量」之间那道隐形的鸿沟，到底是怎么形成的？

UVA10082 WERTYU（洛谷-UVA10082）

2026怎么选能支持多流派解盘逻辑的AI辅助解盘工具？资深专家教你看懂底层算力

3个步骤让小爱音箱变身AI语音助手：MiGPT深度体验指南

【人工智能】一文搞定到底什么是智能体

嵌入式GUI开发实战：emWin控件API解析与避坑指南

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定