Qwen-Scope SAE-Res-Qwen3.5-27B-W80K-L0_100解密大语言模型内部机制的可解释性工具【免费下载链接】SAE-Res-Qwen3.5-27B-W80K-L0_100项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100Qwen-Scope SAE-Res-Qwen3.5-27B-W80K-L0_100是一款基于稀疏自编码器SAE的大语言模型可解释性工具专为Qwen3.5-27B模型设计通过解析模型内部64层残差流特征帮助开发者和研究者理解AI模型的决策过程。为什么需要大语言模型可解释性工具大语言模型LLM如Qwen3.5-27B在生成文本时其内部 billions 级参数的运作机制一直被视为黑箱。Qwen-Scope通过稀疏自编码器技术将模型隐藏层的复杂特征分解为81920个可解释的独立特征每个特征对应特定的语义概念或模式使我们能直观观察模型如何思考。核心功能与技术特点✨ 关键技术参数参数数值说明基础模型Qwen3.5-27B基于270亿参数的Qwen3.5模型构建SAE宽度81920每个SAE包含81920个独立特征隐藏层维度5120与Qwen3.5-27B的残差流维度匹配扩展因子16×特征空间扩展16倍实现高分辨率特征分解激活特征数100每层仅激活100个特征保证稀疏性和可解释性覆盖层数0-63完整覆盖64层Transformer结构 模型架构解析每个layer{n}.sae.pt文件包含四个核心张量张量形状作用W_enc(81920, 5120)编码器权重矩阵将残差流映射到SAE特征空间W_dec(5120, 81920)解码器权重矩阵将SAE特征重构为残差流b_enc(81920,)编码器偏置b_dec(5120,)解码器偏置这种架构确保模型在保持高精度重构残差流的同时提取出高度解耦的特征表示。快速上手指南 环境准备首先克隆项目仓库git clone https://gitcode.com/hf_mirrors/Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100 cd SAE-Res-Qwen3.5-27B-W80K-L0_100 特征激活提取示例以下代码展示如何提取特定层的SAE特征激活import torch from transformers import AutoTokenizer, AutoModelForCausalLM # 加载基础模型 model_name Qwen/Qwen3.5-27B tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModelForCausalLM.from_pretrained(model_name, torch_dtypetorch.float32) model.eval() # 加载目标层SAE LAYER 0 # 可选择0-63中的任意层 sae torch.load(flayer{LAYER}.sae.pt, map_locationcpu) W_enc sae[W_enc] # (81920, 5120) b_enc sae[b_enc] # (81920,) # 定义特征激活提取函数 def get_feature_acts(residual: torch.Tensor) - torch.Tensor: 将残差流转换为稀疏特征激活 pre_acts residual W_enc.T b_enc topk_vals, topk_idx pre_acts.topk(100, dim-1) acts torch.zeros_like(pre_acts) acts.scatter_(-1, topk_idx, topk_vals) return acts # 注册钩子捕获残差流 captured {} def _hook(module, input, output): hidden output[0] if isinstance(output, tuple) else output captured[residual] hidden.detach().cpu() hook model.model.layers[LAYER].register_forward_hook(_hook) # 前向传播 text The capital of France is inputs tokenizer(text, return_tensorspt) with torch.no_grad(): model(**inputs) hook.remove() # 提取特征激活 residual captured[residual] # (1, seq_len, 5120) feature_acts get_feature_acts(residual) # (1, seq_len, 81920) # 查看最后一个token的激活特征 last_token_acts feature_acts[0, -1] # (81920,) active_idx last_token_acts.nonzero(as_tupleTrue)[0] print(f激活特征索引: {active_idx.tolist()}) print(f特征激活值: {last_token_acts[active_idx].tolist()}) Gradio可视化界面项目提供了直观的Gradio界面app.py运行命令python app.py \ --model Qwen/Qwen3.5-27B \ --model-name-sae-trained-from qwen3.5-27b \ --model-name-analyzing-now qwen3.5-27b \ --sae-path ./ \ --top-k 100 \ --num-layers 64 \ --sae-width 81920 \ --d-model 5120 \ --server-port 7860通过浏览器访问http://localhost:7860即可交互式探索模型各层特征激活情况包括特征热图可视化token级特征激活对比特征引导生成Feature Steering应用场景与价值 学术研究分析模型涌现能力的形成机制研究语言理解的神经表征探索偏见和幻觉的来源️ 模型优化识别冗余或有害特征指导模型剪枝和压缩改进训练数据质量 安全审计检测模型中的不当关联验证对齐目标的实现增强AI系统的透明度注意事项使用本工具时请遵守以下原则仅用于科学研究目的不得干扰模型正常功能禁止用于生成或传播有害信息尊重知识产权引用时请使用以下格式misc{qwen_scope, title{{Qwen-Scope}: Turning Sparse Features into Development Tools for Large Language Models}, author{Boyi Deng and Xu Wang and Yaoning Wang and Yu Wan and Yubo Ma and Baosong Yang and Haoran Wei and Jialong Tang and Huan Lin and Ruize Gao and Tianhao Li and Qian Cao and Xuancheng Ren and Xiaodong Deng and An Yang and Fei Huang and Dayiheng Liu and Jingren Zhou}, year{2026}, eprint{2605.11887}, archivePrefix{arXiv}, primaryClass{cs.CL}, url{https://arxiv.org/abs/2605.11887}, }总结Qwen-Scope SAE-Res-Qwen3.5-27B-W80K-L0_100为大语言模型的可解释性研究提供了强大工具通过稀疏自编码器技术打开了Qwen3.5-27B模型的黑箱。无论是学术研究、模型优化还是安全审计这款工具都能帮助开发者深入理解AI模型的内部工作机制推动更透明、更可靠的AI系统发展。想要探索大语言模型的奥秘立即下载体验Qwen-Scope开启你的AI可解释性之旅【免费下载链接】SAE-Res-Qwen3.5-27B-W80K-L0_100项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
Qwen-Scope SAE-Res-Qwen3.5-27B-W80K-L0_100:解密大语言模型内部机制的可解释性工具
Qwen-Scope SAE-Res-Qwen3.5-27B-W80K-L0_100解密大语言模型内部机制的可解释性工具【免费下载链接】SAE-Res-Qwen3.5-27B-W80K-L0_100项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100Qwen-Scope SAE-Res-Qwen3.5-27B-W80K-L0_100是一款基于稀疏自编码器SAE的大语言模型可解释性工具专为Qwen3.5-27B模型设计通过解析模型内部64层残差流特征帮助开发者和研究者理解AI模型的决策过程。为什么需要大语言模型可解释性工具大语言模型LLM如Qwen3.5-27B在生成文本时其内部 billions 级参数的运作机制一直被视为黑箱。Qwen-Scope通过稀疏自编码器技术将模型隐藏层的复杂特征分解为81920个可解释的独立特征每个特征对应特定的语义概念或模式使我们能直观观察模型如何思考。核心功能与技术特点✨ 关键技术参数参数数值说明基础模型Qwen3.5-27B基于270亿参数的Qwen3.5模型构建SAE宽度81920每个SAE包含81920个独立特征隐藏层维度5120与Qwen3.5-27B的残差流维度匹配扩展因子16×特征空间扩展16倍实现高分辨率特征分解激活特征数100每层仅激活100个特征保证稀疏性和可解释性覆盖层数0-63完整覆盖64层Transformer结构 模型架构解析每个layer{n}.sae.pt文件包含四个核心张量张量形状作用W_enc(81920, 5120)编码器权重矩阵将残差流映射到SAE特征空间W_dec(5120, 81920)解码器权重矩阵将SAE特征重构为残差流b_enc(81920,)编码器偏置b_dec(5120,)解码器偏置这种架构确保模型在保持高精度重构残差流的同时提取出高度解耦的特征表示。快速上手指南 环境准备首先克隆项目仓库git clone https://gitcode.com/hf_mirrors/Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100 cd SAE-Res-Qwen3.5-27B-W80K-L0_100 特征激活提取示例以下代码展示如何提取特定层的SAE特征激活import torch from transformers import AutoTokenizer, AutoModelForCausalLM # 加载基础模型 model_name Qwen/Qwen3.5-27B tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModelForCausalLM.from_pretrained(model_name, torch_dtypetorch.float32) model.eval() # 加载目标层SAE LAYER 0 # 可选择0-63中的任意层 sae torch.load(flayer{LAYER}.sae.pt, map_locationcpu) W_enc sae[W_enc] # (81920, 5120) b_enc sae[b_enc] # (81920,) # 定义特征激活提取函数 def get_feature_acts(residual: torch.Tensor) - torch.Tensor: 将残差流转换为稀疏特征激活 pre_acts residual W_enc.T b_enc topk_vals, topk_idx pre_acts.topk(100, dim-1) acts torch.zeros_like(pre_acts) acts.scatter_(-1, topk_idx, topk_vals) return acts # 注册钩子捕获残差流 captured {} def _hook(module, input, output): hidden output[0] if isinstance(output, tuple) else output captured[residual] hidden.detach().cpu() hook model.model.layers[LAYER].register_forward_hook(_hook) # 前向传播 text The capital of France is inputs tokenizer(text, return_tensorspt) with torch.no_grad(): model(**inputs) hook.remove() # 提取特征激活 residual captured[residual] # (1, seq_len, 5120) feature_acts get_feature_acts(residual) # (1, seq_len, 81920) # 查看最后一个token的激活特征 last_token_acts feature_acts[0, -1] # (81920,) active_idx last_token_acts.nonzero(as_tupleTrue)[0] print(f激活特征索引: {active_idx.tolist()}) print(f特征激活值: {last_token_acts[active_idx].tolist()}) Gradio可视化界面项目提供了直观的Gradio界面app.py运行命令python app.py \ --model Qwen/Qwen3.5-27B \ --model-name-sae-trained-from qwen3.5-27b \ --model-name-analyzing-now qwen3.5-27b \ --sae-path ./ \ --top-k 100 \ --num-layers 64 \ --sae-width 81920 \ --d-model 5120 \ --server-port 7860通过浏览器访问http://localhost:7860即可交互式探索模型各层特征激活情况包括特征热图可视化token级特征激活对比特征引导生成Feature Steering应用场景与价值 学术研究分析模型涌现能力的形成机制研究语言理解的神经表征探索偏见和幻觉的来源️ 模型优化识别冗余或有害特征指导模型剪枝和压缩改进训练数据质量 安全审计检测模型中的不当关联验证对齐目标的实现增强AI系统的透明度注意事项使用本工具时请遵守以下原则仅用于科学研究目的不得干扰模型正常功能禁止用于生成或传播有害信息尊重知识产权引用时请使用以下格式misc{qwen_scope, title{{Qwen-Scope}: Turning Sparse Features into Development Tools for Large Language Models}, author{Boyi Deng and Xu Wang and Yaoning Wang and Yu Wan and Yubo Ma and Baosong Yang and Haoran Wei and Jialong Tang and Huan Lin and Ruize Gao and Tianhao Li and Qian Cao and Xuancheng Ren and Xiaodong Deng and An Yang and Fei Huang and Dayiheng Liu and Jingren Zhou}, year{2026}, eprint{2605.11887}, archivePrefix{arXiv}, primaryClass{cs.CL}, url{https://arxiv.org/abs/2605.11887}, }总结Qwen-Scope SAE-Res-Qwen3.5-27B-W80K-L0_100为大语言模型的可解释性研究提供了强大工具通过稀疏自编码器技术打开了Qwen3.5-27B模型的黑箱。无论是学术研究、模型优化还是安全审计这款工具都能帮助开发者深入理解AI模型的内部工作机制推动更透明、更可靠的AI系统发展。想要探索大语言模型的奥秘立即下载体验Qwen-Scope开启你的AI可解释性之旅【免费下载链接】SAE-Res-Qwen3.5-27B-W80K-L0_100项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考