CANN/cannbot-skills模型推理和谐技能评估测试

CANN/cannbot-skills模型推理和谐技能评估测试 【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skillsskill_name: model-infer-harmony eval_mode: textCase 1: 端侧量化部署流程ConfigMax Tokens: 150000Timeout: 900Prompt想把 ASR 模型量化部署到 Kirin9030 端侧整体按什么流程做只讲方法不用写代码。Expected Output回复应给出从量化标定到容器内 omg 离线转 omc、最终打包成端侧单 bin 的整体流程权重量化为 W4A16Expectations[contains] W4A16[skill_activated] model-infer-harmonyCase 2: 9030 平台铁律ConfigMax Tokens: 150000Timeout: 900Prompt在 Kirin9030 上做 4bit 量化转换有哪些必须遵守的平台前提否则会转换报错只讲思路。Expected Output回复应说明两条铁律omg 必须在 glibc 足够新的容器内跑否则 MatMul 不支持且 9030 的 W4 内核只支持 UINT4 不支持 INT4需按无符号网格打包权重Expectations[contains] UINT4[skill_activated] model-infer-harmonyCase 3: 量化转换报错归因ConfigMax Tokens: 150000Timeout: 900Promptomg 转换时报 CompressInt4ToInt8 Value -1 out of range [0,15]往哪个方向排查只讲方向。Expected Output回复应说明根因是权重未落到无符号 4bit 网格、含负值应先用落网格的量化权重导出 ONNX 再转换并确认按 UINT4 打包Expectations[contains] UINT4[skill_activated] model-infer-harmonyCase 4: 信息不足时主动确认ConfigMax Tokens: 150000Timeout: 900Prompt帮我把模型量化部署到端侧。Expected Output回复应先确认必要信息再动手而不是缺信息直接量化Expectations[skill_activated] model-infer-harmonyCase 5: 正向看护-多 skill 环境下正确触发ConfigMax Tokens: 150000Timeout: 900Distractor skills: model-infer-quantization;model-infer-kvcache;model-infer-fusionPrompt要把 ASR encoder 量化成 4bit 在 Kirin9030 端侧跑omg 转 omc 这条怎么入手只说方向。Expected Output回复应正确激活 model-infer-harmony给出端侧 W4A16 量化与 omg 离线转换方向即使存在通用量化、KVCache、融合等相似 skill 也应选端侧鸿蒙专项Expectations[contains] omg[skill_activated] model-infer-harmonyCase 6: 使用边界ConfigMax Tokens: 150000Timeout: 900Prompt我想在昇腾服务器上用 compressed-tensors 给 LLM 做 W8A8 量化这个端侧鸿蒙 skill 适用吗Expected Output回复应说明本 skill 只覆盖 Kirin9030 端侧 ASR 的 W4A16 量化与 omg/打包流程服务器侧 compressed-tensors 量化应改用通用量化 skill【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考