Qwen-14B Base vs 同类模型MMLU/C-Eval等8项权威评测全面对比【免费下载链接】qwen_14b_base项目地址: https://ai.gitcode.com/hf_mirrors/MindSpore-Lab/qwen_14b_baseQwen-14B Base是阿里云研发的140亿参数规模大语言模型作为通义千问大模型系列的重要成员它基于Transformer架构在超大规模预训练数据上训练而成。该模型在MMLU、C-Eval等多项权威评测中表现出色展现出强大的中英知识能力、数学推理和代码生成等多方面性能是目前同级别开源模型中的佼佼者。评测基准与模型选择为全面评估Qwen-14B Base的综合性能我们选取了当前主流的8项权威评测基准涵盖知识问答、数学推理、代码生成等多个维度MMLU5-shot包含57个科目测试模型的广泛知识和问题解决能力C-Eval5-shot中文权威综合评测覆盖人文社科、理工农医等多个领域GSM8K8-shot小学数学问题评估模型的算术推理能力MATH4-shot高中及大学数学问题测试复杂数学推理能力HumanEval0-shot代码生成任务评估模型编写正确Python函数的能力MBPP3-shot代码生成与执行任务测试模型解决实际编程问题的能力BBH3-shot大语言模型行为基准评估模型在各种挑战任务上的表现CMMLU5-shot中文医学、法律等专业领域的知识评测参与对比的模型包括LLaMA2系列、ChatGLM2、InternLM系列、Baichuan2系列以及Qwen-7B等相近规模的开源模型。8项评测结果全面解析综合能力领先同级别模型Qwen-14B Base在所有评测项目中均取得了同级别开源模型中的最优表现具体结果如下表所示ModelMMLUC-EvalGSM8KMATHHumanEvalMBPPBBHCMMLU5-shot5-shot8-shot4-shot0-shot3-shot3-shot5-shotLLaMA2-7B46.832.516.73.312.820.838.231.8LLaMA2-13B55.041.429.65.018.930.345.638.4LLaMA2-34B62.6-42.26.222.633.044.1-ChatGLM2-6B47.951.732.46.5--33.7-InternLM-7B51.053.431.26.310.414.037.051.8InternLM-20B62.158.852.67.925.635.652.559.0Baichuan2-7B54.756.324.65.618.324.241.657.1Baichuan2-13B59.559.052.810.117.130.249.062.0Qwen-7B (original)56.759.651.6-24.431.240.658.8Qwen-7B58.263.551.711.629.931.645.062.2Qwen-14B66.372.161.324.832.340.853.471.0核心优势领域深度分析1. 知识掌握与推理能力Qwen-14B在MMLU评测中以66.3分的成绩大幅领先同类模型超过LLaMA2-13B达11.3分接近LLaMA2-34B的水平。在中文权威评测C-Eval中Qwen-14B更是以72.1分的成绩位居榜首展现出卓越的中文知识掌握能力。2. 数学推理能力突破性提升特别值得关注的是Qwen-14B在数学推理方面的表现。在MATH评测中Qwen-14B获得24.8分远超同类模型比Baichuan2-13B高出14.7分比InternLM-20B高出16.9分展现出强大的复杂数学问题解决能力。在GSM8K评测中Qwen-14B也以61.3分的成绩领先所有同级别模型。3. 代码生成能力突出在代码生成任务中Qwen-14B同样表现出色。HumanEval评测中获得32.3分MBPP评测中获得40.8分均显著领先于同规模模型体现出其在编程领域的强大能力。多语言处理能力可视化分析Qwen-14B采用了约15万大小的词表对多语言更加友好。下图展示了Qwen-14B与其他模型在多语言编码压缩率方面的对比以支持100语种的XLM-R为基准值1越低越好从图中可以看出Qwen-14B在保持中英代码高效解码的前提下对泰语、希伯来语、阿拉伯语、韩语等多种语言也实现了较高的压缩率使得模型在这些语种上具备较强的可扩展性和较高的训练推理效率。模型技术特点解析Qwen-14B的卓越性能源于其先进的技术架构和大规模高质量训练数据大规模高质量训练语料Qwen-14B使用超过3万亿tokens的数据进行预训练包含高质量中、英、多语言、代码、数学等数据涵盖通用及专业领域的训练语料。通过大量对比实验对预训练语料分布进行了优化。先进的模型架构Qwen-14B模型架构细节如下HyperparameterValuen_layers40n_heads40d_model5120vocab size151851sequence length2048在位置编码、FFN激活函数和normalization的实现方式上采用了RoPE相对位置编码、SwiGLU激活函数、RMSNorm等目前最流行的做法。如何复现评测结果如果您想复现Qwen-14B的评测效果可以使用项目提供的评测脚本。首先克隆仓库git clone https://gitcode.com/hf_mirrors/MindSpore-Lab/qwen_14b_base然后参考项目中的评测指南进行操作。提示由于硬件和框架造成的舍入误差复现结果如有小幅波动属于正常现象。总结Qwen-14B Base作为一款140亿参数规模的大语言模型在MMLU、C-Eval等8项权威评测中全面领先同级别开源模型展现出卓越的综合性能。其在知识掌握、数学推理、代码生成等方面的突出表现使其成为科研和商业应用的理想选择。无论是中文处理能力还是多语言支持Qwen-14B都展现出了强大的竞争力为大语言模型的应用开辟了更广阔的空间。如果您觉得Qwen-14B的工作对您有帮助欢迎引用相关论文article{qwen, title{Qwen Technical Report}, author{Jinze Bai and Shuai Bai and Yunfei Chu and Zeyu Cui and Kai Dang and Xiaodong Deng and Yang Fan and Wenbin Ge and Yu Han and Fei Huang and Binyuan Hui and Luo Ji and Mei Li and Junyang Lin and Runji Lin and Dayiheng Liu and Gao Liu and Chengqiang Lu and Keming Lu and Jianxin Ma and Rui Men and Xingzhang Ren and Xuancheng Ren and Chuanqi Tan and Sinan Tan and Jianhong Tu and Peng Wang and Shijie Wang and Wei Wang and Shengguang Wu and Benfeng Xu and Jin Xu and An Yang and Hao Yang and Jian Yang and Shusheng Yang and Yang Yao and Bowen Yu and Hongyi Yuan and Zheng Yuan and Jianwei Zhang and Xingxuan Zhang and Yichang Zhang and Zhenru Zhang and Chang Zhou and Jingren Zhou and Xiaohuan Zhou and Tianhang Zhu}, journal{arXiv preprint arXiv:2309.16609}, year{2023} }【免费下载链接】qwen_14b_base项目地址: https://ai.gitcode.com/hf_mirrors/MindSpore-Lab/qwen_14b_base创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
Qwen-14B Base vs 同类模型:MMLU/C-Eval等8项权威评测全面对比
Qwen-14B Base vs 同类模型MMLU/C-Eval等8项权威评测全面对比【免费下载链接】qwen_14b_base项目地址: https://ai.gitcode.com/hf_mirrors/MindSpore-Lab/qwen_14b_baseQwen-14B Base是阿里云研发的140亿参数规模大语言模型作为通义千问大模型系列的重要成员它基于Transformer架构在超大规模预训练数据上训练而成。该模型在MMLU、C-Eval等多项权威评测中表现出色展现出强大的中英知识能力、数学推理和代码生成等多方面性能是目前同级别开源模型中的佼佼者。评测基准与模型选择为全面评估Qwen-14B Base的综合性能我们选取了当前主流的8项权威评测基准涵盖知识问答、数学推理、代码生成等多个维度MMLU5-shot包含57个科目测试模型的广泛知识和问题解决能力C-Eval5-shot中文权威综合评测覆盖人文社科、理工农医等多个领域GSM8K8-shot小学数学问题评估模型的算术推理能力MATH4-shot高中及大学数学问题测试复杂数学推理能力HumanEval0-shot代码生成任务评估模型编写正确Python函数的能力MBPP3-shot代码生成与执行任务测试模型解决实际编程问题的能力BBH3-shot大语言模型行为基准评估模型在各种挑战任务上的表现CMMLU5-shot中文医学、法律等专业领域的知识评测参与对比的模型包括LLaMA2系列、ChatGLM2、InternLM系列、Baichuan2系列以及Qwen-7B等相近规模的开源模型。8项评测结果全面解析综合能力领先同级别模型Qwen-14B Base在所有评测项目中均取得了同级别开源模型中的最优表现具体结果如下表所示ModelMMLUC-EvalGSM8KMATHHumanEvalMBPPBBHCMMLU5-shot5-shot8-shot4-shot0-shot3-shot3-shot5-shotLLaMA2-7B46.832.516.73.312.820.838.231.8LLaMA2-13B55.041.429.65.018.930.345.638.4LLaMA2-34B62.6-42.26.222.633.044.1-ChatGLM2-6B47.951.732.46.5--33.7-InternLM-7B51.053.431.26.310.414.037.051.8InternLM-20B62.158.852.67.925.635.652.559.0Baichuan2-7B54.756.324.65.618.324.241.657.1Baichuan2-13B59.559.052.810.117.130.249.062.0Qwen-7B (original)56.759.651.6-24.431.240.658.8Qwen-7B58.263.551.711.629.931.645.062.2Qwen-14B66.372.161.324.832.340.853.471.0核心优势领域深度分析1. 知识掌握与推理能力Qwen-14B在MMLU评测中以66.3分的成绩大幅领先同类模型超过LLaMA2-13B达11.3分接近LLaMA2-34B的水平。在中文权威评测C-Eval中Qwen-14B更是以72.1分的成绩位居榜首展现出卓越的中文知识掌握能力。2. 数学推理能力突破性提升特别值得关注的是Qwen-14B在数学推理方面的表现。在MATH评测中Qwen-14B获得24.8分远超同类模型比Baichuan2-13B高出14.7分比InternLM-20B高出16.9分展现出强大的复杂数学问题解决能力。在GSM8K评测中Qwen-14B也以61.3分的成绩领先所有同级别模型。3. 代码生成能力突出在代码生成任务中Qwen-14B同样表现出色。HumanEval评测中获得32.3分MBPP评测中获得40.8分均显著领先于同规模模型体现出其在编程领域的强大能力。多语言处理能力可视化分析Qwen-14B采用了约15万大小的词表对多语言更加友好。下图展示了Qwen-14B与其他模型在多语言编码压缩率方面的对比以支持100语种的XLM-R为基准值1越低越好从图中可以看出Qwen-14B在保持中英代码高效解码的前提下对泰语、希伯来语、阿拉伯语、韩语等多种语言也实现了较高的压缩率使得模型在这些语种上具备较强的可扩展性和较高的训练推理效率。模型技术特点解析Qwen-14B的卓越性能源于其先进的技术架构和大规模高质量训练数据大规模高质量训练语料Qwen-14B使用超过3万亿tokens的数据进行预训练包含高质量中、英、多语言、代码、数学等数据涵盖通用及专业领域的训练语料。通过大量对比实验对预训练语料分布进行了优化。先进的模型架构Qwen-14B模型架构细节如下HyperparameterValuen_layers40n_heads40d_model5120vocab size151851sequence length2048在位置编码、FFN激活函数和normalization的实现方式上采用了RoPE相对位置编码、SwiGLU激活函数、RMSNorm等目前最流行的做法。如何复现评测结果如果您想复现Qwen-14B的评测效果可以使用项目提供的评测脚本。首先克隆仓库git clone https://gitcode.com/hf_mirrors/MindSpore-Lab/qwen_14b_base然后参考项目中的评测指南进行操作。提示由于硬件和框架造成的舍入误差复现结果如有小幅波动属于正常现象。总结Qwen-14B Base作为一款140亿参数规模的大语言模型在MMLU、C-Eval等8项权威评测中全面领先同级别开源模型展现出卓越的综合性能。其在知识掌握、数学推理、代码生成等方面的突出表现使其成为科研和商业应用的理想选择。无论是中文处理能力还是多语言支持Qwen-14B都展现出了强大的竞争力为大语言模型的应用开辟了更广阔的空间。如果您觉得Qwen-14B的工作对您有帮助欢迎引用相关论文article{qwen, title{Qwen Technical Report}, author{Jinze Bai and Shuai Bai and Yunfei Chu and Zeyu Cui and Kai Dang and Xiaodong Deng and Yang Fan and Wenbin Ge and Yu Han and Fei Huang and Binyuan Hui and Luo Ji and Mei Li and Junyang Lin and Runji Lin and Dayiheng Liu and Gao Liu and Chengqiang Lu and Keming Lu and Jianxin Ma and Rui Men and Xingzhang Ren and Xuancheng Ren and Chuanqi Tan and Sinan Tan and Jianhong Tu and Peng Wang and Shijie Wang and Wei Wang and Shengguang Wu and Benfeng Xu and Jin Xu and An Yang and Hao Yang and Jian Yang and Shusheng Yang and Yang Yao and Bowen Yu and Hongyi Yuan and Zheng Yuan and Jianwei Zhang and Xingxuan Zhang and Yichang Zhang and Zhenru Zhang and Chang Zhou and Jingren Zhou and Xiaohuan Zhou and Tianhang Zhu}, journal{arXiv preprint arXiv:2309.16609}, year{2023} }【免费下载链接】qwen_14b_base项目地址: https://ai.gitcode.com/hf_mirrors/MindSpore-Lab/qwen_14b_base创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考