ChatGLMEval评估器使用教程如何用jailbreak_llms评估LLM安全防护【免费下载链接】jailbreak_llms[CCS24] A dataset consists of 15,140 ChatGPT prompts from Reddit, Discord, websites, and open-source datasets (including 1,405 jailbreak prompts).项目地址: https://gitcode.com/gh_mirrors/ja/jailbreak_llmsjailbreak_llms是一个包含15,140条ChatGPT提示词的数据集其中包含1,405条越狱提示词可用于评估LLM的安全防护能力。本教程将详细介绍如何使用ChatGLMEval评估器来评估LLM的安全防护效果。一、准备工作获取jailbreak_llms项目首先需要克隆jailbreak_llms项目到本地git clone https://gitcode.com/gh_mirrors/ja/jailbreak_llms项目结构如下code/包含评估器代码data/包含提示词数据集和禁止问题集二、了解ChatGLMEval评估器ChatGLMEval是一个用于评估LLM响应安全性的工具它通过判断模型对给定问题的响应是否提供了答案来评估模型的安全防护能力。核心代码位于code/ChatGLMEval/ChatGLMEval.py。ChatGLMEval的工作原理ChatGLMEval通过以下步骤评估LLM响应构建提示词包含问题和模型响应使用ChatGLM模型判断响应是否提供了答案根据判断结果给出标签1表示提供了答案0表示拒绝回答关键参数说明初始化ChatGLMEval时需要设置以下参数model_name评估模型名称如ChatGLM6bprompt_n_shotfew-shot示例数量example_ids示例ID列表temperature生成温度参数三、使用ChatGLMEval评估LLM安全防护1. 准备评估数据jailbreak_llms提供了丰富的越狱提示词数据位于data/prompts/目录下如jailbreak_prompts_2023_05_07.csvjailbreak_prompts_2023_12_25.csv同时项目还提供了禁止问题集位于data/forbidden_question/forbidden_question_set.csv。2. 配置评估器打开code/ChatGLMEval/run_evaluator.py文件配置评估器参数evaluator ChatGLMEval(model_nameChatGLM6b, prompt_n_shot15, example_ids1,2,3,4,5,6,7,8,9,10,11,12,13,14,15, temperature0.5)3. 设置评估数据路径在run_evaluator.py中设置要评估的数据路径df_path_list [ ../response_crawler/results/baseline/gpt-3.5-turbo-0301/patch_check_baseline.csv, # 可以添加更多数据路径 ]4. 运行评估器执行以下命令运行评估器python code/ChatGLMEval/run_evaluator.py评估结果将保存为_labeled_ChatGLMEval.csv文件包含评估标签和结果。四、分析评估结果评估完成后可以通过语义可视化工具查看评估结果。项目提供了可视化脚本code/semantics_visualization/visualize.ipynb可以生成类似下图的语义可视化结果该图展示了不同嵌入模型的选择界面可用于进一步分析LLM响应的语义特征。五、总结通过ChatGLMEval评估器我们可以利用jailbreak_llms数据集有效评估LLM的安全防护能力。关键步骤包括克隆项目并准备数据配置ChatGLMEval评估器运行评估并分析结果希望本教程能帮助您更好地理解和使用jailbreak_llms项目进行LLM安全防护评估。【免费下载链接】jailbreak_llms[CCS24] A dataset consists of 15,140 ChatGPT prompts from Reddit, Discord, websites, and open-source datasets (including 1,405 jailbreak prompts).项目地址: https://gitcode.com/gh_mirrors/ja/jailbreak_llms创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
ChatGLMEval评估器使用教程:如何用jailbreak_llms评估LLM安全防护
ChatGLMEval评估器使用教程如何用jailbreak_llms评估LLM安全防护【免费下载链接】jailbreak_llms[CCS24] A dataset consists of 15,140 ChatGPT prompts from Reddit, Discord, websites, and open-source datasets (including 1,405 jailbreak prompts).项目地址: https://gitcode.com/gh_mirrors/ja/jailbreak_llmsjailbreak_llms是一个包含15,140条ChatGPT提示词的数据集其中包含1,405条越狱提示词可用于评估LLM的安全防护能力。本教程将详细介绍如何使用ChatGLMEval评估器来评估LLM的安全防护效果。一、准备工作获取jailbreak_llms项目首先需要克隆jailbreak_llms项目到本地git clone https://gitcode.com/gh_mirrors/ja/jailbreak_llms项目结构如下code/包含评估器代码data/包含提示词数据集和禁止问题集二、了解ChatGLMEval评估器ChatGLMEval是一个用于评估LLM响应安全性的工具它通过判断模型对给定问题的响应是否提供了答案来评估模型的安全防护能力。核心代码位于code/ChatGLMEval/ChatGLMEval.py。ChatGLMEval的工作原理ChatGLMEval通过以下步骤评估LLM响应构建提示词包含问题和模型响应使用ChatGLM模型判断响应是否提供了答案根据判断结果给出标签1表示提供了答案0表示拒绝回答关键参数说明初始化ChatGLMEval时需要设置以下参数model_name评估模型名称如ChatGLM6bprompt_n_shotfew-shot示例数量example_ids示例ID列表temperature生成温度参数三、使用ChatGLMEval评估LLM安全防护1. 准备评估数据jailbreak_llms提供了丰富的越狱提示词数据位于data/prompts/目录下如jailbreak_prompts_2023_05_07.csvjailbreak_prompts_2023_12_25.csv同时项目还提供了禁止问题集位于data/forbidden_question/forbidden_question_set.csv。2. 配置评估器打开code/ChatGLMEval/run_evaluator.py文件配置评估器参数evaluator ChatGLMEval(model_nameChatGLM6b, prompt_n_shot15, example_ids1,2,3,4,5,6,7,8,9,10,11,12,13,14,15, temperature0.5)3. 设置评估数据路径在run_evaluator.py中设置要评估的数据路径df_path_list [ ../response_crawler/results/baseline/gpt-3.5-turbo-0301/patch_check_baseline.csv, # 可以添加更多数据路径 ]4. 运行评估器执行以下命令运行评估器python code/ChatGLMEval/run_evaluator.py评估结果将保存为_labeled_ChatGLMEval.csv文件包含评估标签和结果。四、分析评估结果评估完成后可以通过语义可视化工具查看评估结果。项目提供了可视化脚本code/semantics_visualization/visualize.ipynb可以生成类似下图的语义可视化结果该图展示了不同嵌入模型的选择界面可用于进一步分析LLM响应的语义特征。五、总结通过ChatGLMEval评估器我们可以利用jailbreak_llms数据集有效评估LLM的安全防护能力。关键步骤包括克隆项目并准备数据配置ChatGLMEval评估器运行评估并分析结果希望本教程能帮助您更好地理解和使用jailbreak_llms项目进行LLM安全防护评估。【免费下载链接】jailbreak_llms[CCS24] A dataset consists of 15,140 ChatGPT prompts from Reddit, Discord, websites, and open-source datasets (including 1,405 jailbreak prompts).项目地址: https://gitcode.com/gh_mirrors/ja/jailbreak_llms创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考