ragas官方文档中文版(二十五)

ragas官方文档中文版(二十五) 提示评估在本教程中我们将编写一个简单的评估流程来评估作为 AI 系统一部分的提示此处为电影评论情感分类器。在本教程结束时您将学习如何使用评估驱动开发来评估和迭代单个提示。我们将从测试一个简单的提示开始该提示将电影评论分类为正面或负面。首先确保您已安装 ragas 示例并设置了您的 OpenAI API 密钥pip install ragas[examples]export OPENAI_API_KEYyour_openai_api_key现在测试提示python-m ragas_examples.prompt_evals.prompt这将测试输入The movie was fantastic and I loved every moment of it!“预期输出应为positive”。 快速开始 如果您想查看完整的评估运行过程可以直接跳转到端到端命令该命令会运行所有内容并自动生成 CSV 结果。接下来我们将为提示编写一些样本输入和预期输出。然后将它们转换为 CSV 文件。importpandasaspd samples[{text:I loved the movie! It was fantastic.,label:positive},{text:The movie was terrible and boring.,label:negative},{text:It was an average film, nothing special.,label:positive},{text:Absolutely amazing! Best movie of the year.,label:positive}]pd.DataFrame(samples).to_csv(datasets/test_dataset.csv,indexFalse)现在我们需要有一种方法来衡量提示在这项任务中的性能。我们将定义一个指标该指标会将提示的输出与预期输出进行比较并据此输出通过/失败结果。fromragas.metricsimportdiscrete_metricfromragas.metrics.resultimportMetricResultdiscrete_metric(nameaccuracy,allowed_values[pass,fail])defmy_metric(prediction:str,actual:str):Calculate accuracy of the prediction.returnMetricResult(valuepass,reason)ifpredictionactualelseMetricResult(valuefail,reason)接下来我们将编写实验循环在测试数据集上运行提示词使用指标进行评估并将结果存储在CSV文件中。fromragasimportexperimentexperiment()asyncdefrun_experiment(row):responserun_prompt(row[text])scoremy_metric.score(predictionresponse,actualrow[label])experiment_view{**row,response:response,score:score.value,}returnexperiment_view现在每当您对提示词进行修改时都可以运行实验观察它如何影响提示词的性能。传递额外参数您可以向实验函数传递额外参数例如模型或配置experiment()asyncdefrun_experiment(row,model):responserun_prompt(row[text],modelmodel)scoremy_metric.score(predictionresponse,actualrow[label])experiment_view{**row,response:response,score:score.value,}returnexperiment_view# Run with specific parametersrun_experiment.arun(dataset,gpt-4)# Or use keyword argumentsrun_experiment.arun(dataset,modelgpt-4o)端到端运行示例设置 OpenAI API 密钥export OPENAI_API_KEY your_openai_api_key运行评估python -m ragas_examples.prompt_evals.evals这将执行以下操作使用示例电影评论创建测试数据集在每个样本上运行情感分类提示词使用准确率指标评估结果将所有内容导出到包含结果的CSV文件完成您已成功使用 Ragas 运行了首次评估。现在可以通过打开 experiments/experiment_name.csv 文件来查看结果。