ragas官方文档中文版（二十六）-尧图企业网站定制

评估一个简单的 RAG 系统在本教程中我们将编写一个简单的评估管道来评估 RAG检索增强生成Retrieval-Augmented Generation系统。本教程结束时您将学会如何使用评估驱动开发evaluation-driven development来评估和迭代 RAG 系统。我们将从编写一个简单的 RAG 系统开始该系统从语料库中检索相关文档并使用 LLM 生成答案。python -m ragas_examples.rag_eval.rag接下来我们将为 RAG 系统编写几个示例查询和预期输出然后将它们转换为 CSV 文件。importpandasaspd samples[{query:What is Ragas 0.3?,grading_notes:- Ragas 0.3 is a library for evaluating LLM applications.},{query:How to install Ragas?,grading_notes:- install from source - install from pip using ragas[examples]},{query:What are the main features of Ragas?,grading_notes:organised around - experiments - datasets - metrics.}]pd.DataFrame(samples).to_csv(datasets/test_dataset.csv,indexFalse)为了评估 RAG 系统的性能我们将定义一个基于 LLM 的指标该指标将 RAG 系统的输出与评分标准grading_notes进行比较并据此输出通过pass或失败fail。fromragas.metricsimportDiscreteMetric my_metricDiscreteMetric(namecorrectness,promptCheck if the response contains points mentioned from the grading notes and return pass or fail.\nResponse: {response} Grading Notes: {grading_notes},allowed_values[pass,fail],)接下来我们将编写实验循环在测试数据集上运行 RAG 系统使用该指标进行评估并将结果存储在 CSV 文件中。experiment()asyncdefrun_experiment(row):responserag_client.query(row[query])scoremy_metric.score(llmllm,responseresponse.get(answer, ),grading_notesrow[grading_notes])experiment_view{**row,response:response.get(answer,),score:score.value,log_file:response.get(logs, ),}returnexperiment_view现在每当您对 RAG 管道进行修改时都可以运行实验观察它如何影响 RAG 的性能。端到端运行示例设置 OpenAI API 密钥export OPENAI_API_KEYyour_openai_api_key运行评估python -m ragas_examples.rag_eval.evals完成您已成功使用 Ragas 运行了首次评估。现在可以通过打开 experiments/experiment_name.csv 文件来查看结果。

相关新闻

从零开始：艾尔登法环存档编辑器的奇幻冒险指南

SAGE框架：基于注意力机制的长文档问答上下文压缩技术详解

语言思维与非语言思维、概念隐喻多层观

告别云端焦虑：drawio-desktop，你的本地化专业绘图终极选择

3步搞定Windows风扇控制：FanControl终极实战指南

WeKnora：基于大模型的新一代文档理解与检索框架

3分钟上手Python弹幕神器：blivedm让B站直播数据获取变得如此简单！

深入解析：Boring Notch macOS 系统集成与 SwiftUI 现代化架构实战指南

Open-LLM-VTuber深度解析：构建全离线语音交互AI伴侣的技术实现

MPC56x Nexus调试接口硬件设计全解析：连接器选型、引脚配置与信号完整性

107、 PCIE延迟测量与分析：从一次诡异的丢包说起

3分钟掌握网盘高速下载：新一代直链工具完全指南

3个步骤让小爱音箱变身AI语音助手：MiGPT深度体验指南

【人工智能】一文搞定到底什么是智能体

嵌入式GUI开发实战：emWin控件API解析与避坑指南

从陌生到熟悉：Royal TSX中文汉化包的体验地图之旅

时延最优化设计

别再重启了！Windows 11下dwm.exe内存飙升，我用Intel官方工具升级显卡驱动搞定