用例(User Case)
基准测试模板(Benchmarking Template)

LangChain

基准测试模板 #

基准测试模板 Benchmarking Template

这是一个示例笔记本,可用于为您选择的任务创建基准测试笔记本。评估真的很难,所以我们非常欢迎任何可以让人们更容易进行实验的贡献

强烈建议您在启用跟踪的情况下进行任何评估/基准测试。请参阅此处here (opens in a new tab) 了解什么是跟踪以及如何设置它。

# Comment this out if you are NOT using tracing
import os
os.environ["LANGCHAIN_HANDLER"] = "langchain"
 

加载数据 Loading the data #

首先,让我们加载数据。

# This notebook should so how to load the dataset from LangChainDatasets on Hugging Face
 
# Please upload your dataset to https://huggingface.co/LangChainDatasets
 
# The value passed into `load_dataset` should NOT have the `LangChainDatasets/` prefix
from langchain.evaluation.loading import load_dataset
dataset = load_dataset("TODO")
 

设置链 Setting up a chain #

下一节应该有一个设置可以在此数据集上运行的链的示例。

预测 Make a prediction #

首先,我们可以一次预测一个数据点。在这种粒度级别上执行此操作允许use详细地探索输出,而且比在多个数据点上运行要便宜得多

# Example of running the chain on a single datapoint (`dataset[0]`) goes here
 

做很多预测 Make many predictions #

现在我们可以做出预测

# Example of running the chain on many predictions goes here
 
# Sometimes its as simple as `chain.apply(dataset)`
 
# Othertimes you may want to write a for loop to catch errors
 

评估性能 Evaluate performance #

任何以更系统的方式评估绩效的指南都在这里。