ベンチマーク実行
このページでは、JuryArena でアリーナ評価を実行する一連の流れを説明します。
評価は、データセットの作成から始まり、Evaluation の設定と実行を通じて行われます。
1. データセットの作成
データセットが存在しない場合は、画面中央に「Add data for evaluation」が表示されます。
データセットは以下のいずれかの方法で作成できます。
- Upload: JSONL または ZIP ファイルをアップロード
- Use template: サンプルデータを利用
テンプレートには、アリーナ評価をすぐに試せるサンプルデータが含まれており、 追加の準備なしで評価を実行できます。
すでに実務ログをお持ちの場合は、 Upload から JSONL または ZIP ファイルをアップロードしてください。
データフォーマットの詳細については Data Format を参照してください。
2. 新しい Evaluation の作成
作成したデータセットをクリックし、右上の New Evaluation をクリックします。
以下を設定します。
Candidate Model
比較対象となるモデルを選択します。
Judge Model
評価に使用する Judge モデルを選択します。 最大3つまで選択できます。
Max Matches
実行する対戦回数を指定します(例:100)。
対戦数が多いほどレーティングは安定しますが、 実行時間およびコストは増加します。
Judge Output Language
Judge の出力言語を選択します。
4. 評価の実行
設定後、Run をクリックすると評価が開始されます。
JuryArena は以下の流れで評価を行います。
- 同一プロンプトに対して、2つの LLM が回答を生成
- Judge LLM が2つの回答を比較し、勝敗を決定
- 勝敗結果に基づいてレーティングを更新
- 実力が近い LLM 同士で次の対戦を組み合わせる
- 指定した対戦回数(Max Matches)に達するまで繰り返す
評価はバックグラウンドで非同期に実行されます。 進行状況や途中結果はダッシュボードから確認できます。
5. 結果の確認
評価完了後、以下を確認できます。
- モデルランキング(レーティング順)
- レーティング推移
- 各対戦の詳細
- Judge の判定理由
- コストおよびレイテンシ
これらの情報を通じて、モデルの相対的な性能傾向を把握できます。
注意事項
- レーティングは相対評価です。
- 結果はプロンプト構成および Judge モデルに依存します。
次のステップ
- アリーナ評価の仕組みは Arena Evaluation を参照してください。
- レーティングアルゴリズムの詳細は Rating System を参照してください。