LLM as a judgeによる生成AI出力評価(G-Eval)

作成日:2026/06/26

非決定的論なLLMの出力を評価する手法の一つにLLM as a judgeがある。 LLM as a judgeは、LLMの出力を評価するために別のLLMを使用する手法である。 この手法を用いてLLMの入出力を評価し改善することで出力結果の品質を向上させる方法を検討する。

今回はLLM as a judgeの中でもG-Evalという手法を調査する。

G-Evalの具体的なフロー

G-EvalはYang Liuらの論文(1)で提案されたLLMの出力をLLMで評価する手法である。

特徴はChain of Thought(以下CoT)およびForm fillingを組み合わせた評価を行うところである。

CoTとは1つの課題に対して段階的な思考のプロセスで出力する手法である。 例えばヘルプのチャットボットAIの出力検証の場合は以下のようなCoTを生成できる。

1. ユーザーの質問を読み、何を知りたいのかを理解する。
2. 回答を読み、質問の意図に答えている箇所を確認する。
3. 回答に不足している情報や、質問と無関係な内容がないか確認する。

このCoTは基本的にはLLMで生成したものを使用するが、DeepEvalのように事前に定義できるものもある。

Form fillingとはLLMに対して評価のためのテンプレートを与え、出力をそのテンプレートに沿って評価する手法である。 例えば以下のようなテンプレートを与えてその値を埋めさせる。

Score: 4.5
Reason: "..."

主なフローは以下の通りである。

  1. CoT生成プロンプトの入力
  2. LLMによるCoT生成
  3. CoTを基準としたLLMによる評価
  4. LLMのForm fillingによるスコアリング

メリット

メリットは以下の通り。

  • 評価用データの作成コストが低い
  • 人間の評価に近い観点

デメリット

デメリットは以下の通り。

  • LLMがLLMの出力に対してバイアスをかけてしまう
    • LLMが正しいと判断するデータが人間の判断とそもそも差異がある場合のバイアスである。

まとめ

昨今LLMの出力の期待値が人間の判断と遜色ないほどに上がってきている。LLMの出力をLLMに判断させるというプラクティスは非決定論的ではあるがLLMの性能が上がった現代なら合理的な選択肢なのかもしれない。

参考

(1) Yang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu, and Chenguang Zhu, “G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment,” arXiv preprint arXiv:2303.16634, 2023. Available: https://arxiv.org/abs/2303.16634 (2) DeepEval https://deepeval.com