해당 글은 Judging LLM-as-a-Judge with MT-Bench and Chabot Arena(NeurIPS 2023, Lianmin Zheng) 논문 내용을 이해하기 쉽게 재구성한 것입니다.
1. GPT가 생성형 데이터를 평가해야 하는 이유
답변의 선호도 평가가 가능해진다.
이제 ChatGPT는 일상 가까이에 들어왔습니다. ChatGPT 뿐만 아니라 Claude, Gemini, Perplexity등 다양한 chat bot들이 등장했습니다. 이러한 생성형 모델의 성능을 측정하기 위해서는 어떻게 해야할까요?
가장 쉬운 방법은 정답이 정해져 있는 질문을 던지고 해당 질문에 대한 정답을 잘 맞히는지 확인하는 것입니다.
이러한 질문 유형을 closed-ended Question 이라 합니다.
논문에서는 다음과 같은 질문은 서로다른 생성형 모델에게 질문을 했습니다.
Question: If the FED buys bonds in the secondary market
(A) the money supply will increase.
(B) the money supply will decrease.
(C) the money supply will not be affected.
(D) the discount rate would be affected.
Output the answer only
두 모델 응답은 다음과 같습니다.
Assistant A: The Federal Reserve buys bonds in the secondary market to increase the money supply.
Assistant B: (A) the money supply will increase.
두 모델모두 적절한 대답을 선택했습니다.
이러한 방식의 질문은 확실한 정답과 오답이 정해져 있어서 LLM모델의 평가를 정량적으로 하기 편합니다.
하지만 확실히 두 모델의 응답에는 차이가 있습니다.
정답은 맞쳤지만 더 명확하고 깔끔한 답변은 B 모델의 답변일 것입니다.
논문에서는 해당 질문에 이어서 아래와 같은 질문을 했습니다.
Follow-up Question:
How does it affect my daily life? Give 3 examples.
해당 질문은 명확한 정답이 없습니다. 이러한 질문 유형을 Opened-ended Question 이라고 합니다.
해당 질문에 대한 두 모델의 응답은 다음과 같았습니다.
Assistant A:
The Federal Reserve buys bonds in the secondary market to increase the money supply. This affects your daily life by: 1. Increasing the money supply. 2. Increasing the money supply and lowering the discount rate. 3. Increasing the money supply and lowering the discount rate and increasing the money supply.
Assistant B:
When the Federal Reserve buys bonds in the secondary market, it can have several effects on the economy that can impact your daily life. Here are three examples: 1. Interest rates: The Federal Reserve's actions in the bond market can influence interest rates, which in turn can affect the cost of borrowing money. For example, if the Federal Reserve buys bonds and drives up demand for them, interest rates on things like mortgages, car loans, and credit cards may go up, making it more expensive to borrow money. 2. Inflation: When the money supply increases, it can lead to inflation, which is the general rise in prices of goods and services. This can impact your daily life by making it more expensive to buy things like groceries, gas, and other necessities. 3. Employment: The Federal Reserve's actions in the bond market can also have an impact on employment. For example, if the Federal Reserve's actions lead to economic growth and increased demand for goods and services, it can create more job opportunities and boost employment.
두 응답 모두 틀리지는 않았습니다. 하지만 두 응답을 비교해보면 모델 B의 응답이 자세하고 더 적절하다는 것을 알 수 있습니다.
이렇듯 정답은 맞쳤지만 분명히 더 선호하는 답변이 존재합니다.
틀리진 않았지만 더 좋은 답변, 더 선호하는 답변이 무엇인지 알기위해 평가하는 방법은 무엇일까요?
우리가 했던 것과 같이 사람이 직접 보고 평가하는 정량 평가 방법을 할 수 밖에 없었습니다.
이러한 방식은 느리고, 돈이 많이 들며, 사람의 주관이 들어간다는 단점들이 존재했습니다.
이를 해결하고자 제안된 방법이 "강한 LLM모델에게 평가를 시키자" 였습니다.
이러한 방법이 크기를 더욱 키울 수 있으며(scalability) 설명가능한(explainability) 평가 방법이라고 소개했습니다.
2. GPT가 생성형 데이터 평가하는 방법
논문에서는 강한 LLM모델에게 평가를 시키는 방법을 3가지로 소개하고 있습니다.
Pairwise comparision, Single answer grading, Reference-guided grading 입니다.
Pariwise comparision
은 서로 다른 모델의 응답을 하나의 프로프트에 넣어서 GPT-4(강한 LLM)에게 무엇이 더 좋은지 평가받는 것입니다.
해당 방식은 셋 이상의 모델 중 가장 좋은 답변을 골라야 한다면 여러 쌍을 만들어서 평가를 여러번 해야한다는 단점이 존재합니다.
예로들어 A, B, C, D 모델이 하나의 Question에 대답한 Answer가 각각 존재 하고 가장 좋은 Answer가 무엇인지 평가해야한다면 A-B, A-C, A-D, B-C, B-D, C-D 응답 쌍을 만들어 총 6번의 평가가 진행되어야 합니다.
Single answer grading
모델의 응답을 하나만 넣어서 해당 모델에 대해 정답이 얼마인지 평가받는 방법입니다.
이 방식은 pairwise comparision 방식의 단점을 보완했지만, 응답들의 직접적 비교 과정이 없어 어느것이 우위에 있는지 점수만으로 판단하기 부족함이 존재할 수 있습니다.
Reference-guided grading
우수한 참고 답변을 주고 각 모델이 생성한 답변을 주어서 우수답변과 비교하여 평가 할 수 있도록 한 방법이다.
3. GPT 평가방식의 한계
아쉽게도 이러한 측정 방식에도 한계는 존재한다.
논문에 따르면 Position bias, verbosity bias, Self-enhancement bias, Limited capability in grading math and reasoning questions 가 존재한다.
Position bias
위치에 따른 편향이 존재한다는 의미입니다. 쉽게 설명해서 모델 A와 모델 B의 응답이 있는데 Prompt에 넣을 때 먼저 언급되는 응답에 더 좋은 점수를 준다는 것입니다.
퀄리티가 비슷한 두 응답에 대하여 여러 평가 모델을 사용하여 평가하였을 때 위치의 변화에 따라 선호하는 답변이 달라지는지에 대해 실험을 진행했습니다. 해당 실험에 대한 결과는 아래 표와 같습니다.
Consistency는 위치를 변화 시켜도 일관되게 한 모델의 응답이 더 좋다고 하는 것이고 Biased toward first는 먼저 언급되는 것을 좋아 하는 것이고 Biased toward second는 뒤에 언급된 것을 좋아하는 편향입니다.
Claude-v1과 GPT-3.5는 대체적으로 먼저 언급된 응답을 선호하고 GPT-4는 65%가 위치와 상관없이 동일한 응답에 대해 더 좋은 점수를 주었습니다.
표를 보면 rename이 나오는데 rename은 각 모델의 응답을 프롬프트에 넣을 때, Assistant A's Answer, Assistant B's Answer이라고 글을 추가하여 두 모델의 응답을 구분하였습니다. 혹시 판단하는 모델이 Assistant A's Answer라고 붙어있는 답안을 더 좋아하는 편향이 있을 수 있으니 이름을 바꾸어서 실험을 진행했을 때의 결과를 의미합니다.
즉, Claude-v1은 먼저 언급 된것을 좋아하는 것이 아니라 Assistant A's Answer말이 붙어 있는 응답을 더 선호하는 편향을 가지고 있었습니다.
Verbosity bias
verbosity bias는 장황한 글을 더 좋아하는 편향을 의미합니다. 심지어 장황한 설명의 글이 진실이 아닌데도 더 좋아하는 편향을 지니고 있습니다. 이러한 편향이 있는지 판단하기 위해서 응답을 5개의 리스트형식으로 대답하게 시켰고 생성된 응답을 글을 조금 바꾸지만 새로운 정보는 전혀 추가되지 않게 변형합니다. 그래서 5개의 리스트를 가진 응답과 10개의 리스트를 가진 응답 중 어느 응답을 더 선호하는 평가했습니다.
평가 결과 Claude-v1과 GPT-3.5가 91.3% 확률로 장황한 설명이 들어있는 선호하는 편향이 있음을 확인했습니다.
Self-enhancement bias
self-enhancement bias는 자기 자신이 생성한 답변을 더 선호하는 경향이 있다는 것입니다. 예로들어 GPT3.5가 서로 다른 모델의 응답 중 더 좋은 것을 평가 할 때 GPT3.5가 생성한 답변을 다른 모델이 생성한 답변보다 더 선호하는 경향이 있다는 것입니다.
하지만 실험 결과(b 그래프)로 보면 GPT-4와 Claude가 자기 자신의 답변을 선호하는 경향을 보이긴 했지만 인간의 평가와 비교하면 10%, 25%차이에 그쳤습니다. 또한 GPT3.5는 그러한 경향이 적었습니다.
따라서 논문 작성자들은 Self-ehancement bias가 해당 실험으로 확실히 증명해 내긴 어려웠다고 평가합니다.
Limited capability in grading math and reasoning questions
수학 능력과 추론능력이 부족하여 평가하지 못하는 한계가 있습니다.
4. 한계를 완화하는 방법
앞서 소개드린 한계들에 대해서 완화하는 방법들을 논문에서 소개하고 있습니다.
Swapping positions, Few-shot judge, Chain of thought and reference guided judge, Fine-tunning a judge model 을 소개했습니다.
Swapping positions
자리를 바꿔서 평가하는 것입니다. 이를 통해 Position bias를 완화 할 수 있습니다.
Few-shot judge
좋은 평가 예시에 대해 prompt에 함께 넣어주면 Position bias를 완화 할 수 있습니다.
Chain of thought and reference guided judge
CoT를 활용하면 수학과 추론 능력이 올라가고 reference guided 방식으로 평가하면 juge LLM이 해당 reference를 참고하여 평가하므로 Limited capability in grading math and reasoning questions를 완화 할 수 있습니다.
Fine-tunning a judge model
평가 모델을 fine tuning 함으로써 평가 성능을 올리는 방식입니다.
정말 간략하게 Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena 논문 일부를 소개 시켜드렸습니다. 더 자세한 내용은 해당 논문을 참고해 주세요.