코딩공부/논문읽기 (3) 썸네일형 리스트형 GPT가 생성형 데이터를 평가하는 방법 해당 글은 Judging LLM-as-a-Judge with MT-Bench and Chabot Arena(NeurIPS 2023, Lianmin Zheng) 논문 내용을 이해하기 쉽게 재구성한 것입니다. 1. GPT가 생성형 데이터를 평가해야 하는 이유답변의 선호도 평가가 가능해진다. 이제 ChatGPT는 일상 가까이에 들어왔습니다. ChatGPT 뿐만 아니라 Claude, Gemini, Perplexity등 다양한 chat bot들이 등장했습니다. 이러한 생성형 모델의 성능을 측정하기 위해서는 어떻게 해야할까요?가장 쉬운 방법은 정답이 정해져 있는 질문을 던지고 해당 질문에 대한 정답을 잘 맞히는지 확인하는 것입니다.이러한 질문 유형을 closed-ended Question 이라 합니다.논문에서는 다.. BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (초월 번역) Abstract 디노이징 오토인코더인데 pre-training된 seq to seq 모델인 BART를 소개할거야. BART는 일단 무작위 노이즈 넣은 문장을 사용해서 학습함. 그리고 그걸 다시 노이즈 없었던 문장으로 만들기 위해 학습하는 것. 우리 여러개 노이징 방법들 평가함. 정상적인 문장의 단어 순서를 무작위로 섞고 몇개의 단어를 하나의 mask tokens으로 바꿈. BART는 문장생성에 대해 fine tuning 할때 효과적인데 문장 이해 문제도 잘함. GLUE와 SQuAD 데이터 셋에서 RoBERTa 와 성능이 동일하고 추상대화와 QA, 요약에서는 SOTA임. back-translation system for machine translation 분야에서는 BART가 1.1 BLEU증가 시킴. 우.. XLNet: Generalized Autoregressive Pretraining for Language Understanding (초월 번역) Abstract BERT처럼 pre-trained 베스로 한 노이즈 없애는 오토인코딩(auto-encoding)은 오토리그레시브(auto-regressive) 언어모델 베이스 방법보다 더 성능이 좋음. 그런데 BERT가 학습 할때 mask에 의존적이자나? 그때 학습한 mask위치 하고 파인튜닝(fine tune)할때 mask 위치 하고 차이가 무조건 있는데 BERT는 그딴거 무시하고 파인튜닝함. 그니깐 기본적으로 오토리그레시브보다 오토인코딩이 성능이 좋은데 mask 위치에 의존적이라 파인튜닝 할때 모순이 발생한다는 단점이 있단말. 이런 장단점을 고려해서 좋은건 넣고 안좋은건 보완해서 XLNet이라는 오토리그레시브 기반 모델 만듬. 문맥을 단어의 모든 순서 조합으로 읽어 likelihood를 최대화하는 방.. 이전 1 다음