본문 바로가기

코딩공부/논문읽기

(2)
BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension (초월 번역) Abstract 디노이징 오토인코더인데 pre-training된 seq to seq 모델인 BART를 소개할거야. BART는 일단 무작위 노이즈 넣은 문장을 사용해서 학습함. 그리고 그걸 다시 노이즈 없었던 문장으로 만들기 위해 학습하는 것. 우리 여러개 노이징 방법들 평가함. 정상적인 문장의 단어 순서를 무작위로 섞고 몇개의 단어를 하나의 mask tokens으로 바꿈. BART는 문장생성에 대해 fine tuning 할때 효과적인데 문장 이해 문제도 잘함. GLUE와 SQuAD 데이터 셋에서 RoBERTa 와 성능이 동일하고 추상대화와 QA, 요약에서는 SOTA임. back-translation system for machine translation 분야에서는 BART가 1.1 BLEU증가 시킴. 우..
XLNet: Generalized Autoregressive Pretraining for Language Understanding (초월 번역) Abstract BERT처럼 pre-trained 베스로 한 노이즈 없애는 오토인코딩(auto-encoding)은 오토리그레시브(auto-regressive) 언어모델 베이스 방법보다 더 성능이 좋음. 그런데 BERT가 학습 할때 mask에 의존적이자나? 그때 학습한 mask위치 하고 파인튜닝(fine tune)할때 mask 위치 하고 차이가 무조건 있는데 BERT는 그딴거 무시하고 파인튜닝함. 그니깐 기본적으로 오토리그레시브보다 오토인코딩이 성능이 좋은데 mask 위치에 의존적이라 파인튜닝 할때 모순이 발생한다는 단점이 있단말. 이런 장단점을 고려해서 좋은건 넣고 안좋은건 보완해서 XLNet이라는 오토리그레시브 기반 모델 만듬. 문맥을 단어의 모든 순서 조합으로 읽어 likelihood를 최대화하는 방..