본문 바로가기

코딩공부/패스트캠퍼스 AI 부트캠프

(16)
[Fastcampus Upstage AI Lab 3기]과학 질의 응답 시스템 구축 대회 후기(with RAG) 1. 요약 인터넷의 등장으로 많은 정보들의 네트워크 상에서 떠돌고 있습니다. 우리는 이러한 정보를 얻기위해 검색하여 정보들을 직접 열람하여 내가 원하는 정보가 맞는지 확인하는 작업을 거쳤야만 했습니다. 하지만 이러한 작업은 정보가 과도하게 증가할 수록 정보를 찾는 이용자들에게 피로감 증가로 이어졌습니다. 이러한 문제를 인공지능을 도입하여 해결하려는 시도들이 많이 있었습니다. 우리도 Upstage AI Lab에서 주최한 '과학 질의 응답 시스템 구축' 대회를 통해 과학 정보에 대한 검색을 인공지능, 특히 Advanced RAG를 사용하여 해결하는 방법을 제시했습니다. 저희의 모델은 public에서 MAP 0.9561, MRR 0.9591을 기록하며 우수한 성능을 보였고 정성 평가에서도 우수한 성능을 다시 ..
LoRA 이번만큼 완벽하게 이해해보자. with 실습 코드 LoRA 왜 사용하는가?fine tuning이 뭔진 알아?fine tuning은 내가 원하는 downstream task를 pretrained model이 잘 하기위해서 진행하는 학습을 말합니다.fine tuning은 크게 두가지 방법이 있습니다. full fine tuning은 PEFT에 비해 성능은 살짝 높은 경향이 있습니다.하지만 모든 파라미터 값을 미세조정 하기에 너무 많은 시간이 걸린다는 치명적인 단점이 있습니다.반면, PEFT는 적절한 몇 개의 파라미터만 미세조정을 하여 full fine tuning에 비해 성능은 살짝 낮은 경향이 있지만 학습에 필요한 시간을 획기적으로 단축시킨 것에 큰 의미가 있습니다.이러한 PEFT기법에는 prefix tuning, prompt tuning, LoRA 등이..
[Fastcampus Upstage AI Lab] 대화문 요약 대회 후기 대회 설명일상 대화 데이터가 입력으로 주어지면 해당 대화의 요약문을 만들어 내는 모델을 만들어야 합니다.데이터는 12457개의 학습데이터, 499개 valid data가 주어지고, 250개의 test data가 주어집니다.평가지표는 Rouge를 사용합니다.데이터는 원래 영어 데이터였던 것을 번역한 것으로 이루어져 있습니다.대회 결론 스포!!!저희조는 41.9213점을 내서 3등을 차지 했습니다.1, 2, 3등 모두 LLM을 이용해서 고득점을 차지했습니다. 특히, 2 등 팀은 데이터 정재 전혀 하지 않고 큰 모델을 어떻게 파인튜닝 할지에 대해 몰두 해서 했더니 성적이 좋았다고 합니다.많은 팀들이 데이터 정재와 데이터 증강에 노력을 많이 했는데 효과는 미미하거나 오히려 떨어졌습니다.그 이유로는 이번 대회에 ..
Computer Vision 모델 발전 과정 기본적인 모델의 구조는 위 이미지와 같다.이미지에서 feature를 얻기위해서 Backbone을 통과한다. 이를 통해 Feature map을 얻고 해당 Feature map을 Encoder를 통과하고 Decoder를 통과하면서 task를 수행하는 구조로 간다.이때 어떤 모델을 Backbone을 하지, Encoder로 할지, Decoder로 할지는 task에 따라 data에 따라 다르다.모델 발전 과정backbone은 이미지에서 feature map을 구하기 위해 사용하는 것을 말한다. 좋은 모델일 수록 feature map으로 표현된 이미지에 특성들이 잘 녹여 있으면서 적은 파라미터를 가지고 빠른 학습속도를 보장하는 것이 좋다. 특히, 엄청 유명했던 Image Classification Competiti..
문서 이미지 타입 분류 대회 후기 ( FastCampus Upstage AI LAB) 24년 7월 31 ~ 8월 11일(2주) 진행되었던 Image classification 대회가 막을 내렸다.인강을 수강하면서 진행 해야 했기에 시간적인 부분에서도 많은 압박을 받았지만 나름 재밌게 대회를 진행해서 좋았다.특히 좋은 팀원들과 함께 하여서 많은 의견도 적극적으로 나누고 협업도 하면서 진행하여 좋았다.비록 8위로 끝나서 아쉬움이 있긴 하지만 솔찍히 4위 까지는 스치면 엎어지는 점수들이라 우리는 마음만큼은 4위 였다.1~3위는 확실히 방법적인 면에서 많은 것들을 배울 수 있어서 추후 해당 방법들을 직접 해봐야 겠다고 생각했다.혹시 이 글을 읽게될 Upastage AI LAB 3기 이후 기수들에게 말씀드리자면 3 - 7 클래스를 구별해내는 기발한 시도들이 3기에 이루어졌고 그것을 정리해 놓을테니..
House price predict 경진대회 후기 2007년 1월 ~ 2023년 5월 까지 서울 지역 부동산 거래 데이터( 1,118,822개)를 이용하여2023년 7월 ~ 2023년 9월 데이터를 예측하는 모델을 만들자. 
모델의 성능은 RMSE 로 판단.
Machine Learning 모델 종류 정리 고전적인 Machine Learning은 딥러닝의 화려한 발전에 묻혀버렸지만 모델의 성능이 데이터의 질에 많은 영향을 받아서 데이터 분석 관점에서는 공부하기 너무 좋은 기술들이다. 특히, tabuler 데이터 셋에서는 여전히 고전적인 Machine Learning이 많이 사용되고 있는데 오늘은 주요 모델들을 발전순으로 정리해 보자. 0. 모델 종류 1. Decision Tree2. RandomForest3. AdaBoost4. Gradient Boost Machine(GBM)5. XGBoost Machine(XGBM)6. Light Gradient Boost(LGBM)7. CatBoost많은 모델들이 있지만 주요 모델들은 위 7 가지이다. 그 중에서도 현업에서는 거의 LightGBM 과 CatBoost ..
MNIST데이터 RNN, LSTM, GRU로 분류기 만들기(pytorch lightning) MNIST 데이터 셋 MNIST데이터 셋은 0~9 까지 손글씨로 적은 숫자로 구성된 데이터 셋이다.Train dataset은 6만개 Test dataset은 1만개 로 구성되어 있습니다.import torchvision.transforms as Timport torchvisionimport torchfrom torch.utils.data import DataLoaderdownload_root = './MNIST_DATASET'mnist_transform = T.Compose([ T.ToTensor(),])train_dataset = torchvision.datasets.MNIST(download_root, transform=mnist_transform, train=True, download=True..
패스트 캠퍼스 AI Lab 부트캠프 생존기(9일차) 한줄 요약 취직하면 오늘처럼 하루종일 개발만 하는 거겠지? 우와... 힘이가 많이 들겠다 생존기 하 개발 좋다. 하루종일 FastAPI 겁나 쳐다봄... 근데 DB랑 연결하는거 왤캐 복잡하지... 강사님 자료로 따라가는데 뭔가 이상한게 많다... 감유.. 뭐 적을것이 없다. 오늘도 내일도 그냥 앉아서 코드 겁나 치고 공부하고 있다. 함께 해서 너무 좋아요. 강사님이 우리팀 와서 다들 경험자냐면서 코드부분은 피드백이 없으셨다.(살짝 기대 했는데 아쉽다) 자신의 인생이야기와 가치관들을 쏟아내고 가셨는데 많은 이야기들 중에 강사님은 30개 넘는데를 지원했다고 한다. 나도 부캠 끝나고 실력 짱짱맨 되서 지원 남발하고 다녀야 겠다고 생각이 들었다. 가능하면 이번에 배운 기술로 자동화 만들면 재미있을 듯!!
패스트 캠퍼스 AI LAB 3기 부트 캠프 생존기(8일차) 한줄 요약 뭔가 크게 배운게 없는 것 같은데... 벌써 프로젝트라니... 와서 배운 것을 사용하는 것도 있지만 이미 가지고 있는 실력으로 만드는게 더 큰 듯 생존기 실제로는 오늘 부터 팀을 만들고 팀끼리 처음 만나서 주제 정했을 것이다. 그러나 나는 운 좋게 좋은 팀원들 만나서 비록 어제 쉬는 날이 었지만 함께 회의를 먼저하고 프로젝트도 먼저 들어갔다. 프로젝트는 크롤링을 해온 자료를 처리하고 시각화 해서 웹으로 보여주는 것이다. 크롤링은 정말 수 없는 예제로 부트캠프에서 갈고 닦아지만 웹 구현 부분은 FastAPI를 조금 배운 것 외에는 다루지 않았다. 물론 우리가 자발적으로 어려운 길을 선택하긴했다. 우리가 배운 수준에서의 프로젝트를 던져 주시기도 했는데 우리는 자율주제를 선택해서 했기 때문이다. 다..