GPT3 [책] AI 딥 다이브 리뷰 딥러닝은 현대 인공지능 기술의 핵심으로, 그 본질은 단순하면서도 복잡한 양면성을 지닌 학문 분야입니다. 표면적으로 볼 때, 딥러닝 모델은 선형사상 함수와 비선형 활성 함수들을 계층적으로 쌓은 복합함수로 이해할 수 있습니다. 그 학습 과정도 미분 가능한 함수를 미분하는 것에 불과하며, 심지어 이 미분 작업조차 자동 미분 프로그램의 도움을 받아 수행됩니다. 이러한 기본적인 원리 때문에 열정적인 초보자라면 한 달 정도의 시간으로도 딥러닝의 기초를 파악할 수 있습니다. 그러나 딥러닝의 세계는 겉보기와 달리 그 깊이를 가늠하기 어려울 정도로 방대합니다. 일반화, 최적화 기법, 생성 모델, 메타 학습, 강화학습, 효율화 등 각 세부 주제마다 매년 수천 편의 논문이 발표되고 있습니다. 이러한 특성으로 인해 기본 개념.. 카테고리 없음 2024. 8. 25. [논문] GPT-1 리뷰 BERT와 GPT는 각각 Google과 OpenAI에서 만든 자연어 모델이다. BERT는 트랜스포머의 인코더를, GPT는 트랜스포머의 디코더를 분리해 각각 독자적인 모델로 발전시켰고, 이 둘은 현재까지도 자연어 처리 분야를 양분하고 있으며 그 파생 모델들이 뛰어난 활약을 하고 있다. 따라서 LLM 시대의 서막을 연 GPT-1에 대해 알아보고자 한다. Abstract 자연어 이해는 자연어 추론, 질의 응답, 문서 분류 등 광범위한 다양한 작업으로 구성된다. 그러나 레이블이 없는 텍스트 말뭉치는 풍부하지만 특정 작업(target task)을 학습하기 위한 레이블이 지정된 데이터는 부족하여 각각의 태스크에 파인 튜닝을 적절하게 수행하기 어려웠다. 따라서 레이블이 없는 텍스트의 다양한 말뭉치에서 언어 모델을 프.. 딥러닝/NLP 2022. 12. 12. BERT 활용하기 사전 학습된 BERT 모델 탐색 BERT를 처음부터 사전 학습 시키는 것은 계산 비용이 많이 든다. 따라서 사전 학습된 공개 BERT 모델을 다운로드해 사용하는게 효과적이다. 사전 학습된 모델은 BERT-uncased 및 BERT-cased 형식으로도 제공된다. BERT-uncased 에서는 모든 토큰이 소문자이지만 BERT-cased 에서는 토큰에 대해 소문자화를 하지 않은 상태로 학습을 진행한 모델이다. 대소문자를 보존해야 하는 개체명 인식(Named Entity Recognition)과 같은 특정 작업을 수행하는 경우 BERT-cased 모델을 사용해야 한다. 이와 함께 구글은 전체 단어 마스킹(WWM) 방법을 사용해 사전 학습된 BERT 모델도 공개했다. 사전 학습된 모델을 다음 두 가지 방법으로.. 딥러닝/NLP 2022. 11. 19. 이전 1 다음 반응형