딥러닝/NLP

BERT 활용하기

eunsour 2022. 11. 19.

사전 학습된 BERT 모델 탐색

BERT를 처음부터 사전 학습 시키는 것은 계산 비용이 많이 든다. 따라서 사전 학습된 공개 BERT 모델을 다운로드해 사용하는게 효과적이다.

사전 학습된 모델은 BERT-uncased 및 BERT-cased 형식으로도 제공된다. BERT-uncased 에서는 모든 토큰이 소문자이지만 BERT-cased 에서는 토큰에 대해 소문자화를 하지 않은 상태로 학습을 진행한 모델이다. 대소문자를 보존해야 하는 개체명 인식(Named Entity Recognition)과 같은 특정 작업을 수행하는 경우 BERT-cased 모델을 사용해야 한다. 이와 함께 구글은 전체 단어 마스킹(WWM) 방법을 사용해 사전 학습된 BERT 모델도 공개했다.

사전 학습된 모델을 다음 두 가지 방법으로 사용할 수 있다.

임베딩을 추출해 특징 추출기로 사용한다.
텍스트 분류, 질의 응답 등과 같은 다운스트림 태스크에 맞게 파인 튜닝한다.

사전 학습된 BERT에서 임베딩을 추출하는 방법

I love Korea

먼저 문장을 토큰화하고 사전 학습된 BERT에 토큰을 입력해 각 토큰에 대한 임베딩을 반환한다. 또한 토큰 수준(단어 수준) 표현을 얻는 것 외에도 문장 수준의 표현을 얻을 수도 있다.

위의 데이터셋은 텍스트이므로 모델에 직접 입력할 수 없다. 따라서 먼저 텍스트를 벡터화해야 한다.

데이터셋의 첫 번째 문장을 워드피스 토크나이저를 사용해 토큰화하고 토큰(단어)를 얻는다.

tokens = [I, love, Korea]

토큰 리스트 시작 부분에 [CLS] 토큰을 추가하고 끝에 [SEP] 토큰을 추가한다.

tokens = [[CLS], I, love, Korea, [SEP]]

이와 같은 방법으로 학습셋의 모든 문장을 토큰화할 수 있다. 하지만 각 문장의 길이가 다양하듯이, 토큰의 길이도 다양하다. 따라서 모든 토큰의 길이를 동일하게 유지해야 한다. 데이터셋의 모든 문장에 대해 토큰의 길이를 7로 유지한다고 가정해보자. 이전 토큰 목록을 보면 토큰의 길이는 5가 된다. 토큰 길이를 7로 만들기 위해 [PAD] 라는 새 토큰을 추가하면 토큰은 다음과 같다.

tokens = [[CLS], I, love, Korea, [SEP], [PAD], [PAD]]

[PAD] 토큰 2개를 추가했으므로 이제 토큰의 길이는 7이 된다. 다음 단계는 [PAD] 토큰이 토큰의 길이를 맞추기 위해서만 추가될 뿐 실제 토큰의 일부가 아니라는 것을 모델이 이해하도록 하는 것이다. 이를 위해 우리는 어텐션 마스크를 이용한다. 다음과 같이 모든 위치에서 어텐션 마스크 값을 1로 설정하고 [PAD] 토큰이 있는 위치에만 0을 설정한다.

attention_mask = [1, 1, 1, 1, 1, 0, 0]

다음으로 모든 토큰을 고유한 토큰 ID에 매핑한다. 다음을 매핑된 토큰 ID라고 가정한다.

token_ids = [101, 1045, 2293, 3000, 102, 0, 0]

이제 사전 학습된 BERT 모델에 대한 입력으로 어텐션 마스크와 함께 token_ids 를 공급하고 각 토큰의 벡터 표현(임베딩)을 얻는다.

토큰을 입력으로 공급하면 인코더 1은 모든 토큰의 표현을 계산해 다음 인코더인 인코더 2로 보낸다. 인코더 2는 3으로 전송한다. 최종 인코더인 인코더 12는 문장에 있는 모든 토큰의 최종 표현 벡터(임베딩)을 반환하게 된다. 이 때 각 토큰의 표현 크기는 768이다.

‘I love Korea’ 문장에서 각 단어에 대한 표현을 얻는 방법을 확인했다. 그렇다면 전체 문장의 표현을 어떻게 얻을까?

문장 시작 부분에 [CLS] 토큰의 표현은 전체 문장의 집계 표현을 보유하게 된다. 따라서 다른 모든 토큰의 임베딩을 무시하고 [CLS] 토큰의 임베딩을 가져와서 문장의 표현으로 할당할 수 있다. 따라서 ‘I love Korea’ 문장의 표현은 [CLS] 토큰에 해당하는 $R_{[CLS]}$ 의 표현 벡터가 된다.

유사한 방식으로 학습셋에 있는 모든 문장의 벡터 표현을 계산할 수 있다. 학습셋에 있는 모든 문장의 문장 표현을 얻은 후에는 해당 표현을 입력으로 제공하고 분류기를 학습해 감정 분석 작업을 수행할 수 있다.

[CLS] 토큰의 표현을 문장 표현으로 사용하는 것이 항상 좋은 생각은 아니다. 문장의 표현을 얻는 효율적인 방법은 모든 토큰의 표현을 평균화하거나 풀링하는 것이다.

예제

Ch 9. 파이썬스러운 객체

pip install -q sentencepiece
pip install -q transformers

사전 학습된 BERT 모델을 다운로드 한다.
bert-base-uncased 모델은 12개의 인코더가 있는 모두 소문자로 변환한 uncased 토큰으로 변환된 BERT 기반 모델이다.
표현 벡터 크기는 768이다.

In [1]:

import torch
from transformers import BertModel, BertTokenizer

model = BertModel.from_pretrained('bert-base-uncased')

bert-base-uncased 모델을 사전 학습 시키는데 사용된 토크나이저를 다운로드한다.

In [2]:

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

입력 전처리하기

In [3]:

sentence = 'I love Korea'

문장을 토큰화하고 토큰을 얻는다.

In [4]:

tokens = tokenizer.tokenize(sentence)
print(tokens)

['i', 'love', 'korea']

시작 부분에 [CLS] 토큰을 추가하고 토큰 목록 끝에 [SEP] 토큰을 추가한다.

In [5]:

tokens = ['[CLS]'] + tokens + ['[SEP]']
print(tokens)

['[CLS]', 'i', 'love', 'korea', '[SEP]']

토큰 목록의 길이를 7로 유지해야 한다고 가정하면 끝이 2개의 [PAD] 토큰을 추가해야 한다.

In [6]:

tokens = tokens + ['[PAD]'] + ['[PAD]']
print(tokens)

['[CLS]', 'i', 'love', 'korea', '[SEP]', '[PAD]', '[PAD]']

토큰이 [PAD] 토큰이 아니면 어텐션 마스크 값을 1로 설정하고, 그렇지 않으면 0으로 채운다.

In [7]:

attention_mask = [1 if i!= '[PAD]' else 0 for i in tokens]
print(attention_mask)

[1, 1, 1, 1, 1, 0, 0]

모든 토큰을 다음과 같이 토큰 ID로 변환한다.

In [8]:

token_ids = tokenizer.convert_tokens_to_ids(tokens)
print(token_ids)

[101, 1045, 2293, 4420, 102, 0, 0]

token_ids 와 attention_mask 를 텐서로 변환한다.

In [9]:

token_ids = torch.tensor(token_ids).unsqueeze(0)
attention_mask = torch.tensor(attention_mask).unsqueeze(0)

print(token_ids, attention_mask)

tensor([[ 101, 1045, 2293, 4420,  102,    0,    0]]) tensor([[1, 1, 1, 1, 1, 0, 0]])

임베딩 추출하기

모델은 두 값으로 구성된 튜플로 출력을 반환한다. 첫 번째 값은 은닉 상태 표현인데, 이는 최종 인코더(12번째 인코더)에서 얻은 모든 토큰의 표현 벡터로 구성되어 있고, 두 번째 값은 [CLS] 토큰의 표현으로 구성된다.

In [10]:

outputs = model(token_ids, attention_mask)

hidden_rep 는 입력에 대한 모든 토큰의 임베딩(표현)을 포함한다.
[1, 7, 768]는 [batch_size, sequence_length, hidden_size] 를 의미한다.

hidden_rep[0][0] 은 첫 번째 토큰인 [CLS] 의 표현 벡터를 제공한다.
hidden_rep[0][1] 은 두 번째 토큰인 I 의 표현 벡터를 제공한다.
hidden_rep[0][2] 는 세 번째 토큰인 love 의 표현 벡터를 제공한다.

In [11]:

hidden_rep = outputs.last_hidden_state
print(hidden_rep.shape)

torch.Size([1, 7, 768])

cls_head 에는 [CLS] 토큰의 표현이 포함된다.
크기 [1, 768] 은 [batch_size, hidden_size] 를 나타낸다.

cls_head 가 문장 전체의 표현을 보유하고 있다는 것을 배웠으므로 cls_head 를 I love Korea 문장의 표현 벡터로 사용할 수 있다.

In [12]:

cls_head = outputs.pooler_output
print(cls_head.shape)

torch.Size([1, 768])

BERT의 모든 인코더 레이어에서 임베딩을 추출하는 방법

위에서 사전 학습된 BERT 모델에서 임베딩을 추출하는 법을 배웠다. 그리고 추출된 임베딩은 최종 인코더 계층에서 얻은 임베딩임을 확인했다. 그런데 항상 최종 인코더 레이어(마지막 계층의 은닉 상태)에서만 얻은 임베딩을 사용해야 할까, 아니면 모든 인코더 레이어(모든 은닉 상태)에서 얻은 임베딩도 고려해야 할까?

BERT 연구원들은 다른 인코더 레이어에서 임베딩을 가져오는 실험을 했다.

예를 들어, 개체명 인식 태스크의 경우 연구원은 사전 학습된 BERT 모델을 사용해 특징을 추출했다. 최종 인코더 레이어(최종 은닉 레이어)의 임베딩만 속성으로 사용하는 대신 다른 인코더 레이어(다른 은닉 레이어)의 임베딩을 속성으로 사용해 실험하고 다음과 같은 F1 점수를 얻었다.

위에서 볼 수 있듯이 마지막 4개의 인코더 레이어의 임베딩을 연결하면 F1 점수가 96.1%가 된다. 따라서 최종 인코더 레이어에서만 임베딩을 가져오는 대신 다른 인코더 레이어의 임베딩을 사용할 수도 있다.

예제

Ch 9. 파이썬스러운 객체

모든 인코더 레이어에서 임베딩을 얻기 위해 사전 학습된 BERT 모델을 다운로드할 때 output_hidden_states = True 로 설정한다.

In [13]:

import torch
from transformers import BertModel, BertTokenizer

model = BertModel.from_pretrained('bert-base-uncased', output_hidden_states=True)
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

앞에서 본 문장을 그대로 토큰화하고 시작 부분에 [CLS] 토큰을 추가하고 끝에 [SEP] 토큰을 추가한다.
토큰의 길이를 7로 유지해야 한다고 가정하며 [PAD] 토큰을 추가한다.

In [14]:

sentence = 'I love Korea'
tokens = tokenizer.tokenize(sentence)
tokens = ['[CLS]'] + tokens + ['[SEP]']
tokens = tokens + ['[PAD]'] + ['[PAD]']
print(tokens)

['[CLS]', 'i', 'love', 'korea', '[SEP]', '[PAD]', '[PAD]']

어텐션 마스크를 정의한다.

In [15]:

attention_mask = [1 if i!= '[PAD]' else 0 for i in tokens]
print(attention_mask)

[1, 1, 1, 1, 1, 0, 0]

토큰을 토큰 ID로 변환한다.

In [16]:

token_ids = tokenizer.convert_tokens_to_ids(tokens)
print(token_ids)

[101, 1045, 2293, 4420, 102, 0, 0]

token_ids 와 attention_mask 를 텐서로 변환한다.

In [17]:

token_ids = torch.tensor(token_ids).unsqueeze(0)
attention_mask = torch.tensor(attention_mask).unsqueeze(0)

print(token_ids, attention_mask)

tensor([[ 101, 1045, 2293, 4420,  102,    0,    0]]) tensor([[1, 1, 1, 1, 1, 0, 0]])

모델은 다음과 같이 3개의 값이 있는 튜플을 반환한다.

첫 번째 값인 last_hidden_state 는 최종 인코더 계층(12번째 인코더)에서만 얻은 모든 토큰의 표현을 가진다.
pooler_output 은 최종 인코더 계층의 [CLS] 토큰 표현을 나타내며 선형 및 tanh 활성화 함수에 의해 계산된다.
hidden_states 는 모든 인코더 계층에서 얻은 모든 토큰의 표현을 포함한다.

In [18]:

outputs = model(token_ids, attention_mask)

last_hidden_state = outputs.last_hidden_state
pooler_output = outputs.pooler_output
hidden_states = outputs.hidden_states

last_hidden_state 는 최종 인코더 계층(12번째 인코더)에서만 얻은 모든 토큰의 표현을 가지고 있다.
[1, 7, 768]는 [batch_size, sequence_length, hidden_size] 를 의미한다.

hidden_rep[0][0] 은 첫 번째 토큰인 [CLS] 의 표현 벡터를 제공한다.
hidden_rep[0][1] 은 두 번째 토큰인 I 의 표현 벡터를 제공한다.
hidden_rep[0][2] 는 세 번째 토큰인 love 의 표현 벡터를 제공한다.

In [19]:

last_hidden_state.shape

Out[19]:

torch.Size([1, 7, 768])

pooler_output 은 최종 인코더 계층의 [CLS] 토큰 표현을 포함하고 있으며 선형 및 tanh 활성화 함수에 의해 계산된다.

[1, 768] 은 [batch_size, hidden_size] 를 나타낸다.

In [20]:

pooler_output.shape

Out[20]:

torch.Size([1, 768])

마지막으로 모든 인코더 계층에서 얻은 모든 토큰의 표현을 포함하는 hidden_states 가 있다.

이는 입력 임베딩 레이어($h_0$)에서 최종 인코더 레이어($h_12$)까지 모든 인코더 레이어의 표현을 포함하는 13개의 값을 포함하는 튜플이다.

In [21]:

len(hidden_states)

Out[21]:

hidden_states[0] 는 입력 임베딩 레이어 $h_0$ 에서 얻은 모든 토큰의 표현 벡터를 가진다.
hidden_states[1] 는 첫 번째 인코더 계층 $h_1$ 에서 얻은 모든 토큰의 표현 벡터를 가진다.
hidden_states[2] 는 두 번째 인코더 계층 $h_2$ 에서 얻은 모든 토큰의 표현 벡터를 가진다.
hidden_states[12] 는 최종 인코더 레이어 $h_12$ 에서 얻은 모든 토큰의 표현 벡터를 가진다.

[1, 7, 768]는 [batch_size, sequence_length, hidden_size] 를 의미한다.

In [22]:

hidden_states[0].shape

Out[22]:

torch.Size([1, 7, 768])

다운스트림 태스크를 위한 BERT 파인 튜닝 방법

파인 튜닝은 BERT를 처음부터 학습시키지 않는다는 것을 의미한다. 그 대신 사전 학습된 BERT를 기반으로 태스크에 맞게 가중치를 업데이트하게 된다.

텍스트 분류

감정 분석을 수행하고 있다고 가정해본다. 감정 분석 태스크의 목표는 문장이 긍정적인지 부정적인지 분류하는 것이다.

‘I love Korea’ 라는 문장이 주어졌다고 하자. 먼저 문장을 토큰화하고 시작 부분에 [CLS] 토큰을 추가한 뒤 문장 끝에 [SEP] 토큰을 추가한다. 그런 다음 BERT 모델에 대한 입력으로 토큰을 입력하고 모든 토큰의 임베딩을 가져온다.

다음으로 다른 모든 토큰의 임베딩을 무시하고 $R_{[CLS]}$ 인 [CLS] 토큰의 임베딩만 취한다. [CLS] 토큰을 포함하면 문장의 집계 표현이 유지된다. $R_{[CLS]}$ 를 분류기 (소프트맥스 함수가 있는 피드포워드 네트워크)에 입력하고 학습시켜 감정 분석을 수행한다.

이러한 방식이 사전 학습된 BERT 모델을 파인 튜닝하는 것은 사전 학습된 BERT를 특징 추출기로 사용하는 것과 어떻게 다른 걸까?

위에서 문장의 임베딩 $R_{[CLS]}$ 를 추출한 후 $R_{[CLS]}$ 를 분류기에 입력하고 분류기를 학습해 분류를 수행한다는 것을 배웠다. 마찬가지로 파인 튜닝 중에 $R_{[CLS]}$ 임베딩을 분류기에 입력하고 분류를 수행할 수 있다.

차이점은 사전 학습된 BERT 모델을 파인 튜닝할 때 분류기와 함께 모델의 가중치를 업데이트 한다는 것이다. 그러나 사전 학습된 BERT 모델을 특징 추출기로 사용하면 사전 학습된 BERT 모델이 아닌 분류기의 가중치만 업데이트하게 된다.

파인 튜닝 중에 다음 두 가지 방법으로 모델의 가중치를 조정할 수 있다.

분류 계층과 함께 사전 학습된 BERT 모델의 가중치를 업데이트한다.
사전 학습된 BERT 모델이 아닌 분류 계층의 가중치만 업데이트한다. 이렇게 하면 사전 학습된 BERT 모델을 특징 추출기로 사용하는 것과 같다.

감정 분석을 위한 BERT 파인 튜닝

네이버 영화 리뷰 데이터셋을 기반으로 한 감정 분석 태스크를 위해 사전 학습된 BERT를 파인 튜닝하는 방법을 살펴본다.

GitHub - eunsour/nlp-pretrained-model-paper-review

Contribute to eunsour/nlp-pretrained-model-paper-review development by creating an account on GitHub.

github.com

Reference

구글 BERT의 정석: 저자 : 수다르산 라비찬디란; 역자 : 전희원, 정승환, 김형준; 출판 : 한빛미디어; 발매 : 2021.11.03