-
Notifications
You must be signed in to change notification settings - Fork 33
Description
안녕하세요. ebook 구매해서 잘 보고 있습니다..
예제를 보던중에 문의가 있어 여기에 우선 올립니다.
ebook의 21-03에 나와있는 내용은 이미 BERT할때 했던 내용을 모델만 GPT2로 바꾼내용이라
github에 올라온 예제는 내용이 달라서 보고 있는 중에 이상한점이 있어 문의드립니다.
gpt_naver_review_classification.ipynb
tokenizer = AutoTokenizer.from_pretrained('skt/kogpt2-base-v2', bos_token='</s>', eos_token='</s>', pad_token='<pad>')
위와 같이 pad를 정의하고 pad token은 3인걸로 파악됩니다.
print(tokenizer.decode(3))
그러나 코드에서는 아래와 같이 pad를 0으로 채우고 있는것 같아서
def pad_sequences(sentences, max_len):
features = np.zeros((len(sentences), max_len), dtype=int)
for index, sentence in enumerate(sentences):
if len(sentence) != 0:
features[index, :len(sentence)] = np.array(sentence)[:max_len]
return features
아래와 같이 <pad> 가 아닌 <s> 로 채워지는것 같은데요.
그리고 학습을 해도 accuracy가 너무 낮게 나오고 있는데, 맞는 코드인걸까요?
감사합니다.
