Skip to content

[ebook example] 21-03 예제 문의 #1

@Minkyuman

Description

@Minkyuman

안녕하세요. ebook 구매해서 잘 보고 있습니다..
예제를 보던중에 문의가 있어 여기에 우선 올립니다.

ebook의 21-03에 나와있는 내용은 이미 BERT할때 했던 내용을 모델만 GPT2로 바꾼내용이라
github에 올라온 예제는 내용이 달라서 보고 있는 중에 이상한점이 있어 문의드립니다.

gpt_naver_review_classification.ipynb

tokenizer = AutoTokenizer.from_pretrained('skt/kogpt2-base-v2', bos_token='</s>', eos_token='</s>', pad_token='<pad>')
위와 같이 pad를 정의하고 pad token은 3인걸로 파악됩니다.
print(tokenizer.decode(3))

그러나 코드에서는 아래와 같이 pad를 0으로 채우고 있는것 같아서
def pad_sequences(sentences, max_len):
features = np.zeros((len(sentences), max_len), dtype=int)
for index, sentence in enumerate(sentences):
if len(sentence) != 0:
features[index, :len(sentence)] = np.array(sentence)[:max_len]
return features

아래와 같이 <pad> 가 아닌 <s> 로 채워지는것 같은데요.

Image

그리고 학습을 해도 accuracy가 너무 낮게 나오고 있는데, 맞는 코드인걸까요?

감사합니다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions