Fine tuning BERT - AI vs Human Text

Apresentação Final do grupo de estudos de Processamento em Linguagem Natural no Panda (UFSCar)

Membros:

Leticia Bossatto Marchezi

Leonardo Rossi

Lorhanne Martins

Introdução
Neste tutorial, faremos o fine tuning de um modelo transformer para o problema de classificação de texto binária. Este é um dos problemas de negócios mais comuns, onde um dado texto/frase/documento precisa ser classificado em uma ou mais categorias de uma lista fornecida. Por exemplo, um filme pode ser categorizado em um ou mais gêneros.

Fluxo do Notebook
O notebook será dividido em seções separadas para fornecer um guia organizado sobre o processo utilizado. Este processo pode ser modificado para casos de uso individuais. As seções são:

Importação de Bibliotecas Python e preparação do ambiente
Importação e Pré-Processamento dos dados do domínio
Preparação do Dataset e Dataloader
Criação da Rede Neural para Fine Tuning
Fine Tuning do Modelo
Validação do Desempenho do Modelo
Salvando o modelo e artefatos para Inferência no Futuro

Dados: O dataset originário foi obtido na plataforma kaggle, e é denominado AI vs Human text, contendo mais de 500 mil artigos escritos por humanos ou por IA.

Estruturação: Em cada linha temos um texto na coluna text, com o valor de 0 na coluna generated para textos escritos por humanos. Ao contrário, o valor é 1.

Para nosso trabalho, utilizamos 30000 exemplos do dataset.

Modelo de Linguagem Utilizado:
O DistilBERT vai ser utilizado neste projeto. Ele é um modelo transformer criado pela equipe do Hugging Face.

NOTA
Deve-se notar que as saídas do modelo BERT são diferentes do modelo DistilBert implementado pela equipe Hugging Face. Não há token_type_ids gerados pelo tokenizer no caso do DistilBert e também as saídas finais da rede diferem.
Isso será explicado mais adiante no notebook.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.gitignore		.gitignore
README.md		README.md
panda_bert_ai_generated_classification.ipynb		panda_bert_ai_generated_classification.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Fine tuning BERT - AI vs Human Text

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

letMarchezi/Bert_finetuning_detect_IA

Folders and files

Latest commit

History

Repository files navigation

Fine tuning BERT - AI vs Human Text

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages