Video no YouTube que fala sobre
Transformers, explained: Understand the model behind GPT, BERT, and T5
É um tipo de arquitetura
Antes disso se utilizavam a rede RNN, em que processava cada palavra de cada vez, além de capturar a ordem das palavras
Mas tinha os seguintes problemas como, por exemplo:
Os transformadores foram desenvolvidos em 2017 pelos pesquisadores do Google e pela Universidade de Toronto, sendo inicialmente projetado para tradução
Podem ser paralelizados de forma eficiente
GPT-3 foi usado 45TB em dados de treino