Para entender sobre a rede BERT énecessário entender sobre o conceito de fine tunning, que vem sendo uma das grandes vantagens das redes neurais
link do material
Transfer Learning — Pegando conhecimento emprestado
Transfer Learning pode ser utilizado para usufruir do conhecimento e de informações aprendidas por modelos conhecidos e treinados em milhões de dados de treinamento por pesquisadores e empresas.
Exemplos disso são VGG, ResNet, Inception
Alguns fatores devem ser levados em consideração:
- Seu conjunto de dados é pequeno, porém os dados são similares aos utilizados para treinamento do modelo original
- você pode fazer uso de todas as camadas da rede original, alterando somente a última camada de acordo com seu número de classes. Assim, todos os parâmetros aprendidos pela rede original são congelados e você irá treinar somente a última camada que adicionou.
- Seu conjunto de dados é grande e similar aos originais
- Para essa situação, pode-se alterar a última camada para o número correto de classes do seu projeto (como no primeiro caso). A diferença é que os pesos antigos não serão congelados, mas serão ajustados também. Isso é chamado de Fine Tunning. No treinamento, os pesos já aprendidos são levemente ajustados para sua situação, enquanto os pesos da nova camada final serão aprendidos do zero.
Texto que fala um pouco sobre, mas o foco principal dele, é falar sobre redes CNN
- O processo de fine-tuning consiste basicamente em continuar o treinamento a partir dos pesos iniciais, mas agora usando um subconjunto de sua base de dados, assim, será preciso remover a última camada e adicionar uma nova camada de saída com o número de classes desejado, havendo várias abordagens
- permitir que o algoritmo ajuste todos os pesos da rede com base nas novas
imagens
- congelar algumas camadas e permitir que o algoritmo ajuste apenas os parâmetros um subconjunto de camadas – por exemplo, podemos ajustar apenas os pesos da
última camada criada, ou apenas os pesos das FCs, etc
- criar novas camadas adicionais com números e tamanhos de filtros diferentes
- Sendo que a abordagem mais comum, é a segunda citada