Questão Q4165948 - Tecnologia da Informação

Question

Referente à arquitetura original do Transformer (conforme o artigo “Attention is All You Need”, de Vaswani et. al. 2017), qual é a principal vantagem do uso do mecanismo Multi-Head Attention em comparação com uma única camada de atenção na arquitetura Transformer?

Gran Questões · Accepted Answer

Permitir que o modelo capture diferentes aspectos das relações entre as palavras em paralelo.

Gran Questões · Answer

Reduzir o número de parâmetros treináveis do modelo.

Gran Questões · Answer

Eliminar a necessidade de normalização em camadas.

Gran Questões · Answer

Aumentar a profundidade da rede sem adicionar camadas.

Gran Questões · Answer

Ajustar funções específicas, sem a necessidade do uso global de funções como a sigmoid ou ReLU.

Referente à arquitetura original do Transformer (conforme o artigo “Attention is All Yo...