Referente à arquitetura original do Transformer (conforme o artigo “Attention is All You Need”, de Vaswani et. al. 2017), qual é a principal vantagem do uso do mecanismo Multi-Head Attention em comparação com uma única camada de atenção na arquitetura Transformer?
Reduzir o número de parâmetros treináveis do modelo.
Permitir que o modelo capture diferentes aspectos das relações entre as palavras em paralelo.
Eliminar a necessidade de normalização em camadas.
Aumentar a profundidade da rede sem adicionar camadas.
Ajustar funções específicas, sem a necessidade do uso global de funções como a sigmoid ou ReLU.