Como os modelos como GPT e Transformer usam atenção para processar informações
O mecanismo de atenção é uma técnica que permite aos modelos de IA focar em partes específicas da entrada ao processar informações, similar a como humanos prestam atenção seletiva.
A atenção é o que permite aos modelos generativos entenderem contextos complexos e gerar respostas coerentes e relevantes.
Calcula relações entre todas as palavras na sequência simultaneamente.
Foca apenas em uma janela de palavras próximas, melhorando eficiência.
Múltiplos mecanismos de atenção em paralelo para capturar diferentes relações.
Selecione uma palavra para ver como o mecanismo de atenção funciona:
Como ler este diagrama: As linhas mostram quais palavras o modelo "presta atenção" quando processa a palavra selecionada. Linhas mais espessas e coloridas indicam maior atenção.
1. Consultas, Chaves e Valores (Q, K, V)
Cada palavra é transformada em três vetores que representam diferentes aspectos.
2. Cálculo dos Scores de Atenção
Produto escalar entre consultas e chaves determina o quanto uma palavra deve focar em outra.
3. Aplicação do Softmax
Transforma os scores em probabilidades que somam 1.
4. Combinação dos Valores
Os valores são ponderados pelos pesos de atenção para produzir a saída final.
Paralelização
Cálculos podem ser feitos em paralelo, diferente de RNNs.
Dependências de Longo Alcance
Captura relações entre palavras distantes na sequência.
Interpretabilidade
Podemos analisar os padrões de atenção para entender decisões.
Flexibilidade
Funciona bem para diversas tarefas (tradução, sumarização, etc.).