Perceptron/Neuronio - A Unidade Fundamental do Deep Learning

Visualizacao interativa do perceptron, funcoes de ativacao e fundamentos de redes neurais

Frank Rosenblatt, 1958 - A estrutura atomica das redes neurais

Forma Basica do Perceptron

Ajuste os pesos e o vies para ver como o perceptron calcula sua saida

Forma Escalar: y = f(∑wixi + b)
Forma Vetorial: y = f(wTx + b)

Entradas (x)

Pesos (w)

Vies (b)

Funcao de Ativacao

Computacao

Soma Ponderada (z): 0.55
Saida (y): 0.63

Por Que as Funcoes de Ativacao Sao Necessarias

Sem funcoes de ativacao, as redes neurais permanecem lineares independentemente da profundidade

Insight Chave

Composicao Linear de Linear = Linear

f(g(x)) = ax + b, where both are linear

Tres Propositos Principais

1 Introduzir nao linearidade para aprender padroes complexos
2 Controlar o intervalo numerico das saidas
3 Fornecer diferenciabilidade para retropropagacao

Historia da Evolucao

1958 Step Function (Rosenblatt)
1980s Sigmoid/Tanh
2011 ReLU (Revolution)
2017+ Swish/GELU

Galeria de Funcoes de Ativacao

Compare diferentes funcoes de ativacao e suas derivadas

Detalhes da Funcao

Formula: f(z) = 1/(1+e^(-z))
Intervalo: (0, 1)
Derivada: f'(z) = f(z)(1-f(z))
Vantagens: Smooth, differentiable, probabilistic interpretation
Desvantagens: Gradient vanishing, non-zero centered

Calculadora em Tempo Real

Visualizacao do Fluxo de Gradiente

Veja como os gradientes se propagam atraves de diferentes funcoes de ativacao

Formula de Retropropagacao

∂L/∂wi = ∂L/∂y · f'(z) · xi

Se f'(z) ~ 0, o gradiente desaparece!

Comparacao de Estabilidade do Gradiente

Funcao Gradiente |z| Grande Gradiente z=0
Sigmoid ≈0 (vanishing) 0.25
Tanh ≈0 (vanishing) 1.0
ReLU 1 (for z>0) 0 or 1
Swish Smooth non-zero 0.5
GELU Smooth non-zero 0.5

Expressividade

ReLU family: Aproximacao linear por partes
GELU/Swish: Aproximacao nao linear suave

De um Neuronio para Redes Profundas

Compare redes puramente lineares vs redes com ativacoes nao lineares

Composicao Multicamada

h(l) = f(W(l)·h(l-1) + b(l))

Tipo de Rede

Numero de Camadas

Funcao Alvo

Teorema da Aproximacao Universal

Uma rede feedforward com pelo menos uma camada oculta pode aproximar qualquer funcao continua em subconjuntos compactos de R^n

Camadas Ocultas

Padrao: ReLU
Transformer: GELU / Swish

Camadas de Saida

Tarefa Ativacao
Classificacao Binaria Sigmoid
Classificacao Multiclasse Softmax
Regressao Linear (nenhuma)

Correspondencia de Inicializacao

ReLU He Initialization
Tanh/Sigmoid Xavier Initialization

Tecnicas de Combinacao

  • Ativacao + BatchNorm para treinamento estavel
  • Conexao Residual + ReLU/GELU para redes profundas
  • LayerNorm + GELU para Transformers

Compreensao Conceitual

Pesos

Aprender "o que olhar"

Vies

Aprender "limiar"

Ativacao

Aprender "como responder"

Neuronio = Transformador de caracteristicas aprendivel com porta nao linear

Resumo em Uma Linha

O perceptron e a estrutura atomica das redes neurais

As funcoes de ativacao determinam se as redes podem aprender padroes complexos

ReLU tornou o deep learning realmente treinavel

GELU/Swish tornam modelos grandes mais estaveis e poderosos