Perceptron/Neuronio - A Unidade Fundamental do Deep Learning

Visualizacao interativa do perceptron, funcoes de ativacao e fundamentos de redes neurais

Frank Rosenblatt, 1958 - A estrutura atomica das redes neurais

Forma Basica do Perceptron

Ajuste os pesos e o vies para ver como o perceptron calcula sua saida

Forma Escalar: y = f(∑w_ix_i + b)

Forma Vetorial: y = f(w^Tx + b)

Entradas (x)

x₁: 1.0

x₂: 0.5

x₃: -0.3

Pesos (w)

w₁: 0.5

w₂: -0.3

w₃: 0.8

Vies (b)

b: 0.1

Funcao de Ativacao

Computacao

Soma Ponderada (z): 0.55

Saida (y): 0.63

Por Que as Funcoes de Ativacao Sao Necessarias

Sem funcoes de ativacao, as redes neurais permanecem lineares independentemente da profundidade

Insight Chave

Composicao Linear de Linear = Linear

f(g(x)) = ax + b, where both are linear

Tres Propositos Principais

1 Introduzir nao linearidade para aprender padroes complexos

2 Controlar o intervalo numerico das saidas

3 Fornecer diferenciabilidade para retropropagacao

Historia da Evolucao

1958 Step Function (Rosenblatt)

1980s Sigmoid/Tanh

2011 ReLU (Revolution)

2017+ Swish/GELU

Galeria de Funcoes de Ativacao

Compare diferentes funcoes de ativacao e suas derivadas

Detalhes da Funcao

Formula: f(z) = 1/(1+e^(-z))

Intervalo: (0, 1)

Derivada: f'(z) = f(z)(1-f(z))

Vantagens: Smooth, differentiable, probabilistic interpretation

Desvantagens: Gradient vanishing, non-zero centered

Calculadora em Tempo Real

Entrada z:

Visualizacao do Fluxo de Gradiente

Veja como os gradientes se propagam atraves de diferentes funcoes de ativacao

Formula de Retropropagacao

∂L/∂w_i = ∂L/∂y · f'(z) · x_i

Se f'(z) ~ 0, o gradiente desaparece!

Comparacao de Estabilidade do Gradiente

Funcao	Gradiente \|z\| Grande	Gradiente z=0
Sigmoid	≈0 (vanishing)	0.25
Tanh	≈0 (vanishing)	1.0
ReLU	1 (for z>0)	0 or 1
Swish	Smooth non-zero	0.5
GELU	Smooth non-zero	0.5

Expressividade

ReLU family: Aproximacao linear por partes

GELU/Swish: Aproximacao nao linear suave

De um Neuronio para Redes Profundas

Compare redes puramente lineares vs redes com ativacoes nao lineares

Composicao Multicamada

h^(l) = f(W^(l)·h^(l-1) + b^(l))

Tipo de Rede

Numero de Camadas

Camadas:

Funcao Alvo

Teorema da Aproximacao Universal

Uma rede feedforward com pelo menos uma camada oculta pode aproximar qualquer funcao continua em subconjuntos compactos de R^n

Camadas Ocultas

Padrao: ReLU

Transformer: GELU / Swish

Camadas de Saida

Tarefa	Ativacao
Classificacao Binaria	Sigmoid
Classificacao Multiclasse	Softmax
Regressao	Linear (nenhuma)

Correspondencia de Inicializacao

ReLU → He Initialization

Tanh/Sigmoid → Xavier Initialization

Tecnicas de Combinacao

Ativacao + BatchNorm para treinamento estavel
Conexao Residual + ReLU/GELU para redes profundas
LayerNorm + GELU para Transformers

Compreensao Conceitual

Pesos

Aprender "o que olhar"

Vies

Aprender "limiar"

Ativacao

Aprender "como responder"

Neuronio = Transformador de caracteristicas aprendivel com porta nao linear

Resumo em Uma Linha

O perceptron e a estrutura atomica das redes neurais

As funcoes de ativacao determinam se as redes podem aprender padroes complexos

ReLU tornou o deep learning realmente treinavel

GELU/Swish tornam modelos grandes mais estaveis e poderosos