Módulo vision computacionalParte 1 de 2

Convoluciones y Pooling

Cómo las máquinas aprenden a ver el mundo

👁️ Visión Computacional

¿Cómo ven las máquinas? A través de la convolución. Aquí aprenderás cómo las CNNs detectan desde bordes simples hasta caras complejas.

1. El Tensor de Imagen (NCHW)

En Deep Learning, una imagen no es solo píxeles. Es un tensor de 4 dimensiones: Batch, Channels, Height, Width.

Batch (N)

Canales (C)

Alto (H)

Ancho (W)

2. La Operación de Convolución

Un Kernel (o filtro) se desliza por la imagen calculando productos internos. Esto permite la "invarianza espacial": la red puede detectar un objeto sin importar su posición en la imagen.

capa_conv.py

1import torch.nn as nn
2
3# Capa de visión estándar
4conv = nn.Conv2d(in_channels=3, # RGB
5               out_channels=16, # Filtros a aprender
6               kernel_size=3, # Ventana 3x3
7               stride=1,
8               padding=1)

MaxPooling

Reduce el tamaño espacial de la imagen, quedándose solo con la característica más "brillante" o importante de cada región.

Pattern Detection

Las capas iniciales detectan bordes, las intermedias formas y las finales objetos completos.

3. Del Pixel al Embedding

Cuando una CNN termina su trabajo, no te da una "respuesta" humana. Te da un vector: un embedding visual que resume la imagen. Ese vector es la moneda con la que luego negociaremos con texto.

Puente clave: primero aprendes a ver (CNN), luego aprendes a hablar de lo que ves (embeddings + lenguaje).