Esta superficie geométrica separa el espacio de datos en dos regiones distintas, asignando clases diferentes a cada lado.
¿Qué es un hiperplano?
Esta función penaliza los puntos mal clasificados o demasiado cerca del margen, equilibrando precisión y robustez.
¿Qué es la pérdida hinge?
En la formulación dual de la SVM, estas variables aparecen como multiplicadores asociados a las restricciones del margen y determinan los vectores soporte.
¿Qué son los multiplicadores de Lagrange (alpha)?
Este método permite separar datos no linealmente separables proyectándolos implícitamente en un espacio de mayor dimensión, sin calcular la transformación explícitamente.
¿Qué es el kernel trick?
Este parámetro controla el equilibrio entre el ancho del margen y la penalización por errores, funcionando como una especie de ‘regularizador’.
¿Qué representa el parámetro C en una SVM?
Explicación:
C grande → penaliza mucho los errores, margen más pequeño, posible overfitting.
C pequeño → permite más errores, margen más ancho, mayor generalización.
En una SVM, este valor indica de qué lado del hiperplano se encuentra un punto y se usa para decidir su clase.
¿Qué es el signo de w⋅x+b?
Este parámetro controla el equilibrio entre el ancho del margen y la penalización por errores de clasificación.
¿Qué es el parámetro C en la forma primal de la SVM?
En la forma dual, este término define las interacciones entre pares de muestras, reemplazando los productos directos por su versión generalizada con kernels.
¿Qué es la matriz K=X X^T (matriz del kernel lineal)?
Estos son tres ejemplos comunes de funciones kernel:
lineal,
polinomial,
gaussiano (RBF).
Explica brevemente cómo difieren en la forma en que separan los datos.
¿Cuáles son las diferencias entre los kernels lineal, polinomial y RBF?
En una SVM entrenada, estos puntos determinan directamente la posición del hiperplano y los márgenes.
¿Qué son los vectores soporte?
Dado el hiperplano w=[2,1], b=−4, calcula el margen geométrico entre este hiperplano y el origen.
Sol.: ≈ 1.78885
Pregunta: ¿Qué es la distancia (margen geométrico) entre el hiperplano y el punto más cercano?
Dada la función de costo de una SVM en su forma primal:
L(w) = 1/2 * ||w||² + C * suma sobre i de [ max(0, 1 - y_i * (w·x_i + b)) ], deriva a mano la expresión del gradiente de L con respecto a w.
Sol.:
∂L/∂w = w - C * suma de (yᵢ * xᵢ) para todos los puntos donde yᵢ * (w·xᵢ + b) < 1
Pregunta: ¿Cuál es el gradiente de L respecto a w en la forma primal de la SVM?
En la forma dual de la SVM, las variables alfa(i) están sujetas a dos tipos de restricciones.
Escribe cuáles son esas restricciones y explica brevemente qué representan.
Sol.:
Restricciones de caja:
0 <= alfa(i) <= C
→ garantizan que los multiplicadores se mantengan dentro del rango permitido por la penalización C.
Restricción de igualdad:
sum_i alfa(i) * y(i) = 0
→ asegura que el hiperplano sea balanceado respecto a ambas clases.
Pregunta: ¿Cuáles son las restricciones que deben cumplir las variables alfa(i) en la forma dual de la SVM y qué significan?
Dadas las muestras x = [1, 2] y z = [2, 1]:
a) Calcula manualmente el valor del kernel lineal
k(x, z) = x·z
b) Calcula el kernel polinomial de grado 2:
k(x, z) = (1 + x·z)^2
c) Calcula el kernel RBF con gamma = 0.5:
k(x, z) = exp( -gamma * ||x - z||² )
Sol.:
x·z = 1*2 + 2*1 = 4
(1 + 4)^2 = 25
||x - z||² = (1-2)² + (2-1)² = 2 → exp(-0.5 * 2) = exp(-1) ≈ 0.3679
Pregunta: ¿Cuáles son los valores de los kernels lineal, polinomial y RBF para los vectores dados?
Supón dos SVM entrenadas sobre el mismo conjunto de datos:
Modelo A con C = 0.1
Modelo B con C = 100
a) ¿Cuál tendrá un margen más ancho?
b) ¿Cuál corre mayor riesgo de sobreajustar?
c) Explica brevemente por qué.
Sol.:
a) El modelo A (C pequeño) tiene un margen más ancho.
b) El modelo B (C grande) tiende al sobreajuste.
c) Porque un valor grande de C fuerza al modelo a clasificar correctamente casi todos los puntos, incluso si eso reduce el margen y lo hace más sensible al ruido.
Nombrar el principio que describe:
1. Inicializa w y b
2. Mientras existan puntos con y_i (w·x_i + b) < 1:
# zona de penalización (hinge)
w ← (1 - ηλ)·w + η·y_i·x_i
b ← b + η·y_i
En otro caso:
# solo regularización
w ← (1 - ηλ)·w
3. Devuelve w, b
¿Qué es la maximización del margen en una SVM (forma primal con pérdida hinge y regularización)?
Como definición el siguiente pseudocódigo:
1. Inicializa w = 0, b = 0
2. Para cada epoch:
Para cada (x_i, y_i):
si y_i (w·x_i + b) < 1:
w ← (1 - ηλ)·w + η·C·y_i·x_i
b ← b + η·C·y_i
si no:
w ← (1 - ηλ)·w
3. Devuelve w, b
¿Qué es el gradiente descendente para SVM (lineal) tipo Pegasos?
Definición del principio:
1. Construye matrices P, q, G, h, A, b:
P = (y_i y_j)(x_i·x_j)
q = -1
G = -I
h = 0
A = y^t
b = 0
2. Llama a un solver cuadrático (QP) para maximizar:
½ α^t P α - q^t α
3. Devuelve α*, los multiplicadores óptimos
¿Qué procedimiento resuelve la forma dual de la SVM? o ¿Qué es un solver de programación cuadrática (QP)?
Descripción de un proceso:
1. Construye la matriz K usando el kernel elegido:
K[i,j] = kernel(x_i, x_j)
2. Arma el problema dual:
max 1ᵗα - ½ α^t (Y Y^t K) α
s.a. 0 <= α_i <= C, sum(α_i y_i) = 0
3. Resuelve α con un solver QP
4. Calcula w implícito: no se forma directamente, se usa α y los vectores soporte para predecir
¿Qué es el entrenamiento de una SVM kernelizada en la forma dual?
Descripción de comparación:
1. Entrena una SVM usando la forma primal (gradiente descendente).
2. Entrena otra SVM con la forma dual (solver QP).
3. Calcula las predicciones y la exactitud de ambas.
4. Compara los vectores w y b obtenidos.
5. Concluye bajo qué condiciones ambas formas producen el mismo hiperplano.
¿Qué muestra la comparación entre las formas primal y dual de la SVM?