Enter Title Jeopardy Template

Preprocesamiento

Vectorizacion

Naive Bayes

Regresion Logistica

SVM

100

¿Qué son los datos no estructurados?

Datos que no poseen un formato tabular y ni un esquema predefinido.

100

¿Qué significa el acronimo TF-IDF?

Frecuencia de Término-Frecuencia Inversa de Documento

100

Porque este algoritmo se considera "Ingenuo"?

Por la suposición matemática que la aparición de una palabra tiene independencia estadística sobre la aparición de las demás palabras en la misma frase.

100

¿Qué es la función Sigmoide (o función logística)?

Es La función de activación matemática no lineal que "aplasta" la sumatoria del producto de los pesos por las características, garantizando que el resultado final sea un valor continuo estrictamente contenido entre 0 y 1.

100

Cual es el objetivo general de SVM?

Encontrar un hiperplano que separe las clases maximizando el margen.

200

Qué es la tokenización?

Consiste en romper el texto en unidades manejables como sub-palabras o caracteres

200

¿Qué son las stopwords?

son términos de uso muy frecuente en cualquier idioma (artículos, preposiciones, conjunciones, pronombres) que aportan poco o ningún valor semántico significativo a una frase.

200

cual es la formula del teorema de Bayes?

P(A|B) = (P(B|A) * P(A)) / (P(B))

200

Si el peso w asociado a una palabra es cercano a 0, que esta representando?

Que la palabra es neutra o irrelevante para la clasificación

200

Que son los Vectores de Soporte?

Son los puntos (observaciones) que están más cerca de la frontera de la otra clase.

300

Es el nivel más granular y atómico en el que un modelo puede aplicar la tokenización de una oración pero genera secuencias significativamente más largas

Tokenizacion por caracteres

300

¿Qué es Bag of Words (o Bolsa de Palabras)?

Técnica de representación extrae el vocabulario de un corpus y modela cada documento contando la frecuencia de sus tokens.

300

Que calcula Naive Bayes en NLP?

Calcula la probabilidad condicional de que un documento pertenezca a una categoría específica, dado el conjunto de palabras que lo componen.

300

si los pesos (w) que el modelo aprendió para las palabras de un texto son fuertemente negativos, la función sigmoide empujará la predicción hacia que categoría?

La Clase 0

300

¿Qué es el parámetro C?

Es el hiperparámetro de regularización que controla el "margen suave" (soft margin).

400

¿Qué es la lematización?

Un análisis morfológico profundo para reducir una palabra a su forma canónica o de diccionario.

400

¿Qué es TF-IDF?

Es una medida estadística que evalúa cuán relevante es una palabra para un documento dentro de una colección, generando una representacion de su abundancia local y su rareza global en el corpus.

400

¿Qué es el suavizado (smoothing) de Laplace)?

Esta técnica matemática salva a los modelos probabilísticos de colapsar ante términos con frecuencia cero, lográndolo mediante la adición de un valor constante a los conteos.

400

Cuales son algunas ventajas de la Regresion Logistica frente a otros modelos de analisis de sentimientos?

Interpretabilidad: Se puede ver exactamente qué palabras están influyendo más en la decisión.

Eficiencia: Es extremadamente rápido de entrenar y predecir comparado con Redes Neuronales.

Escalabilidad: Funciona bien incluso con vocabularios de miles de palabras (alta dimensionalidad).

400

Cual es el kernel gaussiano mas comun?

Kernel RBF (Radial Basis Function)

500

¿Qué es el Part-of-Speech (POS) tag?

Consiste en asignar a cada palabra (o token) de un texto su categoría gramatical correspondiente.

500

¿Qué es una Expresión Regular (o Regex)?

Es una secuencia de caracteres que conforma un patrón lógico de búsqueda, utilizado universalmente en programación para encontrar, validar, extraer o reemplazar subcadenas específicas dentro de un texto inestructurado.

500

Si asumimos que las probabildades de las palabras son independientes, como se calcula P(d|c)

P(d|c) ≈ ∏_(i=1)^n P(w_i|c)

500

Es la función de pérdida (o costo) estándar que optimiza la Regresión Logística.

La Entropía Cruzada (Cross-Entropy / Log-Loss)

500

¿Qué es el Truco del Kernel (Kernel Trick)?

Es la técnica matemática que permite a las SVM proyectar datos a un espacio de dimensiones infinitas para encontrar separaciones no lineales.