Conceptos
Roles y Componentes de un RMS
Requerimientos de un RMS
LSF
SLURM
100

Herramienta mediante la cual se logra optimizar el uso de los recursos de cómputo.

¿Qué es un RMS?

100

Componente de un RMS encargado de proveer información actualizada del estado de los recursos, la cual es tomada en cuenta para continuar con el proceso de despacho.

¿Qué es la Administración de recursos o Resource Management?

100

Implica la capacidad de funcionamiento en un ambiente en el cual el conjunto de computadoras puede estar formado por diversas arquitecturas y diferentes sistemas operativos

¿Qué es el soporte heterogéneo?

100

Soporte a trabajos interactivos, reconfiguración dinámica, capacidad de exportar el ambiente del usuario, contabilidad de recursos, tolerancia a fallas.

Funcionalidades de LSF

100

Estado de partición que acepta e inicia trabajos.

¿Qué es el estado UP?

200

Nodo que ejecuta los trabajos de los usuario, dedicado a procesamiento numérico de datos en un cluster.

¿Qué es un nodo de cómputo?

200

Rol de un RMS orientado a gestionar trabajos y asignar recursos dentro del cluster

¿Qué hace el Administrador de Recursos a Resource Manager?

200

Se refiere a la distribución de la carga de trabajo, para que cada nodo realice una cantidad equivalente de trabajo. Involucra monitoreo y administración de la carga, análisis del estado y manejo de la carga del sistema.

¿Qué es el balance de carga?

200

Unidad de trabajo o tarea sometida al sistema LSF mediante la instrucción bsub. Puede ser un sistema complejo, simulación de escenarios o cualquier cálculo que requiera poder de cómputo.

¿Qué es un job?

200

Contolador central que se ejecuta en el nodo maestro, encargado de monitorear el estado de los recursos administrar las colas de trabajo y asignar recursos.

¿Qué es el slurmctld?

300

Nodo principal de un cluster, dedicado a proveer la configuración a todos los nodos.

¿Qué es el nodo maestro?

300

Rol de un RMS orientado a manejar las colas de trabajo, soportar algoritmos de despacho y manejar los límite de recursos (por cola, usuario, grupo, etc.)

¿Qué hace el Planificador de trabajos o Job Scheduler?

300

Recolectar información sobre cada trabajo: usuario, grupo, nombre del trabajo, hora y fecha  de inicio y de término de la ejecución, recursos solicitados, asignados o utilizados, estado del trabajo, etc.

¿Qué es la contabilidad de recursos?

300

PEND, RUN, DONE, PSUSP, USUSP, SSUSP, EXIT

¿Cuáles son los estados de un job en LSF?

300

Conjunto de nodos agrupados lógicamente para gestionar trabajos o asignaciones de recursos durante un periodo de tiempo específico. Puede considerarse como una cola de trabajo que admite múltiples configuraciones.

¿Qué es una partición?

400

Diseña e  implementa la configuración del RMS para establecer los requerimientos de las políticas de uso y asignación de recursos.

¿Qué hace el administrador del RMS?

400

Componente de un RMS responsable de asignar a los trabajos, recursos de cómputo que satisfagan las necesidades de los usuarios aplicando las reglas y políticas previamente definidas.

¿Qué es el Scheduling o Planificación y Calendarización?

400

Soportar que el usuario determine que el despacho de sus trabajos se haga en función del estado o código de salida de otros trabajos.

¿Qué es la dependencia de trabajos?

400

Política de planificación de trabajos que controla el orden en el que se asignan los recursos mediante el cálculo de prioridad dinámica.

¿Qué es fairshare?

400

Estado de un nodo que tiene uno o más trabajos en ejecución  pero no está disponible para recibir nuevos trabajos.

¿Qué es el estado DRAIN de un nodo?

500

Configuración definida para organizar la carga de trabajo de acuerdo con características similares: grupos de usuarios, prioridades, tiempo de CPU, cantidad de recursos, etc.

¿Qué es una cola?

500

Componente de un RMS en el que se basa la planificación y calendarización que realiza el scheduler, mediante la definición de entidades lógicas que permiten organizar trabajos de acuerdo a características similares. 

¿Qué es el Queuing o manejo de colas?

500

Todos los archivos de configuración y bitácoras del sistema deben mantenerse en un solo sitio. Debe soportar la realización de cambios en la configuración con un impacto mínimo en los trabajos que se encuentren en ejecución. 

¿Qué es la administración centralizada y reconfiguración dinámica?

500

Estado de una cola que no acepta trabajos pero inicia los que ya tienen encolados.

¿Qué es el estado Closed:Active?

500

Herramienta que permite mostrar y modificar el estado de las particiones o nodos de un cluster.

scontrol