Herramienta mediante la cual se logra optimizar el uso de los recursos de cómputo.
¿Qué es un RMS?
Componente de un RMS encargado de proveer información actualizada del estado de los recursos, la cual es tomada en cuenta para continuar con el proceso de despacho.
¿Qué es la Administración de recursos o Resource Management?
Implica la capacidad de funcionamiento en un ambiente en el cual el conjunto de computadoras puede estar formado por diversas arquitecturas y diferentes sistemas operativos
¿Qué es el soporte heterogéneo?
Soporte a trabajos interactivos, reconfiguración dinámica, capacidad de exportar el ambiente del usuario, contabilidad de recursos, tolerancia a fallas.
Funcionalidades de LSF
Estado de partición que acepta e inicia trabajos.
¿Qué es el estado UP?
Nodo que ejecuta los trabajos de los usuario, dedicado a procesamiento numérico de datos en un cluster.
¿Qué es un nodo de cómputo?
Rol de un RMS orientado a gestionar trabajos y asignar recursos dentro del cluster
¿Qué hace el Administrador de Recursos a Resource Manager?
Se refiere a la distribución de la carga de trabajo, para que cada nodo realice una cantidad equivalente de trabajo. Involucra monitoreo y administración de la carga, análisis del estado y manejo de la carga del sistema.
¿Qué es el balance de carga?
Unidad de trabajo o tarea sometida al sistema LSF mediante la instrucción bsub. Puede ser un sistema complejo, simulación de escenarios o cualquier cálculo que requiera poder de cómputo.
¿Qué es un job?
Contolador central que se ejecuta en el nodo maestro, encargado de monitorear el estado de los recursos administrar las colas de trabajo y asignar recursos.
¿Qué es el slurmctld?
Nodo principal de un cluster, dedicado a proveer la configuración a todos los nodos.
¿Qué es el nodo maestro?
Rol de un RMS orientado a manejar las colas de trabajo, soportar algoritmos de despacho y manejar los límite de recursos (por cola, usuario, grupo, etc.)
¿Qué hace el Planificador de trabajos o Job Scheduler?
Recolectar información sobre cada trabajo: usuario, grupo, nombre del trabajo, hora y fecha de inicio y de término de la ejecución, recursos solicitados, asignados o utilizados, estado del trabajo, etc.
¿Qué es la contabilidad de recursos?
PEND, RUN, DONE, PSUSP, USUSP, SSUSP, EXIT
¿Cuáles son los estados de un job en LSF?
Conjunto de nodos agrupados lógicamente para gestionar trabajos o asignaciones de recursos durante un periodo de tiempo específico. Puede considerarse como una cola de trabajo que admite múltiples configuraciones.
¿Qué es una partición?
Diseña e implementa la configuración del RMS para establecer los requerimientos de las políticas de uso y asignación de recursos.
¿Qué hace el administrador del RMS?
Componente de un RMS responsable de asignar a los trabajos, recursos de cómputo que satisfagan las necesidades de los usuarios aplicando las reglas y políticas previamente definidas.
¿Qué es el Scheduling o Planificación y Calendarización?
Soportar que el usuario determine que el despacho de sus trabajos se haga en función del estado o código de salida de otros trabajos.
¿Qué es la dependencia de trabajos?
Política de planificación de trabajos que controla el orden en el que se asignan los recursos mediante el cálculo de prioridad dinámica.
¿Qué es fairshare?
Estado de un nodo que tiene uno o más trabajos en ejecución pero no está disponible para recibir nuevos trabajos.
¿Qué es el estado DRAIN de un nodo?
Configuración definida para organizar la carga de trabajo de acuerdo con características similares: grupos de usuarios, prioridades, tiempo de CPU, cantidad de recursos, etc.
¿Qué es una cola?
Componente de un RMS en el que se basa la planificación y calendarización que realiza el scheduler, mediante la definición de entidades lógicas que permiten organizar trabajos de acuerdo a características similares.
¿Qué es el Queuing o manejo de colas?
Todos los archivos de configuración y bitácoras del sistema deben mantenerse en un solo sitio. Debe soportar la realización de cambios en la configuración con un impacto mínimo en los trabajos que se encuentren en ejecución.
¿Qué es la administración centralizada y reconfiguración dinámica?
Estado de una cola que no acepta trabajos pero inicia los que ya tienen encolados.
¿Qué es el estado Closed:Active?
Herramienta que permite mostrar y modificar el estado de las particiones o nodos de un cluster.
scontrol