Monitorización de Sistemas: Guía y Plataformas Clave

Imagen de muestra Grafana

Monitorizar sistemas es un trabajo fundamental que se utiliza de manera permanente en la industria 4.0. Es un trabajo esencial para controlar todos los sistemas informáticos de una empresa.

¿Qué es monitorizar sistemas?

La monitorización del sistema informático consiste en la instalación de una serie de sensores en los diferentes elementos hardware y software de forma que, 24h al día y 7 días a la semana, estos sensores registran la situación en que están cada uno de los aspectos que controlamos.

Pasos para realizar una buena monitorización de sistemas

A continuración detallaremos los pasos a seguir para realizar una correcta monitorización de sistemas. Siempre recordando que cada caso y proyecto son únicos.

1.- Realizar un análisis exhaustivo del sistema.

Durante el análisis creamos un inventario que deberá estar clasificado por:

  • Tipo de componente (servidor, router, switch, firewall, etc)
  • Elemento dentro del componente (discos, RAM, aplicación, servidor, etc)
  • Marca del componente (Sparc, Intel, HP-UX, Windows, IIS, Apache, Oracle, etc)
  • Ip de la máquina.
  • Prioridad para la monitorización, pensando cómo de importante es monitorizarlo del 1 al 10.

2.- Identificar los diferentes responsables de los principales ámbitos de una instalación:

  • Sistemas
  • Redes
  • Servidores
  • Seguridad
  • Aplicaciones

3.- Definir las principales alarmas para cada tipo de componente, elemento y marca.

Esto será muy importante para desplegar las configuraciones de monitorización por tipo de elementos a monitorizar. Un ejemplo de alarmas, podrían ser procesadores saturados, un ancho de banda limitado, los discos llenos, etc.

4.- Definir los umbrales correspondientes y los niveles necesarios para lanzar una o varias alarmas.

Puedes crear alertas personalizadas, por ejemplo:

  • Una alarma que se lanzará en el caso de que los discos y/o particiones alcancen un porcentaje determinado de disco duro ocupado.
  • También podría lanzarse otra alarma, en caso de que la memoria RAM llegue al umbral de 80% de ocupación.

5.- Definir los canales de comunicación.

Estos pueden ser: SMS, mail, Whatsapp, push, etc. También implica definir cómo será el proceso de atención de las alarmas, es decir, es necesario establecer el protocolo de comunicación y actuación.

6.- Seleccionar la herramienta de monitorización que mejor se adapte a nuestros requerimientos.

En el mercado hay diferentes herramientas, tanto gratuitas como de pago y hoy en día es fácil probarlas sin muchas complicaciones mediante docker o appliances proporcionadas por los mismos fabricantes.

Algunos ejemplos pueden ser:

  • PandoraFMS
  • Zabbix
  • Telegraf / Influxdb
  • Nagios
  • Centreon
  • ElasticSearch + Beats

7.- Definir un plan de instalación del nuevo sistema de monitorización.

Dependiendo de cómo de grande sea nuestra infraestructura y la cantidad de endpoints o dispositivos a monitorizar, habrá que elegir unos u otros sistemas. Habitualmente, en entornos windows la instalación se llevará a cabo por políticas GPO, tan solo instalando un agente que no genera mucho impacto en los sistemas. En el mundo unix exactamente igual, agentes muy livianos instalados en las máquinas.

Donde no podemos instalar agentes, routers, ILO’s, Cabinas de discos… etc siempre podemos buscar la forma de obtener el dato.

Para servicios tales como O365, Google Apps, Hubspot, WordPress… idem, se puede utilizar la API, scripts y demás con el fin de obtener el tan ansiado dato.

Debemos pensar que a la hora de monitorizar, el entorno NUNCA es homogéneo. Diferentes servicios requieren de diferentes técnicas para obtener las métricas y cada uno de ellos requerirá de un estudio.

8.- Instalar y configurar el paquete de software de monitorización.

Antes de acometer la tarea de instalación de los agentes, debe estar claro como va a ser mi infraestructura de monitorización, cual va a ser el nombre, ip, rutas etc de cada nodo. De forma que solo tengamos que instalar y configurar el agente una vez.

No todas las plataformas permiten cambios de configuración una vez instalado el agente, por ejemplo Zabbix NO lo permite, pero PandoraFMS SI en la versión licenciada. Influx p.ej. lo permite en las versiones 2.X pero no en las 1.X

9.- Definir los protocolos de actuación ante cada una de las alarma que pueda detectar el sistema de monitorización.

¡Enhorabuena! Llegados a este punto ya tenemos todo monitorizado en nuestra empresa. Todas las métricas a punto y unas flamantes gráficas llenas de colores nos muestran esos datos ordenados, pero ¿qué hacer si algo va mal? ¿Qué pasa si una CPU aparece disparada en uso? ¿La temperatura de una Sala ha subido de más?

Cuando se perfila la plataforma de monitorización, es tan importante saber qué es lo que se quiere medir como que hacer cuando esas medidas no son correctas. Esas actuaciones y esas acciones a tomar, deben estar claras desde el primer momento:

- SI (Temperatura Sala Servidores > 30)
HACER:
SI (Horario de mañana)
HACER:
enviar correo a supervisor
SINO
HACER:
enviar correo a supervisor2
activar ventiladores
Esperar respuesta de supervisor
- SI (No respuesta de supervisor)
HACER:
Apagar maquinas virtuales 1,2 y 3
Apagar Servidor 1 y 2

Todas estas acciones deben estar documentadas y definidas.

Plataformas habituales para la monitorización de sistemas

Dependiendo del proyecto y parámetros a recoger utilizaremos unas u otras. En el momento de la planificación del proyecto, se define quien o quienes serán los responsables de recibir las alertas para poder tomar medidas.

PandoraFMS

Pandora FMS es un software de código abierto que sirve para monitorear (monitorizar) y medir todo tipo de elementos. Monitoriza sistemas, aplicaciones o dispositivos de red. Permite conocer el estado de cada elemento de un sistema a lo largo del tiempo ya que dispone de histórico de datos y eventos. Pandora FMS está orientado a grandes entornos, y permite gestionar con y sin agentes, varios miles de sistemas, por lo que se puede emplear en grandes clusters, centros de datos y redes de todo tipo.

Pandora FMS puede detectar si una interfaz de red se ha caído, un ataque de «defacement» en una web, una pérdida de memoria en algún servidor de aplicaciones, o el movimiento de un valor del NASDAQ. Pandora FMS puede enviar SMS si un sistema falla o cuando las acciones de Google bajan de 500 dólares.

Pandora FMS puede recoger información de cualquier sistema operativo, con agentes, específicos para cada plataforma, que recolectan datos y los envían al servidor. Hay agentes específicos para GNU/Linux, AIX, Solaris, HP-UX, BSD/IPSO, Windows 2000, XP, 7, 2003, 2008, 7, 8 y 10 y MAC OSX.

Ejemplos de paneles

Zabbix

Zabbix es un Sistema de Monitorización de Redes creado por Alexei Vladishev. Está diseñado para monitorizar y registrar el estado de varios servicios de red, Servidores, y hardware de red. Usa MySQL, PostgreSQL, SQLite, Oracle o IBM DB2 como base de datos.

Telegraf / Influxdb / Grafana

Telegraf es un agente muy liviano que se encarga de recolectar, procesar y enviar las métricas de una máquina que queremos monitorizar a nuestra base de datos, Influxdb.

InfluxDB es la base de datos en la que almacenaremos las métricas enviadas desde el agente. Esta base de datos está diseñada para soportar altas cargas de escritura y lectura.

Grafana es una plataforma de análisis de datos que permite visualizarlos utilizando consultas. Es decir, podemos crear paneles que muestren sólo X datos

 

¿Qué te ha parecido el artículo?