Cuando un sistema está en funcionamiento, necesita operación continua: monitoreo, revisión de alertas, respaldos, tareas periódicas, mantenimiento de configuración, análisis de errores y respuesta ante incidentes. La documentación de operación permite realizar estas actividades de forma ordenada y repetible.
Este tipo de documentación suele consultarse en momentos críticos. Si un servicio falla, si una alerta se dispara o si se necesita restaurar datos, el equipo no debería depender de memoria individual. Necesita instrucciones claras, actualizadas y verificables.
En este tema veremos cómo documentar monitoreo, alertas, respaldos, restauración, tareas frecuentes, runbooks, escalamiento y revisión operativa.
La documentación de operación describe cómo mantener un sistema funcionando correctamente después del despliegue. Incluye procedimientos, verificaciones, tareas rutinarias, respuesta ante fallas y criterios de escalamiento.
Su audiencia principal suele ser operación, infraestructura, soporte técnico, administradores y equipos de desarrollo que participan en mantenimiento. El foco está en la disponibilidad, estabilidad, recuperación y observabilidad del sistema.
La imagen muestra los elementos principales de la documentación de operación: monitoreo, métricas, registros, alertas, respaldos, restauración, tareas frecuentes, runbooks, escalamiento e incidentes.
El monitoreo permite observar el estado del sistema. Puede incluir disponibilidad, tiempos de respuesta, uso de CPU, memoria, espacio en disco, errores, tráfico, colas, base de datos, servicios externos y procesos programados.
La documentación debe indicar qué se monitorea, dónde consultar la información, qué valores son normales y qué valores indican riesgo. Sin esta referencia, una métrica puede ser visible pero difícil de interpretar.
No todas las métricas tienen la misma importancia. Conviene documentar las que ayudan a detectar problemas reales: disponibilidad del servicio, latencia, tasa de errores, saturación de recursos, tiempos de consultas, tamaño de colas y fallas de integraciones.
Para cada métrica importante puede indicarse descripción, fuente, frecuencia de actualización, umbrales esperados y acción recomendada cuando supera un límite.
Los registros permiten investigar comportamientos, errores e incidentes. La documentación debe indicar dónde se consultan, qué formato tienen, qué niveles existen, cómo buscar por identificador y qué datos no deben registrarse por seguridad.
También conviene documentar correlación entre servicios. Si una operación atraviesa varios componentes, un identificador de trazabilidad permite seguir el recorrido completo.
Las alertas notifican condiciones que requieren atención. Deben documentarse con claridad: qué las dispara, qué significa, qué impacto puede tener, qué revisar y cuándo escalar.
Una alerta mal documentada genera incertidumbre. Una persona puede recibirla y no saber si debe actuar de inmediato, esperar, reiniciar un servicio o contactar a otro equipo.
Los respaldos protegen información ante fallas, errores humanos, corrupción de datos o incidentes. La documentación debe indicar qué se respalda, con qué frecuencia, dónde se almacena, cuánto tiempo se conserva y quién es responsable.
También debe indicar cómo se verifica que los respaldos son válidos. Un respaldo que nunca se prueba puede fallar cuando se necesita restaurar.
La restauración describe cómo recuperar datos o servicios a partir de respaldos. Debe documentarse paso a paso, incluyendo condiciones previas, riesgos, permisos, tiempo estimado, validación posterior y comunicación necesaria.
Restaurar datos puede tener efectos importantes. Por eso, la guía debe indicar si la restauración afecta información reciente, si requiere detener servicios o si debe realizarse en un ambiente temporal antes de producción.
Las tareas frecuentes son actividades operativas que se repiten: revisar procesos programados, rotar registros, renovar certificados, limpiar archivos temporales, validar respaldos, actualizar configuraciones o reiniciar servicios controladamente.
Documentarlas evita que dependan de una sola persona. Para cada tarea conviene indicar frecuencia, responsable, pasos, verificación y riesgos.
Un runbook es una guía operativa para responder a una situación específica. Puede describir qué hacer si una API no responde, si una cola crece demasiado, si una base de datos se queda sin espacio o si falla una integración externa.
Un buen runbook incluye síntomas, impacto, pasos de diagnóstico, acciones posibles, criterios de escalamiento y verificación de recuperación. Debe estar escrito para usarse bajo presión, por lo que debe ser directo y claro.
No todos los problemas pueden resolverse en el primer nivel de operación o soporte. La documentación debe indicar cuándo escalar, a quién, con qué información y por qué canal.
También conviene indicar severidades. Un error menor en una pantalla interna no requiere la misma respuesta que una caída total del sistema o pérdida de datos.
| Alerta | Significado | Acción inicial | Escalar si |
|---|---|---|---|
| API sin respuesta | El servicio principal no responde al endpoint de salud. | Revisar estado del servicio y registros recientes. | No se recupera en cinco minutos. |
| Errores 5xx elevados | Aumentó la tasa de errores internos. | Consultar registros y cambios recientes. | Afecta operaciones críticas. |
| Cola acumulada | Los mensajes no se procesan al ritmo esperado. | Verificar consumidores y conexión con servicios externos. | La cola sigue creciendo. |
Después de un incidente, conviene registrar qué ocurrió, impacto, causa, línea de tiempo, acciones tomadas, recuperación y medidas preventivas. Esta información ayuda a aprender y mejorar la operación.
La documentación de incidentes no debe enfocarse en culpas personales. Debe ayudar a comprender el sistema y mejorar procesos, alertas, pruebas, despliegues o documentación.
La documentación de operación debe revisarse periódicamente. Los sistemas cambian, las métricas evolucionan, aparecen nuevas alertas y algunos procedimientos dejan de ser válidos.
Una revisión puede comprobar que los enlaces funcionan, los responsables siguen vigentes, los pasos son correctos, las alertas tienen acción asociada y los respaldos fueron probados.
Al documentar operación suelen aparecer estos errores:
La documentación de operación transforma conocimiento operativo en procedimientos claros y repetibles. Permite monitorear, responder, recuperar y mejorar el sistema con menor dependencia de memoria individual.
En el próximo tema estudiaremos guías de solución de problemas e incidentes comunes.