Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción a AIOps Predictiva
- Visión general del análisis predictivo en operaciones de TI.
- Fuentes de datos para la predicción (registros, métricas, eventos).
- Conceptos clave en el pronóstico de series temporales y patrones anómalos.
Diseñando Modelos de Predicción de Incidentes
- Etiquetado de incidentes históricos y comportamiento del sistema.
- Selección y entrenamiento de modelos (por ejemplo, LSTM, Random Forest, AutoML).
- Evaluación del rendimiento del modelo y manejo de falsos positivos.
Recolección de Datos e Ingeniería de Características
- Ingesta y alineación de datos de registros y métricas para la entrada del modelo.
- Extracción de características de datos estructurados y no estructurados.
- Manejo de ruido y datos faltantes en pipelines operativos.
Automatización del Análisis de Causa Raíz (RCA)
- Correlación basada en grafos de servicios e infraestructura.
- Uso de ML para inferir posibles causas raíz a partir de cadenas de eventos.
- Visualización de RCA con tableros conscientes de la topología.
Remediación y Automatización de Flujos de Trabajo
- Integración con plataformas de automatización (por ejemplo, Ansible, Rundeck).
- Desencadenamiento de rollbacks, reinicios o redirección de tráfico.
- Auditoría y documentación de intervenciones automatizadas.
Escalado de Pipelines Inteligentes AIOps
- MLOps para la observabilidad: reentrenamiento y versionado de modelos.
- Ejecución de predicciones en tiempo real a través de nodos distribuidos.
- Mejores prácticas para implementar AIOps en entornos de producción.
Estudios de Caso y Aplicaciones Prácticas
- Análisis de datos reales de incidentes utilizando modelos AIOps predictivos.
- Implementación de pipelines de RCA con datos sintéticos y de producción.
- Revisión de casos de uso en la industria: interrupciones en la nube, inestabilidad de microservicios, degradaciones de red.
Resumen y Próximos Pasos
Requerimientos
- Experiencia con sistemas de monitoreo como Prometheus o ELK
- Conocimientos prácticos de Python y aprendizaje automático básico.
- Familiaridad con flujos de trabajo de gestión de incidentes.
Audiencia
- Ingenieros senior de confiabilidad del sitio (SREs)
- Arquitectos de automatización de TI
- Líderes de plataformas DevOps y observabilidad
14 Horas