Contacta con nosotros

Temario del curso

Fundamentos de la clasificación de audio

  • Tipos de eventos sonoros: ambientales, mecánicos y generados por el ser humano.
  • Resumen de casos de uso: vigilancia, monitorización y automatización.
  • Diferencias entre clasificación, detección y segmentación de audio.

Datos de audio y extracción de características

  • Tipos de archivos de audio y formatos.
  • Consideraciones sobre la tasa de muestreo, el enmarcado (windowing) y el tamaño de cada cuadro (frame).
  • Extracción de MFCC, características cromáticas y espectrogramas mel.

Preparación y anotación de datos

  • Bases de datos UrbanSound8K, ESC-50 y conjuntos de datos personalizados.
  • Anotación de eventos sonoros y límites temporales.
  • Equilibrado de conjuntos de datos y aumento de datos de audio (data augmentation).

Construcción de modelos de clasificación de audio

  • Uso de redes neuronales convolucionales (CNN) para audio.
  • Entrada del modelo: forma de onda sin procesar frente a características extraídas.
  • Funciones de pérdida, métricas de evaluación y sobreajuste (overfitting).

Detección de eventos y localización temporal

  • Estrategias de detección basadas en cuadros y segmentos.
  • Postprocesamiento de detecciones mediante umbrales y suavizado.
  • Visualización de las predicciones en las líneas de tiempo del audio.

Temas avanzados y procesamiento en tiempo real

  • Aprendizaje por transferencia para escenarios con pocos datos.
  • Despliegue de modelos con TensorFlow Lite o ONNX.
  • Procesamiento de audio en streaming y consideraciones sobre la latencia.

Desarrollo del proyecto y escenarios de aplicación

  • Diseño de un pipeline completo: desde la ingesta hasta la clasificación.
  • Desarrollo de un prototipo para vigilancia, control de calidad o monitorización.
  • Registro (logging), alertas e integración con paneles de control o APIs.

Resumen y próximos pasos

Requerimientos

  • Comprensión de los conceptos de aprendizaje automático y entrenamiento de modelos.
  • Experiencia con programación en Python y preprocesamiento de datos.
  • Conocimiento de los fundamentos del audio digital.

Público objetivo

  • Científicos de datos.
  • Ingenieros de aprendizaje automático.
  • Investigadores y desarrolladores en procesamiento de señales de audio.
 21 Horas

Número de participantes


Precio por participante

Próximos cursos

Categorías Relacionadas