Temario del curso

Introducción a los Modelos Multimodales Mistral

  • Descripción general de Mistral Medium y sus capacidades multimodales
  • Modelos OCR/documento y casos de uso
  • Integración con ecosistemas de código abierto

Pipelines de OCR y Visión

  • Fundamentos de OCR con modelos Mistral
  • Preprocesamiento de imágenes y documentos escaneados
  • Extracción de texto estructurado de imágenes

Comprensión Documental

  • Diseño de pipelines NLP para documentos
  • Reconocimiento de entidades, resumen y clasificación
  • Vinculación cruzada de datos de texto y visión

Aplicaciones de Búsqueda y Conocimiento

  • Sistemas de búsqueda de visión-texto
  • Construcción de búsqueda semántica con salidas OCR
  • Repositorios de documentos empresariales

Aplicaciones Asistivas e Interactivas

  • Diseño de UI para asistentes multimodales
  • Aplicaciones de accesibilidad (por ejemplo, visión-a-texto)
  • Herramientas de productividad en el mundo real

Rendimiento y Optimización

  • Escala de pipelines multimodales
  • Ajuste del rendimiento de inferencia
  • Evaluación de compromisos entre precisión y eficiencia

Estudios de Caso y Direcciones Futuras

  • Aplicaciones industriales de la IA multimodal
  • Tendencias de investigación en OCR y documental AI
  • Consideraciones de IA responsable en tareas de visión-texto

Resumen y Pasos Siguientes

Requerimientos

  • Un conocimiento de los conceptos de procesamiento del lenguaje natural
  • Experiencia con Python y marcos de ML
  • Familiaridad con los fundamentos de la visión por computadora

Audiencia

  • Equipos de productos
  • Investigadores de ML
  • Ingenieros de ML aplicados
 14 Horas

Número de participantes


Precio por Participante​

Próximos cursos

Categorías Relacionadas