Fundamentos de Apache Iceberg
Apache Iceberg es un formato de tabla de código abierto para conjuntos de datos a gran escala que aporta la confiabilidad y simplicidad de las tablas SQL al big data. Fue diseñado para resolver los desafíos de gestión del big data en lagos de datos, que a menudo implican el manejo de esquemas complejos, archivos grandes y fuentes de datos diversas.
Esta formación dirigida por un instructor (en línea o presencial) está orientada a profesionales de datos de nivel principiante que desean adquirir los conocimientos y habilidades necesarios para utilizar eficazmente Apache Iceberg en la gestión de conjuntos de datos a gran escala, garantizar la integridad de los datos y optimizar los flujos de trabajo de procesamiento de datos.
Al final de esta formación, los participantes serán capaces de:
- Adquirir una comprensión exhaustiva de la arquitectura, características y beneficios de Apache Iceberg.
- Aprender sobre formatos de tabla, particionamiento, evolución de esquemas y capacidades de viaje en el tiempo.
- Instalar y configurar Apache Iceberg en diferentes entornos.
- Crear, gestionar y manipular tablas de Iceberg.
- Comprender el proceso de migración de datos desde otros formatos de tabla a Iceberg.
Formato del Curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para coordinar.
Temario del curso
Introducción a Apache Iceberg
- Visión general de Apache Iceberg
- Importancia y casos de uso en la arquitectura de datos moderna
- Características principales y beneficios
Conceptos básicos
- Formato y arquitectura de las tablas Iceberg
- Comparación con otros formatos de tabla
- Particionamiento y evolución del esquema
- Viaje en el tiempo y versionado de datos
Configuración de Apache Iceberg
- Instalación y configuración
- Integración de Iceberg con diversos motores de procesamiento de datos
- Configuración de un entorno Iceberg en una máquina local
Operaciones básicas
- Crear y administrar tablas Iceberg
- Escribir y leer datos en las tablas Iceberg
- Operaciones CRUD básicas
Migración de datos e integración
- Migrar datos desde Hive y otros sistemas a Iceberg
- Integración con herramientas de BI
- Migrar un conjunto de datos de muestra a Iceberg
Optimización del rendimiento
- Técnicas de optimización del rendimiento
- Optimizar consultas y escaneos de datos
- Optimización del rendimiento en Iceberg
Visión general de características avanzadas
- Evolución de particiones y particionamiento oculto
- Evolución de tablas y cambios de esquema
- Viaje en el tiempo y funciones de reversión
- Implementación de características avanzadas en Iceberg
Resumen y próximos pasos
Requerimientos
- Familiaridad con conceptos como tablas, esquemas, particiones y ingestión de datos
- Conocimientos básicos de SQL
Audiencia
- Ingenieros de datos
- Arquitectos de datos
- Analistas de datos
- Desarrolladores de software
Los cursos públicos requieren más de 5 participantes.
Fundamentos de Apache Iceberg - Reserva
Fundamentos de Apache Iceberg - Consulta
Fundamentos de Apache Iceberg - Solicitud de consultoría
Testimonios (1)
Ejercicios prácticos. La clase debería haber durado 5 días, pero los 3 días fueron útiles para aclarar muchas de las preguntas que tenía al trabajar con NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Traducción Automática
Próximos cursos
Cursos Relacionados
Avanzado de Apache Iceberg
21 HorasEste curso de formación dirigido por un instructor en Ecuador (en línea o en las instalaciones del cliente) está destinado a profesionales de datos de nivel avanzado que desean optimizar los flujos de trabajo de procesamiento de datos, garantizar la integridad de los datos y implementar soluciones robustas de data lakehouse que puedan manejar las complejidades de las aplicaciones de big data modernas.
Al final de este curso, los participantes serán capaces de:
- Obtener una comprensión profunda de la arquitectura de Iceberg, incluyendo el manejo de metadatos y la distribución de archivos.
- Configurar Iceberg para un rendimiento óptimo en diversos entornos e integrarlo con múltiples motores de procesamiento de datos.
- Gestionar tablas de Iceberg a gran escala, realizar cambios de esquema complejos y manejar la evolución de particiones.
- Dominar técnicas para optimizar el rendimiento de las consultas y la eficiencia del escaneo de datos en grandes conjuntos de datos.
- Implementar mecanismos para garantizar la consistencia de los datos, gestionar garantías transaccionales y manejar fallos en entornos distribuidos.
Análisis de Big Data con Google Colab y Apache Spark
14 HorasEste entrenamiento en vivo dirigido por un instructor (en línea o presencial) está destinado a científicos de datos y ingenieros de nivel intermedio que desean utilizar Google Colab y Apache Spark para el procesamiento y análisis de grandes volúmenes de datos.
Al finalizar este entrenamiento, los participantes podrán:
- Configurar un entorno de gran volumen de datos utilizando Google Colab y Spark.
- Procesar y analizar conjuntos de datos grandes de manera eficiente con Apache Spark.
- Visualizar grandes volúmenes de datos en un entorno colaborativo.
- Integrar Apache Spark con herramientas basadas en la nube.
Inteligencia de Negocios de Big Data para Agencias del Gobierno
35 HorasLos avances en las tecnologías y la creciente cantidad de información están transformando la forma en que los negocios se llevan a cabo en muchas industrias, incluyendo el gobierno. Los índices de generación de gobierno y de archivos digitales están aumentando debido al rápido crecimiento de dispositivos y aplicaciones móviles, sensores y dispositivos inteligentes, soluciones de cloud computing y portales orientados a los ciudadanos. A medida que la información digital se expande y se vuelve más compleja, la gestión de la información, el procesamiento, el almacenamiento, la seguridad y la disposición también se vuelven más complejos. Las nuevas herramientas de captura, búsqueda, descubrimiento y análisis están ayudando a las organizaciones a obtener información sobre sus datos no estructurados. El mercado gubernamental está en un punto de inflexión, al darse cuenta de que la información es un activo estratégico y el gobierno necesita proteger, aprovechar y analizar información estructurada y no estructurada para servir mejor y cumplir con los requisitos de la misión. A medida que los líderes del gobierno se esfuerzan por evolucionar las organizaciones impulsadas por datos para cumplir con éxito la misión, están sentando las bases para correlacionar dependencias a través de eventos, personas, procesos e información.
Las soluciones gubernamentales de alto valor se crearán a partir de un mashup de las tecnologías más perjudiciales:
- Dispositivos y aplicaciones móviles
- Servicios en la nube
- Tecnologías de redes sociales y redes
- Big Data y análisis
IDC predice que para el año 2020, la industria de TI alcanzará los $ 5 billones, aproximadamente $ 1.7 trillones más que hoy, y que el 80% del crecimiento de la industria será impulsado por estas tecnologías de la 3ª Plataforma. A largo plazo, estas tecnologías serán herramientas clave para hacer frente a la complejidad del aumento de la información digital. Big Data es una de las soluciones inteligentes de la industria y permite al gobierno tomar mejores decisiones tomando medidas basadas en patrones revelados al analizar grandes volúmenes de datos relacionados y no relacionados, estructurados y no estructurados.
Pero el logro de estas hazañas lleva mucho más que la simple acumulación de cantidades masivas de datos. "Haciendo sentido de estos volúmenes de Big Datarequires herramientas de vanguardia y" tecnologías que pueden analizar y extraer conocimiento útil de las corrientes de información vasta y diversa ", Tom Kalil y Fen Zhao de la Oficina de la Casa Blanca de Política Científica y Tecnológica escribió en un post en el blog de OSTP.
La Casa Blanca dio un paso hacia ayudar a las agencias a encontrar estas tecnologías cuando estableció la Iniciativa Nacional de Investigación y Desarrollo de Grandes Datos en 2012. La iniciativa incluyó más de $ 200 millones para aprovechar al máximo la explosión de Big Data y las herramientas necesarias para analizarla .
Los desafíos que plantea Big Data son casi tan desalentadores como su promesa es alentadora. El almacenamiento eficiente de los datos es uno de estos desafíos. Como siempre, los presupuestos son ajustados, por lo que las agencias deben minimizar el precio por megabyte de almacenamiento y mantener los datos de fácil acceso para que los usuarios puedan obtenerlo cuando lo deseen y cómo lo necesitan. Copia de seguridad de grandes cantidades de datos aumenta el reto.
Otro gran desafío es analizar los datos de manera eficaz. Muchas agencias emplean herramientas comerciales que les permiten tamizar las montañas de datos, detectando tendencias que pueden ayudarles a operar de manera más eficiente. (Un estudio reciente de MeriTalk encontró que los ejecutivos federales de TI piensan que Big Data podría ayudar a las agencias a ahorrar más de 500.000 millones de dólares mientras cumplen los objetivos de la misión).
Las herramientas de Big Data desarrolladas a medida también están permitiendo a las agencias abordar la necesidad de analizar sus datos. Por ejemplo, el Grupo de Análisis de Datos Computacionales del Laboratorio Nacional de Oak Ridge ha puesto a disposición de otras agencias su sistema de análisis de datos Piranha. El sistema ha ayudado a los investigadores médicos a encontrar un vínculo que puede alertar a los médicos sobre los aneurismas de la aorta antes de que hagan huelga. También se utiliza para tareas más mundanas, tales como tamizar a través de currículos para conectar candidatos de trabajo con los gerentes de contratación.
Hadoop para administradores
21 HorasApache Hadoop es el marco de trabajo más popular para procesamiento Big Data en clusters de servidores. En este curso de tres (opcionalmente cuatro) días, los asistentes aprenderán sobre los beneficios comerciales y casos de uso para Hadoop y su ecosistema, cómo planificar la implementación y crecimiento del cluster, cómo instalar, mantener, monitorear, solucionar problemas y optimizar Hadoop. También practicarán el cargue masivo de datos en clusters, se familiarizarán con diversas distribuciones de Hadoop, y practicarán la instalación y administración de herramientas del ecosistema de Hadoop. El curso termina con una discusión sobre cómo asegurar el cluster mediante Kerberos.
“…Los materiales estaban muy bien preparados y cubrieron exhaustivamente. El Laboratorio fue muy útil y bien organizado”
— Andrew Nguyen, Ingeniero Principal de Integración DW, Microsoft Online Advertising
Audiencia
Administradores de Hadoop
Formato
Conferencias y laboratorios prácticos, aproximado equilibrio 60% conferencias, 40% laboratorio.
Apache NiFi para administradores
21 HorasApache NiFi (Hortonworks DataFlow) es una plataforma de procesamiento de eventos y logística de datos integrada en tiempo real que permite mover, rastrear y automatizar los datos entre los sistemas. Está escrito usando programación basada en flujo y proporciona una interfaz de usuario basada en web para administrar flujos de datos en tiempo real.
En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán a implementar y administrar Apache NiFi en un entorno de laboratorio en vivo.
Al final de esta capacitación, los participantes podrán:
- Instalar y configurar Apachi NiFi
- Fuente, transformar y gestionar datos de fuentes de datos dispersas y distribuidas, incluidas bases de datos y lagos de datos grandes.
- Automatice los flujos de datos
- Habilitar análisis de transmisión
- Aplicar varios enfoques para la ingestión de datos
- Transformar Big Data y en conocimientos empresariales
Audiencia
- Administradores del sistema
- Ingenieros de datos
- Desarrolladores
- DevOps
Formato del curso
- Conferencia de parte, discusión en parte, ejercicios y práctica práctica
Apache NiFi para desarrolladores
7 HorasEn esta capacitación en vivo dirigida por un instructor en Ecuador, los participantes aprenderán los fundamentos de la programación basada en flujo a medida que desarrollan una serie de extensiones, componentes y procesadores de demostración utilizando Apache NiFi.
Al final de esta formación, los participantes serán capaces de:
- Comprenda la arquitectura de NiFi y los conceptos de flujo de datos.
- Desarrolle extensiones utilizando NiFi y API de terceros.
- Desarrollar a medida su propio procesador Apache Nifi.
- Ingiera y procese datos en tiempo real de formatos de archivo y fuentes de datos dispares y poco comunes.
PySpark y Aprendizaje Automático
21 HorasEsta formación ofrece una introducción práctica a la creación de flujos de trabajo escalables de procesamiento de datos y aprendizaje automático utilizando PySpark. Los participantes aprenderán cómo funciona Apache Spark dentro de los ecosistemas modernos de Big Data y cómo procesar grandes conjuntos de datos de manera eficiente aplicando los principios de la computación distribuida.
Fundamentos de Apache Spark
21 HorasEste curso de formación dirigido por un instructor en Ecuador (en línea o presencial) está destinado a ingenieros que deseen configurar e implementar el sistema Apache Spark para procesar cantidades muy grandes de datos.
Al finalizar este curso, los participantes serán capaces de:
- Instalar y configurar Apache Spark.
- Procesar y analizar rápidamente conjuntos de datos muy grandes.
- Comprender la diferencia entre Apache Spark y Hadoop MapReduce y cuándo utilizar cada uno.
- Integrar Apache Spark con otras herramientas de aprendizaje automático.
Administración de Apache Spark
35 HorasEsta formación en directo dirigida por un instructor en Ecuador (en línea o in situ) está dirigida a administradores de sistemas de nivel principiante a intermedio que deseen implementar, mantener y optimizar clústeres de Spark.
Al final de esta capacitación, los participantes serán capaces de:
- Instale y configure Apache Spark en varios entornos.
- Administre los recursos del clúster y supervise las aplicaciones de Spark.
- Optimice el rendimiento de los clústeres de Spark.
- Implemente medidas de seguridad y garantice una alta disponibilidad.
- Depurar y solucionar problemas comunes de Spark.
Apache Spark en la Nube
21 HorasLa curva de aprendizaje de Apache Spark aumenta lentamente al principio, y requiere mucho esfuerzo para obtener los primeros resultados. Este curso tiene como objetivo superar la primera parte difícil. Después de completar este curso, los participantes entenderán los conceptos básicos de Apache Spark, diferenciarán claramente RDD de DataFrame, aprenderán las API de Python y Scala, comprenderán los ejecutores y tareas, etc. Además, siguiendo las mejores prácticas, este curso se centra fuertemente en la implementación en la nube, Databricks y AWS. Los estudiantes también entenderán las diferencias entre AWS EMR y AWS Glue, uno de los servicios más recientes de Spark de AWS.
AUDIENCIA:
Data Engineer, DevOps, Data Scientist
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Ecuador, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Python, Spark y Hadoop para Big Data
21 HorasEsta capacitación en vivo dirigida por un instructor en Ecuador (en línea o presencial) está dirigida a desarrolladores que desean usar e integrar Spark, Hadoop y Python para procesar, analizar y transformar conjuntos de datos grandes y complejos.
Al final de esta formación, los participantes serán capaces de:
- Configure el entorno necesario para empezar a procesar macrodatos con Spark, Hadoop y Python.
- Comprender las características, los componentes principales y la arquitectura de Spark y Hadoop.
- Aprenda a integrar Spark, Hadoop y Python para el procesamiento de big data.
- Explore las herramientas del ecosistema de Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka y Flume).
- Cree sistemas de recomendación de filtrado colaborativo similares a Netflix, YouTube, Amazon, Spotify y Google.
- Utilice Apache Mahout para escalar los algoritmos de aprendizaje automático.
Apache Spark SQL
7 HorasSpark SQL es el módulo de Apache Spark para trabajar con datos estructurados y no estructurados. Spark SQL proporciona información sobre la estructura de los datos, así como sobre el cálculo que se está realizando. Esta información puede utilizarse para realizar optimizaciones. Dos usos comunes de Spark SQL son:
- ejecutar consultas SQL.
- leer datos de una instalación existente de Hive.
En este entrenamiento dirigido por un instructor (presencial o remoto), los participantes aprenderán a analizar diversos conjuntos de datos utilizando Spark SQL.
Al final de este curso, los participantes podrán:
- Instalar y configurar Spark SQL.
- Realizar análisis de datos con Spark SQL.
- Consultar conjuntos de datos en diferentes formatos.
- Visualizar datos y resultados de consultas.
Formato del curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar un entrenamiento personalizado para este curso, contáctenos para hacer los arreglos necesarios.
Stratio: Módulos Rocket e Intelligence con PySpark
14 HorasStratio es una plataforma centrada en datos que integra big data, IA y gobernanza en una sola solución. Sus módulos Rocket e Intelligence permiten la exploración rápida de datos, transformaciones y análisis avanzados en entornos empresariales.
Este entrenamiento en vivo dirigido por un instructor (online o presencial) está orientado a profesionales intermedios en datos que desean utilizar los módulos Rocket e Intelligence de Stratio eficazmente con PySpark, enfocándose en estructuras de bucles, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar este entrenamiento, los participantes podrán:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Intelligence.
- Aplicar PySpark en el contexto de ingesta, transformación y análisis de datos.
- Usar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDFs) para operaciones reutilizables en PySpark.
Formato del Curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarlo.