SMACK Stack para Ciencia de Datos
SMACK es una colección de softwares de plataforma de datos, a saber: Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra y Apache Kafka. Usando la pila SMACK, los usuarios pueden crear y escalar plataformas de procesamiento de datos.
Este curso dirigido por un instructor (en línea o en el lugar) está destinado a científicos de datos que deseen usar la pila SMACK para construir plataformas de procesamiento de datos para soluciones de big data.
Al final de este entrenamiento, los participantes podrán:
- Implementar una arquitectura de pipeline de datos para procesar big data.
- Desarrollar una infraestructura de clúster con Apache Mesos y Docker.
- Analizar datos con Spark y Scala.
- Administrar datos no estructurados con Apache Cassandra.
Formato del Curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar un entrenamiento personalizado para este curso, por favor contáctenos para hacer los arreglos.
Temario del curso
Introducción
Visión General del Stack SMACK
- ¿Qué es Apache Spark? Características de Apache Spark
- ¿Qué es Apache Mesos? Características de Apache Mesos
- ¿Qué es Apache Akka? Características de Apache Akka
- ¿Qué es Apache Cassandra? Características de Apache Cassandra
- ¿Qué es Apache Kafka? Características de Apache Kafka
Lenguaje Scala
- Sintaxis y estructura de Scala
- Flujo de control en Scala
Preparación del Entorno de Desarrollo
- Instalación y configuración del stack SMACK
- Instalación y configuración de Docker
Apache Akka
- Uso de actores
Apache Cassandra
- Creación de una base de datos para operaciones de lectura
- Trabajo con copias de seguridad y recuperación
Conectores
- Creación de un flujo de datos
- Construcción de una aplicación Akka
- Almacenamiento de datos con Cassandra
- Revisión de conectores
Apache Kafka
- Trabajo con clústeres
- Creación, publicación y consumo de mensajes
Apache Mesos
- Asignación de recursos
- Ejecución de clústeres
- Trabajo con Apache Aurora y Docker
- Ejecución de servicios y trabajos
- Implementación de Spark, Cassandra y Kafka en Mesos
Apache Spark
- Gestión de flujos de datos
- Trabajo con RDDs y dataframes
- Realización de análisis de datos
Solución de Problemas
- Manejo de fallos de servicios y errores
Resumen y Conclusión
Requerimientos
- Comprender los sistemas de procesamiento de datos
Público Objetivo
- Científicos de Datos
Los cursos públicos requieren más de 5 participantes.
SMACK Stack para Ciencia de Datos - Reserva
SMACK Stack para Ciencia de Datos - Consulta
SMACK Stack para Ciencia de Datos - Solicitud de consultoría
Solicitud de consultoría
Testimonios (1)
very interactive...
Richard Langford
Curso - SMACK Stack for Data Science
Próximos cursos
Cursos Relacionados
Anaconda Ecosistema para Científicos de Datos
14 HorasEsta capacitación en vivo dirigida por un instructor en Ecuador (en línea o presencial) está dirigida a científicos de datos que desean utilizar el ecosistema Anaconda para capturar, administrar e implementar paquetes y flujos de trabajo de análisis de datos en una sola plataforma.
Al final de esta formación, los participantes serán capaces de:
- Instale y configure Anaconda componentes y bibliotecas.
- Comprender los conceptos básicos, las características y los beneficios de Anaconda.
- Administre paquetes, entornos y canales con Anaconda Navigator.
- Utilice los paquetes Conda, R y Python para la ciencia de datos y el aprendizaje automático.
- Conozca algunos casos de uso prácticos y técnicas para la gestión de múltiples entornos de datos.
Una Introducción Práctica a la Ciencia de Datos
35 HorasLos participantes que completen este entrenamiento adquirirán una comprensión práctica y basada en el mundo real de la Ciencia de Datos, así como de sus tecnologías, metodologías y herramientas relacionadas.
Los participantes tendrán la oportunidad de aplicar este conocimiento a través de ejercicios prácticos. La interacción grupal y los comentarios del instructor constituyen un componente importante de la clase.
El curso comienza con una introducción a los conceptos elementales de la Ciencia de Datos, luego avanza hacia las herramientas y metodologías utilizadas en la Ciencia de Datos.
Audiencia
- Desarrolladores
- Analistas técnicos
- Consultores de TI
Formato del Curso
- Parte teórica, parte discusión, ejercicios y práctica intensiva
Nota
- Para solicitar un entrenamiento personalizado para este curso, por favor contáctenos para coordinar.
Data Science Programme
245 HorasLa explosión de información y datos en el mundo actual es sin precedentes. Nuestra capacidad para innovar y empujar los límites del posible está creciendo más rápido que nunca. El rol de Científico de Datos es una de las habilidades más demandadas en la industria hoy en día.
Ofrecemos mucho más que el aprendizaje a través de la teoría; entregamos habilidades prácticas y comercializables que bridgen la brecha entre el mundo académico y las demandas de la industria.
Este currículo de 7 semanas puede ser adaptado a sus requisitos específicos de la industria. Por favor, contáctenos para obtener más información o visite el sitio web del Instituto Nobleprog.
Audiencia:
Este programa está dirigido a graduados de posgrado así como a cualquier persona con los prerequisitos necesarios, que serán determinados mediante una evaluación y entrevista.
Entrega:
La entrega del curso será una mezcla de Clase Presencial Liderada por Instructor y Clase Virtual Liderada por Instructor; típicamente la 1ª semana será 'presencial', las semanas 2 a 6 serán 'clase virtual' y la semana 7 volverá a ser 'presencial'.
Ciencia de Datos para Big Data Analytics
35 HorasEl big data es un conjunto de datos tan voluminoso y complejo que las aplicaciones tradicionales de procesamiento de datos son inadecuadas para manejarlos. Los desafíos del big data incluyen la captura de datos, el almacenamiento de datos, el análisis de datos, la búsqueda, el intercambio, la transferencia, la visualización, las consultas, la actualización y la privacidad de la información.
Data Science essential for para los profesionales de marketing / ventas
21 HorasEste curso está dirigido a profesionales de ventas de marketing que tienen la intención de obtener
más profundo en la aplicación de la ciencia de datos en Marketing / Ventas. El curso proporciona
cobertura detallada de las diferentes técnicas de ciencia de datos utilizadas para "upsale", "cross-sale",
segmentación del mercado, marca y CLV.
Diferencia de marketing y ventas: ¿cómo es que las ventas y el marketing son diferentes? En muy simple
En palabras, las ventas pueden denominarse como un proceso que se enfoca o se dirige a individuos o grupos pequeños.
Por otro lado, el marketing se dirige a un grupo más grande o al público en general.
El marketing incluye investigación (identificación de las necesidades del cliente), desarrollo de productos (producción
productos innovadores) y promover el producto (a través de anuncios) y crear conciencia sobre
el producto entre los consumidores. Como tal marketing significa generar clientes potenciales o prospectos. Una vez el
producto está en el mercado, es la tarea del vendedor persuadir al cliente para que compre el
producto. Bueno, las ventas significan convertir clientes potenciales o prospectos en compras y pedidos.
Si bien el marketing está dirigido a plazos más largos, las ventas se refieren a objetivos más cortos. El marketing implica una mayor
proceso de crear un nombre para una marca y persuadir al cliente para que lo compre aunque no lo necesite.
Donde las ventas solo implican un proceso a corto plazo para encontrar al consumidor objetivo.
En concepto también, las ventas y el marketing tienen mucha diferencia. Las ventas solo se enfocan en convertir al consumidor
la demanda coincide con los productos. Pero los objetivos de marketing para satisfacer las demandas del consumidor.
El marketing se puede llamar como un pie de página para las ventas. Prepara el terreno para que un vendedor se acerque a un
consumidor. El marketing como tal no es directo y utiliza varios métodos como publicidad, marketing de marca,
relaciones públicas, correos directos y marketing viral para crear conciencia sobre el producto. Las ventas dependen
a menudo interacciones interpersonales. Las ventas involucran reuniones uno a uno, redes y llamadas.
Otra diferencia que se ve entre el marketing y las ventas es que la primera implica tanto micro y
análisis macro centrado en intenciones estratégicas. Por otro lado, las ventas se refieren a los desafíos y
relaciones con el cliente.
Jupyter para Equipos de Ciencia de Datos
7 HorasEsta capacitación en vivo dirigida por un instructor en Ecuador (en línea o presencial) presenta la idea del desarrollo colaborativo en ciencia de datos y demuestra cómo usar Jupyter para rastrear y participar como equipo en el "ciclo de vida de una idea computacional". Guía a los participantes a través de la creación de un proyecto de ciencia de datos de muestra basado en el ecosistema de Jupyter.
Al final de esta formación, los participantes serán capaces de:
- Instale y configure Jupyter, incluida la creación e integración de un repositorio de equipo en Git.
- Utilice las funciones de Jupyter, como extensiones, widgets interactivos, modo multiusuario, etc., para habilitar la colaboración en proyectos.
- Cree, comparta y organice Jupyter Notebooks con los miembros del equipo.
- Elija entre Scala, Python, R, para escribir y ejecutar código en sistemas de big data como Apache Spark, todo a través de la interfaz de Jupyter.
Kaggle
14 HorasEsta capacitación en vivo dirigida por un instructor en Ecuador (en línea o presencial) está dirigida a científicos de datos y desarrolladores que desean aprender y desarrollar sus carreras en Data Science utilizando Kaggle.
Al final de esta formación, los participantes serán capaces de:
- Más información sobre la ciencia de datos y el aprendizaje automático.
- Explora el análisis de datos.
- Obtenga más información sobre Kaggle y cómo funciona.
Fundamentos de MATLAB, Ciencia de datos y generación de informes
35 HorasEn la primera parte de esta capacitación, cubrimos los fundamentos de MATLAB y su función como lenguaje y plataforma. En esta discusión se incluye una introducción a MATLAB la sintaxis, matrices y matrices, la visualización de datos, el desarrollo de scripts y los principios orientados a objetos.
En la segunda parte, demostramos cómo usar MATLAB para la minería de datos, el aprendizaje automático y el análisis predictivo. Para proporcionar a los participantes una perspectiva clara y práctica del enfoque y el poder de MATLAB, establecemos comparaciones entre el uso de MATLAB y el uso de otras herramientas como hojas de cálculo, C, C++ y Visual Basic.
En la tercera parte de la formación, los participantes aprenden a agilizar su trabajo automatizando el procesamiento de datos y la generación de informes.
A lo largo del curso, los participantes pondrán en práctica las ideas aprendidas a través de ejercicios prácticos en un entorno de laboratorio. Al final de la capacitación, los participantes tendrán una comprensión profunda de las capacidades de MATLAB y podrán emplearlas para resolver problemas de ciencia de datos del mundo real, así como para optimizar su trabajo a través de la automatización.
Se llevarán a cabo evaluaciones a lo largo del curso para medir el progreso.
Formato del curso
- El curso incluye ejercicios teóricos y prácticos, que incluyen discusiones de casos, inspección de código de muestra e implementación práctica.
Nota
- Las sesiones de práctica se basarán en plantillas de informes de datos de muestra preestablecidas. Si tiene requisitos específicos, póngase en contacto con nosotros para organizarlo.
Aprendizaje Automático - Ciencia de Datos
21 HorasEste curso de formación presencial dirigido por un instructor en Ecuador (en línea o en las instalaciones del cliente) está destinado a analistas de datos intermedios, desarrolladores o aspirantes a científicos de datos que deseen aplicar técnicas de aprendizaje automático en Python para extraer conocimientos, hacer predicciones y automatizar decisiones basadas en datos.
Al final de este curso, los participantes podrán:
- Comprender y diferenciar las principales paradigmas del aprendizaje automático.
- Explorar técnicas de preprocesamiento de datos y métricas de evaluación de modelos.
- Aplicar algoritmos de aprendizaje automático para resolver problemas de datos en el mundo real.
- Utilizar bibliotecas de Python y cuadernos Jupyter para el desarrollo práctico.
- Construir modelos para predicción, clasificación, recomendación y clustering.
Acelerando los Flujos de Trabajo de Python Pandas con Modin
14 HorasEsta capacitación en vivo dirigida por un instructor en Ecuador (en línea o presencial) está dirigida a científicos de datos y desarrolladores que desean usar Modin para crear e implementar cálculos paralelos con Pandas para un análisis de datos más rápido.
Al final de esta formación, los participantes serán capaces de:
- Configure el entorno necesario para comenzar a desarrollar Pandas flujos de trabajo a escala con Modin.
- Comprender las características, la arquitectura y las ventajas de Modin.
- Conoce las diferencias entre Modin, Dask y Ray.
- Realice Pandas operaciones más rápido con Modin.
- Implemente toda la API Pandas y las funciones.
Programación Python para Finanzas
35 HorasPython es un lenguaje de programación que ha ganado gran popularidad en la industria financiera. Adoptado por los mayores bancos de inversión y fondos de cobertura, se está utilizando para crear una amplia gama de aplicaciones financieras que van desde programas de negociación básicos hasta sistemas de gestión de riesgos.
En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán a usar Python para desarrollar aplicaciones prácticas para resolver una serie de problemas específicos relacionados con las finanzas.
Al final de esta formación, los participantes serán capaces de:
- Comprender los fundamentos del lenguaje de programación Python
- Descargar, instalar y mantener las mejores herramientas de desarrollo para crear aplicaciones financieras en Python
- Seleccionar y utilizar los paquetes y técnicas de programación más adecuados de Python para organizar, visualizar y analizar datos financieros de diversas fuentes (CSV, Excel, bases de datos, web, etc.)
- Construir aplicaciones que resuelvan problemas relacionados con la asignación de activos, el análisis de riesgos, el rendimiento de las inversiones y más
- Solucionar problemas, integrar, implementar y optimizar una aplicación en Python
Audiencia
- Desarrolladores
- Analistas
- Quants
Formato del curso
- Parte teórica, parte discusión, ejercicios y práctica intensiva
Nota
- Esta capacitación tiene como objetivo proporcionar soluciones para algunos de los principales problemas que enfrentan los profesionales de las finanzas. Sin embargo, si tiene un tema, herramienta o técnica en particular que desee agregar o ampliar, por favor contáctenos para organizarlo.
Python en Ciencia de Datos
35 HorasEl curso de formación ayudará a los participantes a prepararse para el Desarrollo de Aplicaciones Web utilizando Programación Python con Análisis de Datos. Esta visualización de datos es una gran herramienta para la Alta Dirección en la toma de decisiones.
Ciencia de Datos con GPU usando NVIDIA RAPIDS
14 HorasEste curso de formación dirigido por un instructor en Ecuador (en línea o presencial) está destinado a científicos de datos y desarrolladores que deseen utilizar RAPIDS para crear pipelines, flujos de trabajo y visualizaciones aceleradas por GPU, aplicando algoritmos de aprendizaje automático como XGBoost, cuML, etc.
Al final de este curso, los participantes podrán:
- Configurar el entorno de desarrollo necesario para construir modelos de datos con NVIDIA RAPIDS.
- Comprender las características, componentes y ventajas de RAPIDS.
- Aprovechar GPUs para acelerar pipelines de datos y análisis de extremo a extremo.
- Implementar la preparación de datos y ETL acelerados por GPU con cuDF y Apache Arrow.
- Aprender a realizar tareas de aprendizaje automático con los algoritmos XGBoost y cuML.
- Crear visualizaciones de datos y ejecutar análisis de grafos con cuXfilter y cuGraph.
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Ecuador, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Stratio: Módulos Rocket e Intelligence con PySpark
14 HorasStratio es una plataforma centrada en datos que integra big data, IA y gobernanza en una sola solución. Sus módulos Rocket e Intelligence permiten la exploración rápida de datos, transformaciones y análisis avanzados en entornos empresariales.
Este entrenamiento en vivo dirigido por un instructor (online o presencial) está orientado a profesionales intermedios en datos que desean utilizar los módulos Rocket e Intelligence de Stratio eficazmente con PySpark, enfocándose en estructuras de bucles, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar este entrenamiento, los participantes podrán:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Intelligence.
- Aplicar PySpark en el contexto de ingesta, transformación y análisis de datos.
- Usar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDFs) para operaciones reutilizables en PySpark.
Formato del Curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarlo.