Ingeniero de Datos Senior - Rol Remoto con GCP y Python en Radiodifusión
Remoto
Jornada completa
¿Es usted un Ingeniero de Datos experimentado con sólidos conocimientos en tecnologías cloud y operaciones de machine learning? Una importante empresa alemana de radiodifusión está buscando un Ingeniero de Datos Senior para diseñar e implementar sofisticados pipelines de datos e infraestructura ML. Esta posición remota ofrece la oportunidad de trabajar con tecnologías de vanguardia mientras colabora con una de las principales organizaciones mediáticas de Europa.
Acerca del Puesto:
En esta posición contractual remota a tiempo completo (2 meses iniciales con posibilidades de extensión), será responsable de construir pipelines de datos robustos e implementar microservicios para modelos de machine learning. Colaborará con Científicos de Datos y equipos DevOps para asegurar una implementación y operación fluida de soluciones basadas en datos en un entorno cloud avanzado.
Responsabilidades Principales:
- Diseñar e implementar pipelines de datos de alto rendimiento para la preparación, provisión y versionado de datos destinados al entrenamiento de modelos.
- Proporcionar asesoramiento técnico a Científicos de Datos sobre el desarrollo de modelos ML, enfocándose en la productivización y eficiencia operativa.
- Arquitectar y desarrollar microservicios para exponer modelos de machine learning a través de APIs REST con capacidades de monitoreo integral.
- Desplegar y mantener microservicios en Google Cloud Platform, garantizando alta disponibilidad y rendimiento óptimo.
- Implementar pipelines CI/CD utilizando GitLab y Terraform para infraestructura como código.
- Optimizar flujos de trabajo de datos utilizando Airflow 2.6+ y MLflow 2.7+ para orquestación y seguimiento de modelos.
- Trabajar con procesamiento de datos a gran escala utilizando BigQuery, BigTable y PySpark.
- Colaborar con equipos multifuncionales para integrar soluciones de datos en la infraestructura de radiodifusión existente.
Habilidades Requeridas:
- 5+ años de experiencia en ingeniería de datos o roles similares en entornos empresariales.
- Sólido dominio de programación en Python 3.9+ y consultas avanzadas a bases de datos SQL.
- Experiencia práctica con servicios de Google Cloud Platform (GCP), especialmente GCS, Cloud Functions y Dataflow.
- Experiencia demostrada con tecnologías de containerización (Docker, Kubernetes GKE).
- Dominio de herramientas de orquestación de flujos de trabajo, particularmente Apache Airflow.
- Conocimiento práctico de prácticas y herramientas CI/CD (GitLab CI).
- Experiencia con Infraestructura como Código (Terraform 1.5+).
- Familiaridad con diseño e implementación de APIs REST siguiendo mejores prácticas.
- Sólida experiencia en procesos ETL y arquitectura de pipelines de datos escalables.
Habilidades Deseables:
- Experiencia con MLOps y despliegue de modelos ML en entornos de producción de alta demanda.
- Trabajo previo con empresas de radiodifusión, medios o entretenimiento digital.
- Conocimientos de gobernanza de datos y cumplimiento en contextos europeos (GDPR).
- Experiencia con procesamiento de datos en tiempo real utilizando tecnologías streaming.
- Dominio de Apache Spark 3.4+ y PySpark para computación distribuida eficiente.
- Comprensión de mejores prácticas de seguridad de datos en entornos cloud.
- Certificaciones relevantes en GCP, Kubernetes o tecnologías de datos.
- Experiencia previa de trabajo remoto con equipos internacionales.
Por Qué Unirse a Este Proyecto:
Este rol ofrece una oportunidad excepcional de contribuir a la transformación digital de una importante empresa de radiodifusión con millones de usuarios. Trabajará con un stack tecnológico de vanguardia, colaborará con profesionales talentosos y ayudará a construir soluciones de datos que impactan directamente en la experiencia de los espectadores. La naturaleza completamente remota de este rol proporciona flexibilidad, mientras que el potencial de extensión más allá de los 2 meses iniciales ofrece estabilidad para el candidato adecuado.