Emiliano Herrera
Data Engineer & Physicist
Construyo pipelines, productos de datos y sistemas que funcionan. Mi foco está en la arquitectura, el procesamiento distribuido y que los datos sirvan para tomar decisiones reales.
Trabajo en ingeniería de datos (GCP mayormente). Mi formación en física influye en cómo estructuro problemas: busco soluciones que sean técnicamente sólidas y fáciles de mantener, sin complicaciones innecesarias.
Sobre mí
Soy ingeniero de datos. Me dedico a construir flujos de información, casi siempre en Google Cloud. Me enfoco en que los pipelines sean eficientes y, sobre todo, que los datos lleguen bien a donde tienen que llegar.
Antes de esto estudié física. Eso me dejó la costumbre de querer entender cómo funcionan las cosas por dentro antes de tocarlas. No me gusta la complejidad por sí sola; prefiero los sistemas que son precisos y directos.
Me muevo entre la ingeniería de datos, el diseño de sistemas y cualquier proyecto técnico que tenga un reto de estructura interesante.
Intereses
- Física
- Matemáticas
- Arquitectura de datos
- Machine Learning aplicado
- Detección de anomalías
- Diseño minimalista
- Proyectos técnicos
Filosofía
"Una solución técnica debe ser mantenible y directa. Si no se puede explicar simple, está mal diseñada."
Resultados
Lo que he construido y el impacto que ha tenido.
2h → 45m
Optimización
De 2h a 45m de ejecución.
<1%
Calidad
Menos del 1% de discrepancia en datos.
100%
Automatización
Eliminé tareas manuales en pipelines críticos.
Proyectos Activos
Desarrollos en curso enfocado en experimentación técnica y sistemas complejos.
Schwarzschild Black Hole Visualizer
En DesarrolloUn visualizador 3D de agujeros negros que usa Spark para los cálculos pesados de física.
Tecnologías clave
IDM — Plataforma de Incidencia Delictiva
En DesarrolloUn tablero que muestra estadísticas de crimen en México. Se actualiza solo cada mes.
Tecnologías clave
Proyectos
Artefactos técnicos y arquitectura de sistemas.
Hacker – Crank
Detección de patrones anómalos en el uso de computadoras.
El Problema
Identificar riesgos de ciberseguridad mediante comportamiento operacional.
La Solución
Sistema de detección de anomalías preventivas.
Infraestructura mínima en GCP
Repositorio Terraform para desplegar arquitecturas de datos reusables.
El Problema
Fricción inicial en configuración de cloud.
La Solución
Infraestructura como código (IaC) modular.
Experiencia
AgileThought
Data Engineer
Mayo 2022 — Presente
Proyectos de datos a escala para métricas y analítica de negocio.
- Optimizé pipelines para que corrieran en menos de una hora.
- Reduje el error en métricas de negocio de un 15% a casi cero.
- Diseñé tablas FACT y modelos de datos pensados para ser usados.
- Automaticé flujos con Airflow y Astronomer.
- Colaboré con equipos de ciencia de datos para que tuvieran lo que necesitaban.
Stack Técnico
Herramientas y tecnologías que utilizo para construir sistemas resilientes y escalables.
Cloud & Plataformas
- GCP
- BigQuery
- Cloud Storage
- Dataproc
- Compute Engine
Procesamiento
- PySpark
- SparkSQL
- SQL
- Python
Orquestación
- Apache Airflow
- Astronomer
Herramientas
- Terraform
- Docker
- Git
- Linux
Análisis
- DBT
- Power BI
- Looker Studio
Pensamiento Técnico
Artículos y notas sobre ingeniería de datos, arquitectura y sistemas.
Escalabilidad vs. Complejidad: Cuándo (y cuándo no) usar Apache Spark
Un análisis sobre por qué a veces lo más potente no es lo más eficiente.
La anatomía de una tabla FACT útil
Diseño de modelos de datos pensados para que el negocio los use de verdad.
Observabilidad en Pipelines: El 'éxito' de un DAG no es suficiente
Por qué que el proceso termine en verde no significa que los datos estén bien.
Física aplicada a Sistemas de Datos
Cómo el modelado matemático ayuda a construir arquitecturas que no colapsen.
Intereses & Abstracción
Para mí, la matemática no es solo para calcular cosas, es el lenguaje de la estructura. La física me enseñó que los sistemas complejos —desde el espacio-tiempo hasta un flujo de datos— se pueden entender si se modelan bien.
No veo los pipelines como pedazos sueltos de código, sino como un sistema con reglas de consistencia. Si el diseño es bueno, la optimización viene sola.
Ecuaciones de campo de Einstein
Me gustan los problemas donde la lógica abstracta se toca con la ejecución técnica. No busco que las cosas se vean impresionantes, busco que tengan sentido.
Mi objetivo es reducir la entropía en los ecosistemas de datos, transformando el ruido crudo en algo que sirva para decidir.
Partial
"Frontera, estructura y cambio."
Partial es una exploración conceptual en forma de marca de ropa minimalista. Inspirada en el símbolo matemático ∂ (derivada parcial), la marca representa la idea de analizar un sistema a través de sus cambios en dimensiones específicas.
Aesthetics through formal structure. Una propuesta visual sobria donde el diseño no es decorativo, sino una extensión de la lógica interna de la prenda.
Mínimo
0
Frontera
∂Ω
Cambio
Δ
Estructura
Σ
Futuros Proyectos
Mi interés se centra en evolucionar hacia sistemas proactivos y productos técnicos con profundidad conceptual.
Sistemas de detección de anomalías con enfoque práctico
Modelado preventivo basado en comportamiento temporal.
Plataformas de datos autoexplicables
Enfoque en observabilidad y linaje semántico.
Data Engineering + AI/ML Integration
Sistemas donde la ingeniería es la base de la inteligencia.