Cómo hacer cargas de datos estructuradas y semi-estructuradas

laila Business Leave a Comment

cargas de datos

El pasado miércoles 10 de abril, nos juntamos en la cafetería de Campus Madrid con motivo del meetup de Big Data Madrid para hablar de cargas de datos SQL y el uso de JSON en tiempo real. Para ello hemos contado con un par de ponentes excepcionales: Carlos Domingo, un DBA con 15 años a sus espaldas administrando BBDD en grandes sistemas de producción y Manu Lamelas, arquitecto de soluciones Big data en Datatons. Nos habíamos marcado como objetivo el abordar un mismo problema -la ingesta masiva de datos- desde diferentes perspectivas: datos estructurados y semi estructurados.

Carlos tuvo la oportunidad de hablarnos de dos problemas bastante diferentes. En el primero de ellos, nos explicó cómo traer enormes cantidades de datos de sensores en un Oracle Exadata y de cómo el propio caso de uso nos permitía utilizar las capacidades de este appliance de forma óptima, consiguiendo unos excelentes resultados en tiempo, rendimiento y, sobre todo, en la calidad del dato final. Y es que la velocidad de proceso importa no sólo a los informáticos, porque si de algo andamos escasos todos hoy en día es precisamente de tiempo 😉

El segundo problema que nos presentó fue cómo organizar los CDRs de un operador de telefonía móvil en Hadoop. Para aquellos que no tengáis claro lo que son, los CDRs son registros de llamada y actualmente, debido a la evolución de las compañías telefónicas hacia lo digital, estos CDRs incluyen cualquier evento facturable, no sólo llamadas sino también SMS o consumos de tráfico de datos, etc.. (recordemos que se ha disparado el volumen de estos datos con la introducción del 4G). Carlos nos habló de la solución inicial planteada, que era más en modo batch, y de cómo ésta se optimizó posteriormente usando el motor SQL Impala sobre Hadoop para paralelizar el proceso y eliminar cuellos de botella. Ambos problemas fueron abordados desde una perspectiva muy SQL, ya que Carlos trabaja desde hace tiempo como DBA con bases de datos relacionales. ¿No estás flipando todavía? Pues espera…

Durante la siguiente sección nos guió a Manu Lamelas, que tiene un background de programador y actualmente trabaja como diseñador de soluciones principalmente con ecosistema Hadoop. Esto le permite trabajar con tecnologías muy diversas y sus conocimientos en ellas también son amplios. Manu se centró en los datos no estructurados, o semi estructurados en este caso, por lo que en su charla nos enseñó a introducir eventos JSON en Hadoop usando Morphlines, con el objetivo de servirlos tanto en Hive (herramienta SQL relacional, pero con tiempos de latencia muy altos) como en SOLR (que es un indexador y por lo tanto no SQL, pero que permite consultar grandes volúmenes de datos en tiempos inferiores a un segundo).

Como buen gallego que es, Manu se arriesgó, sacó pecho y nos montó en 15 minutillos de nada la solución completa. “¡Anda ya! ¡Estáis locos! ¡No me lo creo!”, diréis mientras leéis esta entrada… Pues sí, Manu levantó una máquina con una versión personalizada de la Cloudera Quickstart VM y además preparó todo el entorno necesario para la ingesta. Pero no se quedó ahí nuestro gallego favorito, sino que hizo la configuración de Flume y SOLR (requisitos necesarios para que la ingesta funcione). Todo esto en el momento de la ponencia delante de todos y lo mejor de todo es que, siendo una DEMO, funcionó a la primera (entre nosotros, y sin que se lo digáis a nadie, Manu es el hombre que le planta cara a Murphy y su famosa Ley), ¡ahí es nada!

El resultado de este meetup fue que aprendimos a hacer cargas de datos con SQL y NoSQL de maneras muy eficientes y con excelentes resultados en directo. Y como colofón, algo que en Datatons nos gusta mucho, el papas working o lo que es lo mismo, el momento de debatir, analizar, comentar y compartir ideas sobre la temática del día, en esta ocasión las cargas de datos.

Si queréis no perderos sesiones formativas tan interesantes como esta, en breve estaremos anunciando nuestro próximo Meetup Big Data Madrid.

Síguenos en Twitter @datatons  y si quieres, puedes participar en nuestro Canal de Slack en donde resolvemos las dudas y seguimos compartiendo información interesante entre todos.

Leave a Reply

Your email address will not be published. Required fields are marked *