No te pierdas el evento líder en la industria. ¡REGÍSTRATE AQUÍ!
Registro abierto, no te pierdas el evento líder en la industria. ¡REGÍSTRATE AQUÍ!

4 formas de garantizar que su lago de datos no se convierta en un pantano de datos

Para que los lagos de datos funcionen para datos de series temporales, es importante agregar buenos metadatos, garantizar la capacidad de conectar su plataforma de análisis a su lago de datos y tomar medidas para mejorar el rendimiento para el análisis.

Lago De Datos Ppal

Si su empresa está involucrada en una iniciativa completa de fabricación inteligente, Industria 4.0 u otra iniciativa de transformación digital, es probable que haya encontrado el término "lago de datos". Un lago de datos es esencialmente un lugar para almacenar todos los datos recopilados de sus operaciones. En un lago de datos, los datos almacenados allí pueden ser estructurados o no. No se requiere procesamiento previo para que aquellos se almacenen en un lago de datos.

Debido a que se pueden almacenar todo tipo de datos en un lago, estos sitios de almacenamiento tienen un gran potencial para brindar orientación sobre asuntos que quizás aún no considere importantes. Según Amazon Web Services, tener diferentes tipos de datos almacenados en un repositorio central significa que puede aplicar numerosos tipos de análisis, como consultas SQL, análisis de Big Data, búsqueda de texto completo, análisis en tiempo real y aprendizaje automático para descubrir nuevos conocimientos.

Pero, al igual que ese cajón de basura en su casa estaba destinado a almacenar artículos necesarios que no encajan en otro lugar, puede convertirse fácilmente en un depósito general para las cosas que ya debería haber tirado. De manera similar, un lago de datos puede convertirse en un pantano de datos.

Niki Driessen, director arquitecto de TrendMiner.Niki Driessen, director arquitecto de TrendMiner.Los lagos de datos también pueden convertirse en pantanos de datos cuando los usuarios necesitan un desarrollo especial o habilidades técnicas para acceder y utilizar los datos, dice Niki Driessen, arquitecto jefe de TrendMiner, un proveedor de tecnología de análisis de datos para las industrias de procesamiento. “Actualmente, los lagos de datos se están volviendo cada vez más importantes para las industrias de procesos que capturan y almacenan inmensas cantidades de datos de series temporales generados por sensores”, explica. “Para hacer que los lagos de datos funcionen para datos de series temporales, es importante comprender que [este tipo de] datos no pueden simplemente arrojarse al lago con la expectativa de extraer su valor”.

Para evitar que su lago de datos se convierta en un pantano de datos que oculte el valor de sus datos de series temporales, Driessen recomienda seguir los siguientes pasos:

Proporcione los metadatos necesarios. “No existe una herramienta de lago de datos estándar o una plataforma única que una organización pueda usar para resolver mágicamente los problemas del lago de datos, como el mapeo y la correlación de estos”, dice Driessen. “Para facilitar la ingesta de datos (para el análisis final de datos de series temporales), las organizaciones deben proporcionar los metadatos necesarios, que incluyen el linaje de datos, la estructura de datos, la antigüedad de ellos y otros metadatos que proporcionan atributos o propiedades comunes que los vinculan”.

Conexión de análisis al lago de datos. Aunque no existe un estándar único para resolver los problemas del lago de datos que Driessen señala en el punto anterior, existen aspectos comunes de los paquetes de almacenamiento de datos de muchos proveedores diferentes que pueden ayudar. Una de ellas es una capa de abstracción de consulta. “Esta es una herramienta o componente en el lago de datos de una organización que permite escribir consultas de lenguaje SQL estándar contra los datos”, señala Driessen. “También significa que cualquier herramienta que sea compatible con la conectividad estándar ODBC o JDBC se puede usar para conectarse al lago de datos”.

Rendimiento del lago de datos. Debido a que los lagos de datos suelen utilizar almacenamiento en bloque económico con una capacidad de almacenamiento masiva, no se garantiza un acceso rápido a los datos almacenados. Este es un problema cuando se trabaja con análisis industrial avanzado, ya que los usuarios esperan que los datos estén donde los necesitan y poder acceder a ellos lo más rápido posible. Puede ser problemático que todos los datos de una organización estén "sentados en un archivo enorme en el lago de datos, ya que esta estructura es muy ineficiente para extraerlos ", dice Driessen. La buena noticia es que tales problemas se pueden corregir con el uso de formatos de archivo en columnas, que permiten a los usuarios leer columnas de datos que solo se necesitan para un caso específico. “Dado que no es necesario leer el archivo completo, se cargan menos datos, lo que resulta en tiempos de respuesta más rápidos”, agrega.

Particionamiento de datos. Otra práctica recomendada por Driessen para mejorar el rendimiento del lago de datos es la partición. Aquí, los datos se organizan en estructuras similares a carpetas por propiedades clave, tiempo o una combinación de ambos. Driessen dice que esta práctica divide todos los datos disponibles en archivos mucho más pequeños, lo que permite a los usuarios profundizar en conjuntos de datos específicos sin tener que transferir tantos datos. Esto se traduce en menos tiempo requerido para procesarlos o consultarlos.