Mucho ruido y pocas nueces sobre la calidad de los datos

Asegurar una calidad de datos adecuada para las iniciativas de transformación digital se basa en un enfoque de dos vertientes que enfatiza en la tecnología y la comunicación humana.

F1 1 5f283434048cd (1)

Por David Miller 

A medida que la era de la Industria 4.0, con sus promesas de análisis predictivo, planificación empresarial integrada y mayores eficiencias operativas, continúa calentándose, Big Data es un tema en la mente de todos. Sin embargo, con tanta discusión sobre el valor potencial que se puede aprovechar de las crecientes cantidades de datos que generan todo tipo de sensores y dispositivos, se presta menos atención al precursor demasiado necesario de la analítica eficaz: la calidad de los datos.

En este ámbito, la máxima ancestral "la basura entra, la basura sale" sigue reinando. Incluso los algoritmos de aprendizaje automático más avanzados son inútiles cuando se alimentan con datos de baja calidad.

"La calidad de los datos lo es todo", dice Tom Redman, presidente de Data Quality Solutions. “Lo primero es que si está utilizando datos existentes para entrenar un modelo y no hace un buen trabajo al limpiarlo, obtendrá un mal modelo. Incluso si el modelo [que construye] es bueno, si le agrega datos incorrectos, obtendrá un mal resultado. Si apila estos datos, es como una cascada y el problema se saldrá de control rápidamente".

Entonces, ¿cómo se define qué son o no datos de calidad? Esta es una pregunta desafiante porque gran parte de la respuesta depende del problema particular que está buscando resolver. En términos generales, la calidad de los datos se puede medir de acuerdo con cuatro dimensiones principales: precisión, coherencia, integridad y puntualidad.

Si los valores que se han recopilado a través de una red tienen precisión, reflejan correctamente la información producida por cada dispositivo. Por ejemplo, si varios dispositivos dentro de un solo espacio informan la temperatura ambiente en esa área, los analistas de datos deben esperar que esos valores sean iguales o con una desviación razonable entre sí. La consistencia es similar. Cuando los datos son consistentes, significa que múltiples eventos reportados bajo condiciones similares no exhiben variaciones irreconciliables. Por el contrario, la integridad se logra cuando no hay brechas sustanciales en una serie de tiempo de eventos reportados o valores capturados de sensores. Por último, si los datos poseen actualidad, significa que han podido pasar desde su punto inicial de creación a través de varios protocolos de comunicación y niveles de integración a una plataforma de gestión de datos donde se pueden sincronizar con datos de otras fuentes con la suficiente rapidez para ser efectivos y que se pueda actuar en consecuencia.


Véalo en vivo en PACK EXPO Connects del 9 al 13 de noviembre: OptiMate, la nueva interfaz de máquina con conectividad y funcionalidades inteligentes para optimizar la calidad y el desempeño de su equipo, de Coesia. Obtenga una vista previa de su Showroom aquí. 


Si bien tal torbellino de métricas y criterios puede parecer complicado, Redman dice que todo se puede resumir en dos axiomas simples. Los datos deben ser correctos, lo que significa que son precisos, coherentes y completos. También deben ser los datos correctos, lo que implica no solo cumplir con los estándares técnicos de calidad, sino también ser imparcial y pertenecer al rango particular de insumos para los que se pretende desarrollar un modelo predictivo. Un equipo mal calibrado puede ser responsable de las deficiencias en el primero, pero el segundo es especialmente importante porque requiere el conocimiento y la creatividad de los analistas humanos y su capacidad para comunicar sus necesidades a los técnicos operativos que crean datos hacia arriba del proceso.

Garantizar la calidad de los datos desde el principio

El enfoque de Redman para garantizar la calidad de los datos difiere de otros en que, si bien reconoce que la tecnología es importante, cree que es, ante todo, una preocupación de gestión. En su opinión, cuando la comunicación entre los creadores de datos y los usuarios de datos se hace más clara, se vuelve exponencialmente más fácil no solo recopilar los datos correctos, sino también los datos correctos.

“Una cosa que notará es que nadie crea realmente datos incorrectos si los van a usar ellos mismos, pero muchos datos se crean la primera vez en una parte de una organización y no se usan más hasta otro momento en otro lugar de la empresa. Las personas siguen alegremente creando los datos, y luego quienes tienen que usarlos dicen: 'Ah, esto no está bien', y luego deben hacer una limpieza", dice. “Nunca se les ocurre que tal vez deberían averiguar quién está creando los datos e ir allí y hablar un poco sobre sus requisitos. El objetivo de la calidad de los datos debe ser salir del negocio de una limpieza completa".




En vivo en PACK EXPO Connects del 9 al 13 de noviembre:  Lleve sus cajas al mercado más rápido con las encartonadoras de carga manual de ADCO, por ADCO Manufacturing. Obtenga una vista previa de su sala de exposición aquí.


En otras palabras, se debe tomar una decisión consciente para desarrollar métodos de comunicación entre los diversos miembros de una organización mediante los cuales se puedan delinear claramente los requisitos de todos los datos que se generan. Redman ve esto como una responsabilidad de la gerencia de ordenar y, si es necesario, también de brindar capacitación.

Y aunque Redman enfatiza en que los problemas en la canalización de la comunicación deben resolverse por completo antes de que una organización se apresure a adoptar enfoques tecnológicos más sofisticados, una vez que la administración haya establecido un flujo de trabajo sólido, también es importante invertir en el hardware y el software adecuados.

Aumento de la eficiencia de limpieza de datos

Dado lo extenuante del trabajo de un administrador de los datos, la postura de Redman no sorprende. Según Anil Datoo, vicepresidente de gestión de datos de Emerson, alrededor del 70% de todas las actividades de integración de datos se dedican a validar, estructurar, organizar y limpiar datos, una estadística que se repitió en un artículo sobre Big Data en The New York Times en 2014. Con tanto tiempo dedicado a la tarea de limpieza de datos y muy pocos avances para reducirlo durante la última media década, trabajar para garantizar que más datos estén en óptimas condiciones desde su inicio no es una mala estrategia.

Sin embargo, incluso si tales medidas pueden aliviar en última instancia la carga de manejar datos, el gran volumen que se crea hace que sea casi imposible que la limpieza se pueda omitir por completo, dice Michael Risse, vicepresidente y director de marketing de Seeq. Además, a menudo es difícil saber con precisión qué datos se necesitarán hasta que surja un nuevo problema. Como resultado, las herramientas de software que mejoran la eficiencia de clasificar y limpiar grandes volúmenes de datos pueden ser una herramienta invaluable, incluso en los regímenes de gestión más organizados.

La función de eliminación de valores atípicos en este gráfico de Seeq se aplica a un sensor de longitud de fibra ubicado en un entorno hostil, lo que lo hace propenso a caídas y picos. Con los valores atípicos eliminados, la señal del sensor se puede contextualizar en los estados apropiados.La función de eliminación de valores atípicos en este gráfico de Seeq se aplica a un sensor de longitud de fibra ubicado en un entorno hostil, lo que lo hace propenso a caídas y picos. Con los valores atípicos eliminados, la señal del sensor se puede contextualizar en los estados apropiados."Una parte fundamental de esta conversación es que los datos deben ser adecuados para su analítica en particular. Una cosa que es vital es asegurarse de que los datos originales se almacenen en su forma sin procesar. Si están resumidos, porque alguien asumió que sabía lo que quería hacer con ellos o ya se han alterado o limpiado de alguna manera en función de las expectativas de otra persona; entonces, podría haberlos arruinado", dice Risse. "Podría estar buscando exactamente las anomalías o valores atípicos que alguien más piensa que deberían eliminarse. Uno de los grandes desafíos de todo esto es que a menudo no sabemos lo que vamos a necesitar hasta que lo necesitamos".

Desde la perspectiva de Risse, si bien mejorar la calidad de los datos desde el comienzo de una operación puede ser útil en algunos contextos, en otros, limpiar en exceso lo que está disponible podría generar más problemas, incluso bajo las formas más estrictas de orientación. Es por eso que el software de Seeq está diseñado para ayudarles a los usuarios a analizar grandes cantidades de datos con mayor rapidez, de modo que no sea necesario resumirlos o reducirlos antes en el proceso.

Un caso de uso puede ayudar a ilustrar la utilidad del software de Seeq. Tomemos, por ejemplo, una industria que emplea la producción por lotes, como productos farmacéuticos o alimentos y bebidas. A menudo, si surge un problema de calidad, los fabricantes simplemente descargarán un lote completo y comenzarán la producción de nuevo en lugar de intentar identificar la fuente del problema porque los análisis necesarios para hacerlo requieren tanto tiempo que, cuando se han realizado, el lote se completará de todos modos. Con el software de Seeq, el proceso se puede acelerar para que las decisiones se puedan tomar con la suficiente rapidez como para tener un impacto en el resultado.

“En un ejemplo en una refinería con la que trabajamos, les tomó dos semanas obtener información sobre su producción diaria”, dice Risse. "Ahora, pueden cambiar esa decisión en una hora y aumentar la producción cada año con la misma planta, los mismos activos y las mismas personas".

El control de bordes Rx3i CPL410 de Emerson combina control determinista y no determinista y les permite a los usuarios recopilar, analizar o volver históricos datos a nivel de máquina para obtener análisis más avanzados donde se originan los datos.El control de bordes Rx3i CPL410 de Emerson combina control determinista y no determinista y les permite a los usuarios recopilar, analizar o volver históricos datos a nivel de máquina para obtener análisis más avanzados donde se originan los datos.Gestión de expectativas para iniciativas de transformación digital

Para aquellos que buscan dar el paso en pos de convertirse en una organización más conocedora de datos, Redman, Datoo y Risse tienen valiosos consejos que ofrecer.

En primer lugar, Datoo recomienda comenzar la transición con un proyecto pequeño y específico, en lugar de sumergirse de una vez.

“Nuestra principal recomendación es comenzar y desarrollar un pequeño caso de uso. No tiene que ser un costo prohibitivo porque hay muchas oportunidades dentro de los entornos operativos; así que si puede apuntar a algo que resuene operativamente, tenga un buen retorno de la inversión y pueda llamar la atención de las partes interesadas operativas, está listo", dice. “Continúe midiendo el éxito a lo largo del camino, sea flexible y espere realizar cambios iterativos. No existe una respuesta sencilla a estos problemas, por lo que es importante tenerlo en cuenta ".

De manera similar, Redman insta a los adoptantes a que elijan un problema específico y lo mantengan. Con demasiada frecuencia, dice, las organizaciones cometen el error de contratar científicos de datos, darles acceso a toda la información de la organización y esperar a ver qué se les ocurre. En opinión de Redman, estos enfoques indisciplinados están condenados al fracaso.

La gestión de las expectativas también es importante. Si bien es posible mejorar la calidad de los datos desde el principio con un enfoque gerencial y las herramientas para mejorar la eficiencia de la limpieza de datos, las organizaciones no deben esperar que sus transformaciones digitales reinventen su negocio de la noche a la mañana, advierte Redman. Al mismo tiempo, los casos de uso de Seeq muestran que, cuando se utilizan correctamente, la información valiosa puede, con el tiempo, desbloquear la clave para obtener resultados verdaderamente transformadores.

Más importante aún, la calidad de los datos debe permanecer en el centro de todas las iniciativas de transformación digital. Así como un chef es a menudo tan bueno como los ingredientes proporcionados, los científicos de datos también están limitados por datos incorrectos.

Además, el enfoque doble de eliminar la causa raíz de los datos de mala calidad a través de innovaciones en la administración y el análisis de datos de manera más efectiva mediante el uso de software avanzado apunta a los efectos de largo alcance de la revolución digital de la industria. Lejos de ser el reino exclusivo de unos pocos analistas informáticos, Big Data afecta a todos los segmentos de la industria, desde las operaciones hasta la administración. Y aunque adaptarse a este nuevo paradigma no está exento de desafíos, las empresas que esperan prosperar en esta era de incertidumbre deben estar preparadas para hacerlo.        

Más en Automatización