Este artículo es el segundo de una serie de artículos publicados por la startup IA Sapiens dedicada a explicar qué es la Inteligencia Artificial en el sector porcino. En el artículo anterior, hablamos sobre la importancia de los datos y de cómo analizar pequeños experimentos. En este, daremos un paso adelante y hablaremos de lagos de datos e inteligencia empresarial.
Combinando fuentes de información
En la primera parte , vimos cómo se podían hacer pequeños (pero muy productivos) análisis con herramientas como Excel, y de la importancia de que los experimentos estén bien diseñados y cumplan una serie de condiciones matemáticas. En nuestro ejemplo de experimento nutricional porcino, vimos que las condiciones de temperatura y humedad podían desvirtuar completamente el experimento, e incluso que si no seguíamos una metodología adecuada, nos llevaran a conclusiones erróneas y por lo tanto a perder mucho dinero. Una opción es incluir estos datos de temperatura y humedad dentro del experimento, por lo que comenzamos a tener fuentes de información diferentes:
- Las medidas de peso y alimentación, que se recogen diariamente en hoja Excel
- Las medidas ambientales, para lo cual hemos decidido instalar dos sensores IoT de temperatura y humedad, uno en las cuadras con la nueva nutrición y otra en el grupo de control
Podemos apreciar lo diferentes que son estas fuentes de información. Aunque ambas son fuentes de información estructuradas (simplificando: números), los datos de peso y alimentación se recogen diariamente (poca velocidad), por lo que al final del experimento tendremos unos cientos de registros (poco volumen). Sin embargo, los datos ambientales se recogen cada 5 minutos (alta velocidad), por lo que al final del experimento tendremos muchos miles de datos (mucho volumen). Hemos pasado de una fuente de información que podemos manejar en una hoja de cálculo, a fuentes heterogéneas que es mejor analizar bajo el concepto de big data de las tres V (velocidad, variedad y volumen). Ahora Excel ha dejado de ser la herramienta idónea para recoger y analizar estos datos, Si abrimos todos datos en Excel el ordenador seguramente se colgará. Si intentamos relacionar los datos entre si dentro de Excel, o tratarlos para mejorar su calidad, vamos a tener que empezar a hacer auténticas virguerías que nos pueden llevar hacia un callejón sin salida ¿Qué podríamos usar en su lugar?
Lago de datos e ingenieros de datos
Conforme nos volvemos más ambiciosos respecto al valor que queremos extraer de los datos, vamos a tener que crear en nuestra organización un lago de datos (a veces lo verás llamado como datalake, datawarehouse, datamart, datalayer…). En este «almacén» para datos, que puede estar construido en nuestros propios servidores (on premises) o en el cloud, es dónde vamos a ir integrando todas las fuentes de información a las que deseemos sacarles partido. Si hacemos esto bien, de una manera ordenada, esos datos que integramos, como por ejemplo los de temperatura y humedad, valdrán no sólo para el experimento que estamos realizando sino para experimentos posteriores. Normalmente, para hacer esto nos tendremos que apoyar en otros departamentos de la empresa o proveedores. La creación de un lago de datos suele involucrar a expertos en sistemas/cloud para la creación del lago en sí, y de ingenieros de datos, que son la gente que se encarga de traer los datos a nuestro lago de datos y nos ayuda a explotarlos mediante herramientas de inteligencia empresarial. Los ingenieros de datos suelen utilizar lenguajes de programación como SQL, o Python, bases de datos como SQL Server, Oracle, o Mysql, y herramientas de inteligencia empresarial (business intelligence) como Tableau, Powerbi o Qlick.
Inteligencia Empresarial (business intelligence)
Una vez que hemos construido nuestro lago de datos, lo siguiente que podemos hacer es sacarle partido con herramientas de inteligencia empresarial. Estas herramientas, son como una versión muy avanzada de Excel, y tienen unas capacidades de procesamiento de datos, visualización y análisis muy superiores. Por ejemplo, a veces nos pasa en excel que intentamos abrir un archivo demasiado grande y se queda colgado. En teoría, esto no debería pasar con las herramientas de inteligencia empresarial que son mucho más potentes. Otra diferencia importante es que en excel estamos viendo es una foto fija de los datos en un momento dato. La mayor parte de las herramientas de inteligencia empresarial son capaces de procesar y visualizar datos en «casi» tiempo real (NRT:Near real time).
Digitalización
En estos dos artículos hemos dado pasos importantes para preparar el camino a la inteligencia artificial en nuestra organización, recapitulemos:
- Hemos empezado a recoger datos que nos son de utilidad, a veces dotándonos de herramientas, otras veces directamente en excel o incluso en una hoja de papel!
- Allí donde era posible, hemos desplegado sensores IoT que completen la información que necesitamos
- Hemos creado un lago de datos para centralizar el uso de la información (Datalake)
- Nos hemos dotado de las herramientas profesionales apropiadas para manejar grandes conjuntos de información
Todas estas acciones se pueden englobar dentro de un proceso que se llama Digitalización, que consiste precisamente en que la información y los procesos pasan a manejarse a través de ordenadores, en vez de estar dispersas por ejemplo entre hojas de papel o en la cabeza de la gente. La digitalización es un paso importante que hemos dado para llegar a la Inteligencia Artificial. No podemos aplicar inteligencia artificial si no tenemos datos de calidad, y para ello es preciso digitalizar. Cuando visito a un cliente potencial, mi primer objetivo es siempre entender el grado de digitalización en el que se encuentra. Si todavía tiene todos sus datos en soporte papel, me centraré en ayudarle a elegir las herramientas adecuadas. Si ya tiene un moderno data lake y una cultura del dato establecida en la organización, con un buen aprovechamiento de las herramientas de inteligencia empresarial, el cliente está más maduro para plantear proyectos avanzados de Inteligencia Artificial!
Este artículo es el segundo de una serie de artículos publicados por la startup IA Sapiens dedicada a explicar qué es la Inteligencia Artificial en el sector porcino. En el siguiente artículo, avanzaremos con firmeza hacia los primeros conceptos de Inteligencia Artificial.