Mientras que en la Parte 1 de esta serie de artículos ‘Recomendaciones para implementar un Proyecto de Inteligencia Artificial’, y en la Parte 2 cubrimos los elementos fundamentales que deben organizarse antes de ejecutar cualquier proyecto de datos: la propuesta de valor y el equipo de ejecución. En esta tercera parte hablemos de la materia prima: los datos.
Esta serie de artículos contiene un total de 5 partes distribuidas de la siguiente manera:
Parte 1: Tratar el producto de IA como un activo
Parte 2: Formar el equipo adecuado
Parte 3: ¿Dónde están los datos? (estás aquí)
Parte 4: Entrega del producto
Parte 5: Mantenimiento y Operación
Fundamentos: el POR QUÉ
Quizás esta sea la pregunta más fácil y fundamental: ¿por qué necesitamos datos? Si no hay datos, no hay proyecto. Pero seamos cautelosos con la idea inversa: “si hay datos, tenemos un proyecto”. El hecho de que los datos estén ahí y disponibles no significa necesariamente que se pueda realizar un proyecto de IA. No todos los datos son útiles para realizar y ejecutar un proyecto de IA. Aún más, el tamaño de los datos no garantiza la viabilidad de un proyecto de IA. El tamaño de los datos disponibles no asegura un proyecto de IA; ni pequeña ni grande cantidad de datos. Al final del día, ¿qué es “grande” y qué es “pequeño”?
Lo que determinará si un proyecto de IA es factible o no es el “estado de los datos” disponibles que servirán al objetivo final, como se describe en la Parte 1 de esta serie. Con “estado de los datos” me refiero a la calidad de los datos. Seguro que has oído hablar de ‘GIGO’ -Garbage-In-Garbage-Out-; y eso es exactamente lo que quiero decir: datos malos producen resultados malos, datos mediocres producen resultados mediocres y datos buenos producen resultados buenos. Nada tiene que ver la ‘cantidad’ de datos, sino la calidad de estos. Por lo tanto, tener una gran cantidad de datos que no están curados, organizados, limpios, almacenados, procesados y debidamente mantenidos, son datos simples con un valor bajo o nulo para hacer un proyecto de IA.
En mi experiencia como científico de datos y desarrollador de inteligencia artificial, tener datos de menor tamaño pero de mejor calidad ofrece resultados mucho mejores que tener una gran cantidad de datos de baja o mediana calidad. También he visto cómo grandes proyectos de IA desarrollados con datos de buen estado se han arruinado debido a la adición de grandes cantidades de datos de baja calidad para volver a entrenar el modelo. Me gusta decirles a mis pares y colegas: los buenos datos son geniales, más datos [de calidad desconocida] no lo son.
Proceso: el CÓMO
Como líder / gerente, aquí hay algunas recomendaciones que se deben tener en cuenta al realizar un proyecto de IA y, si es posible, abordar en la medida de lo posible las siguientes inquietudes antes de proporcionar datos al equipo del proyecto de IA.
1. Enfocarse en cómo se generan, almacenan y mantienen los datos
Comprender cómo se generan los datos -desde un sistema, una aplicación, un sitio web, formularios, entrada manual, etc.- ya que dependiendo de cómo se generen los datos, surgirán diferentes desafíos y el equipo del proyecto tendrá que lidiar con ello. Si es generado por un sistema o una máquina, asegúrese de cómo se establecen las reglas para generar los datos -cantidad, formato, tamaño, latencia, versión del sistema, etc…-. Si es generado por humanos, comprenda cómo se generan o ingresan los datos, comprenda quién ingresa los datos y en qué condiciones. Es muy importante entender el contexto en este caso. El mismo escrutinio se aplica al almacenamiento o mantenimiento de datos.
2. Los datos deben estar preparados para el modelado, después de TI
Esto a menudo no es muy bien entendido por gerentes y líderes. Hay 2 grandes situaciones que limitan la visión de los líderes y gerentes con respecto a la preparación de datos:
a) Tener un TI que ejecute y mantenga todas las bases de datos, almacenes de datos, etc.
b) La ‘mentalidad Excel’
Los datos generalmente se han almacenado y preparado para hacer un análisis histórico a nivel agregado, nunca se han preparado para un análisis estadístico desagregado. Lo que significa que cada registro individual, cada característica individual -columna- debe analizarse cuidadosamente, ya que así es como funcionan los modelos de inteligencia artificial.
Por otro lado, pensar que ‘esto se puede hacer fácilmente’ -como probablemente estés pensando en cómo lo harías en Excel- no aplica a grandes cantidades de datos. Excel solo funciona con cantidades muy pequeñas de datos localmente en su computadora. Cuando se desarrolla una solución de datos a gran escala, el escenario es muy diferente.
3. Deja que los datos te hablen, tú escucha primero
Este es posiblemente mi favorito. He visto muy a menudo grandes iniciativas con IA en las que los líderes intentan demostrar “lo que saben” o justificar sus acciones y decisiones mediante el uso de datos [a posteriori], y cuando el proyecto llega a la etapa piloto sucede que los datos son un predictor débil para lo que fue diseñado originalmente.
Mi recomendación es analizar los datos con el objetivo final en mente como la estrella polar, pero ‘escuche’ primero si los datos son capaces de entregar lo que se espera. Quizás descubra que pueden entregar algo más en lo que nunca se pensó.
Conclusiones
Solo para resumir esta sección, los datos son el activo real. Es la base sobre la que se construye la inteligencia artificial. Es fundamental comprender si la base es lo suficientemente sólida como para sustentar una solución de inteligencia artificial sólida y escalable.
Más datos no siempre es mejor, de hecho, es mucho peor si no están curados y carecen de calidad.
Y lo más importante, analice los datos desde una perspectiva estadística y deje que los datos le digan qué es posible y qué no.