Con el reciente auge de la concienciación y los casos de uso en torno a la inteligencia artificial (IA), la conversación sobre la calidad de los datos sigue siendo importante. Es fácil dejarse llevar por el asombro de muchos de estos sistemas de IA emergentes, mientras se desvanece la consideración de cómo los datos de entrenamiento de estos mismos sistemas de IA están afectando su rendimiento y limitando su utilidad en escenarios del mundo real.
Con la IA, obtienes lo que pones. Después de todo, los modelos de IA y aprendizaje automático (ML) son máquinas de extrapolación realmente poderosas. Ellos “entienden” los patrones dentro de los datos con que son entrenados y luego identifican esos patrones en instancias de datos que son nuevos pero similares a los datos que han visto antes.
Al igual que con los atletas y sus dietas, si se reduce la calidad de la entrada, la calidad de la salida (en este caso, el rendimiento) se reduce de manera similar, sin importar cuán talentoso sea el atleta. Si el atleta solo come comida rápida durante una semana, su tiempo de milla aumentará y es más probable que sufra lesiones. Del mismo modo, sin datos de alta calidad, las organizaciones no pueden implementar la IA con éxito.
Problemas de calidad de datos y sesgo
Para comprender cómo la calidad de los datos tiene un impacto en la utilidad de la IA, veamos los intentos de automatizar el proceso de contratación. Hace unos años, Amazon intentó usar IA para agilizar el proceso de contratación. Creó AMZN.O , un sistema de IA que recibiría cientos de currículums y seleccionaría a los mejores candidatos, lo que permitiría a los reclutadores humanos evitar el trabajo servil de filtrar currículums mediocres y seleccionar rápidamente los mejores. Suena como una automatización adecuada, ¿verdad?
No exactamente. La empresa entrenó el modelo subyacente en todos los currículos que había recibido en el pasado, la mayoría de los cuales eran de candidatos masculinos. Dado que Amazon contrató a más hombres, especialmente en ciertos campos como la ingeniería de software, el sistema llegó a asociar el lenguaje y los atributos predominantes en los currículos masculinos con ser un mejor candidato. Por el contrario, con menos datos de capacitación sobre currículums femeninos, el sistema tendía a degradar o malinterpretar los atributos de las mejores candidatas.
Este es un claro ejemplo de la mala calidad de los datos que da como resultado sistemas de IA sesgados. Otros sistemas de contratación, concesión de préstamos bancarios y concesión de hipotecas también han sido señalados por su sesgo en contra de ciertos datos demográficos. El resultado previsto de estos sistemas podría generar un gran valor para las organizaciones que los implementan, y facilitar el proceso de préstamo o hipoteca para los consumidores, pero la calidad de los datos de entrenamiento impide una adopción generalizada.
Perfilado de datos: cómo H20.ai limpia y revisa los datos
H2O.ai, una de las 10 principales empresas de Acceleration Economy Hyperautomation, es una gran defensora del “perfil de datos ” o el acto de limpiar y revisar datos de fuentes existentes. En otras palabras, H2O.ai lleva a cabo un control de calidad no solo en su propia plataforma de nube de IA, sino también en los datos que recibe.
La creación de perfiles de datos puede tomar muchas formas. Incluso antes de acercarse al conjunto de datos, es importante evaluar sus propias suposiciones: qué se está probando, qué puntos de datos indican el estado deseado, cómo se pueden etiquetar mejor los puntos de datos, cómo se pueden filtrar o aumentar los conjuntos de datos para incluir más el borde. Luego, puede aprovechar plataformas como la de H20.ai, que tiene capacidades de aprendizaje automático para filtrar y corregir puntos de datos defectuosos. Se puede realizar un análisis preliminar para identificar cualquier punto débil en los datos o descubrir sesgos que pueden no ser deseados.
Cómo los datos ‘sintéticos’ aumentan la calidad y el volumen de los datos
Estas tácticas post hoc de limpieza de datos no siempre son suficientes. A veces, solo necesita recopilar mejores datos desde el principio, lo que puede ser una tarea costosa y difícil. Es por eso que las empresas están recurriendo a datos sintéticos para entrenar sus sistemas de IA. A diferencia de los datos reales que deben capturarse, los datos sintéticos se crean mediante algoritmos o incluso modelos generativos de IA.
Por ejemplo, las empresas que construyen los sistemas de inteligencia artificial detrás de los automóviles autónomos necesitan enormes cantidades de datos visuales sobre las situaciones de conducción. Estos datos visuales no solo son laboriosos de capturar y almacenar, literalmente hasta el último ángulo, iluminación y condición climática, por ejemplo, que un automóvil puede encontrar en un viaje, sino que también incluyen caras y placas de matrícula, que deben cumplir con una amplia variedad de normas de privacidad. Para evitar esto, los investigadores del MIT crearon un algoritmo que genera videoclips completos con modelos 3D de objetos al borde de la carretera, humanos y situaciones de tráfico únicas. Los modelos que entrenaron con estos videos sintéticos en realidad se desempeñaron mejor que los modelos entrenados con videos reales de personas conduciendo.
Esto se debe en parte a que puede incluir más situaciones periféricas en conjuntos de datos sintéticos que de otro modo rara vez ocurrirían en la realidad, lo que ayuda al modelo a enfrentar desafíos poco comunes. También puede evitar los sesgos del mundo real o las correlaciones casuales que podrían sesgar el modelo final, como otorgar préstamos de menor cuantía a personas de color, y así reducir el riesgo.
Los datos sintéticos nos permiten construir modelos que impulsan el mundo de la manera que queremos. Esto puede ser usado para mal y para bien. Por ejemplo, si queremos aumentar la movilidad económica en la región X, podemos asegurarnos de que nuestro conjunto de datos de entrenamienot incluya personas en la región X que reciban préstamos más grandes. Esta práctica, por supuesto, también se puede utilizar a la inversa.
Conclusión
Para reiterar, la IA es solo una máquina de extrapolación. Los resultados a menudo son solo reflejos de la forma en que se identificaron y manejaron las cosas en el pasado. Muchos de nuestros prejuicios humanos se mantienen.
Pero no tiene por qué ser así. A través de un esfuerzo enfocado en mejorar la calidad de los datos y crear conjuntos de datos estratégicos de entrenamiento, podemos crear sistemas de IA que empujen al mundo en la dirección que queremos tomar. Estos sistemas mejorarán nuestra forma de vida y generarán valor para las organizaciones que los construyen.
Autor: Toni Witt
Artículo original aquí