Muy a menudo debato con colegas sobre el hecho de que las grandes empresas de tecnología están regalando tanto software de aprendizaje automático y modelos sofisticados de inteligencia artificial como código abierto, poniendo en manos de todos herramientas tan poderosas. La mayoría de mis colegas y compañeros profesionales de datos tienden a dar demasiado valor a los modelos de aprendizaje automático y paquetes de software que pueden usar libremente y sin restricciones para crear sus propias soluciones personalizadas de análisis predictivo o inteligencia artificial. Algunos de ellos suelen pensar en el código como las joyas de la corona que deben protegerse a toda costa.
Esto es cierto para el código de una aplicación específica impulsada por IA (Inteligencia Artificial), pero en el aprendizaje automático, tener acceso a bibliotecas como TensorFlow o PyTorch no lo acerca mucho más a lograr lo que Google o Meta pueden hacer con el aprendizaje automático. Y este es el valor clave de las aplicaciones impulsadas por IA. Un modelo de aprendizaje automático es solo una fórmula matemática desarrollada como una aplicación de software. Todo el mundo sabe sumar, restar, dividir o multiplicar. No todo el mundo sabe sumar fracciones, operar con números irracionales o dividir matrices. Y ésta es la clave de todo: los datos.
Entonces, usar las fórmulas (el modelo de aprendizaje automático), en realidad no es muy relevante. Lo que es realmente valioso es cómo lo usa y sobre qué datos lo aplica. En otras palabras, tus datos de entrenamiento. Los datos de entrenamiento son los datos procesados que se utilizan para desarrollar un modelo de aprendizaje automático.
Lo especial e importante de los datos de entrenamiento es que se han refinado y preparado específicamente para su caso de negocios. Eso significa concretamente que sus datos internos -a menudo combinados con datos externos-, de sus propios sistemas, sobre sus clientes, el mercado, los productos de su empresa, sus campañas de marketing y su información financiera se han utilizado, fusionado, combinado, agregado, fundido, mezclado, limpiado, pulido, preparado, diseñado y mucho más…, por muchos de los miembros de su equipo.
Estos datos son verdaderamente únicos y proporcionan mucha información sobre su negocio. Esto es lo que hace que el modelo de aprendizaje automático funcione y agregue valor a su aplicación impulsada por IA.
¿Significa que el desarrollo de una aplicación o producto impulsado por IA no es seguro? Hay algunas formas en que los actores maliciosos podrían dañar potencialmente a una empresa en función de cómo se publican los materiales de ML, siendo la amenaza más preocupante ‘si mi competencia puede copiar esta nueva aplicación, como una aplicación de teléfono o web impulsada por IA, y aprovechar lo que que se ha hecho para diferenciarse en el mercado.
Es cierto que acceder al modelo que se ha construido y personalizado da miedo, y de alguna manera, haciendo algo de ingeniería inversa es posible averiguar el tipo de modelo y cómo se construyó.
También es posible inspeccionar el resultado final del proceso de ingeniería del producto; sin embargo, tratar de hacer algo útil con él es remotamente posible. En esencia, diseccionar un código de aprendizaje automático no lo ayudará a reproducir resultados. Conocer la arquitectura del modelo es útil, pero la mayoría de las arquitecturas difieren entre sí de manera incremental y solo son útiles y eficientes dentro de un caso de uso específico.
Recomendaciones
En cualquier caso, si el modelo sigue siendo una preocupación, es posible cifrarlo, por lo que está protegido.
El componente clave a proteger son los datos de entrenamiento. Esto es lo que hace que el modelo sea único y factible para su caso de negocio, y dejar características abiertas fáciles de entender o de adivinar para cualquier tercero proporciona mucha información sobre cómo se diseñó su modelo y, por lo tanto, su solución.
Se recomienda encarecidamente que los datos de entrenamiento estén bien enmascarados y rediseñados para ocultar los atributos con los que se entrenó el modelo y también crear entradas falsas.