La inteligencia artificial (IA) ha estado “casi lista para el horario de máxima audiencia” durante al menos 50 años. Finalmente, las predicciones pueden hacerse realidad con la llegada de la IA generativa, que combina enormes cantidades de datos con gran potencia de procesamiento, disponible por primera vez a un precio asequible, y que se utiliza para entrenar los modelos de IA.
A medida que la IA generativa, representada por ChatGPT, se vuelve práctica y asequible, los líderes tecnológicos y empresariales deben comprender cómo la IA afecta los datos y las estrategias de seguridad. Eso comienza con el concepto de entrenamiento del modelo. En este contexto, “capacitar” significa exponer la herramienta de IA, bajo la dirección de “ingenieros del conocimiento”, a grandes cantidades de datos que enseñan a la herramienta a cómo llegar a conclusiones a partir de ese tesoro de datos.
Cuando menciono “grandes cantidades de datos”, es posible que se pregunte, ¿exactamente cuánto es eso? Según OpenAI, la empresa detrás de ChatGPT, éste se entrenó con 570 GB de datos, lo que equivale a 300,000 millones de palabras y 175,000 millones de parámetros. No sé acerca de su marco de referencia, pero eso es una gran cantidad de datos para mí.
Como líder empresarial, debe tener al menos tres preocupaciones con respecto a los datos de entrenamiento en relación con su estrategia de datos:
- ¿Los datos de entrenamiento introdujeron algún tipo de sesgo, deliberado o inconsciente, en el modelo?
- ¿Los datos eran relevantes para los requisitos específicos de su negocio y la industria en la que compite?
- ¿Se incluyó inadvertidamente (o deliberadamente) alguno de sus datos patentados o confidenciales en el conjunto de datos de entrenamiento?
En este análisis, profundizaré en esas preocupaciones y proporcionaré recomendaciones específicas sobre cómo los CXO pueden abordarlas.
Sesgo y vergüenza potencial
El sesgo -un punto de vista sesgado- ha sido un punto de fricción en muchas implementaciones de IA. Nadie quiere sufrir la vergüenza que sufrió Microsoft con “Tay”, una versión anterior de la IA conversacional empresarial. Como estaba bien documentado, los usuarios maliciosos proporcionaron a Tay suficiente información sesgada que rápidamente se convirtió en “inflamatoria”, por decir lo menos, en sus respuestas.
El sesgo puede ser manifiesto, como sucedió con Tay, o inconsciente, causado por lagunas en la información de entrenamiento proporcionada. Por ejemplo, parece que ChatGPT fue entrenado utilizando materiales escritos de Internet. ¿Podría esa estrategia haber introducido sesgo porque no incluía materiales de palabras habladas? Tal vez. Los futuros sistemas de IA se entrenarán con conjuntos de datos mucho más extensos y diversos, lo que debería ayudar a reducir el riesgo de sesgo.
Recomendación para su estrategia de datos : incluso con modelos futuros de IA más grandes, su director de datos y director digital deben validar su IA elegida para garantizar que esté libre de sesgos y la vergüenza o errores que pueden ocasionar.
Relevancia para su negocio o industria
La pregunta clave en el contexto de la “relevancia” de la IA es la siguiente: ¿el modelo de IA se relaciona específicamente con su negocio e industria -a lo que llamaré su dominio- para que brinde valor a su organización?
La mayoría de los modelos comerciales de IA comienzan con un conjunto sustancial de datos de entrenamiento, pero hasta ahora, la mayoría están repletos de conocimiento general. Las organizaciones necesitan un modelo “vacío” que puedan entrenar con sus datos o una IA de conocimiento general que permita agregar datos de entrenamiento específicos de la organización. De esta manera, las preguntas específicas del dominio se pueden responder correctamente.
Por ejemplo, las empresas de seguros y los abogados contratan empresas de ingeniería forense para determinar por qué se derrumbó una estructura y si la estructura se construyó de acuerdo con todos los códigos de construcción locales, regionales y nacionales aplicables. Hoy en día, dicho análisis lo realizan ingenieros altamente capacitados y experimentados que visitan el sitio para inspeccionar, tomar fotografías y mediciones, y adquirir muestras para análisis de laboratorio. Los ingenieros también examinan planos y dibujos, e investigan numerosos códigos de construcción y “mejores prácticas” para ese tipo de estructura construida en ese sitio y en ese momento en particular.
Imagine un modelo de IA “entrenado” con todos los códigos de construcción y las mejores prácticas a lo largo del tiempo, además de fotos, videos y mediciones de estructuras colapsadas frente a estructuras intactas. El modelo de IA incluso podría entrenarse para solicitar imágenes, medidas y resultados de pruebas específicos (o recibir el comando de un dron para recopilar sus propios datos en el sitio), luego emitir hallazgos relevantes para resolver reclamos de seguros e incluso demandas. Los conjuntos de datos de entrenamiento para una IA de ingeniería forense de este tipo serían, por supuesto, altamente especializados y extremadamente útiles.
Ahora, reconsideremos la cuestión del “sesgo” en lo que se refiere al entrenamiento de un modelo de IA. Si está entrenando un modelo específico de la organización, es posible que desee incluir un sesgo deliberado para generar respuestas que favorezcan a su organización. Por ejemplo, si su producto es de mayor calidad pero más caro que sus competidores, puede entrenar el modelo de IA para que el costo no sea tan significativo como la calidad. O tal vez quiera ser conocido por ofrecer respuestas imparciales que informen a los clientes potenciales o actuales, incluso si hacen que sus productos se vean inferiores a los demás (piense en las compañías de seguros que comparan tarifas y, a veces, le muestran a un cliente potencial que un competidor es una mejor opción para eso).
Recomendación para su estrategia de datos : considere su cultura y sus datos: el CMO y quizás el director general y la junta, además del director de datos, deben impulsar esta discusión.
El riesgo de seguridad de fuga de datos
Finalmente, consideremos el riesgo de “fuga de datos” cuando se trata de modelos de IA. Obviamente, la protección de datos es un elemento central de la estrategia de datos. La divulgación inadvertida de información patentada o el robo deliberado de dicha información ha sido un problema desde que comenzamos a llevar registros en una tablilla de arcilla.
En lo que respecta a los modelos de IA, hay una pregunta clave que los CXO deben poder responder: ¿Se filtró algún dato organizacional patentado y se incorporó a un modelo público?, o algún creador de modelos de IA, tal vez de un rival comercial, robó datos patentados y ¿Lo incluyó en un modelo público o en un modelo de la competencia?
Los modelos de IA conectados a Internet aumentan significativamente el riesgo de tales eventos. Primero, porque los modelos de IA nunca olvidan nada: todo lo que ingieren está disponible según sea necesario. En segundo lugar, debido a que la IA es excelente para identificar patrones y relaciones de datos ocultos para un ser humano, incluso los hechos aparentemente triviales pueden impulsar decisiones que perjudiquen a su organización. En tercer lugar, el acceso a Internet significa que las personas de todo el mundo pueden tener acceso a información que anteriormente solo existía en una copia impresa en el maletín de un malhechor.
Recomendación para su estrategia de datos: Involucre al CISO, los directores de datos y los “custodios de la información” (asesores generales, jefes de auditoría interna y cumplimiento) en un proyecto para evaluar y reforzar, según sea necesario, la protección de la información (o protección de la propiedad intelectual) y de los múltiples programas.
Conclusión
Los modelos de IA de hoy consumen enormes conjuntos de datos con fines de capacitación, y las herramientas futuras apuntan a consumir “todo el conocimiento humano”. Dada la potencia de las herramientas de IA generativa actuales y los productos mucho más potentes que se están diseñando y visualizando, es vital que su estrategia de datos incorpore un mayor grado de seguridad de datos.
Hasta este punto, podría haber estado bien tener una estrategia de datos supervisada por un director de datos, junto con una estrategia de seguridad supervisada por un CISO. Pero de hoy en adelante, las organizaciones necesitan una estrategia combinada de “datos + seguridad”. Ahora es el momento de comprender la estrategia de datos y las implicaciones de seguridad de las poderosas herramientas de IA generativa y asegurarse de que está protegiendo a su organización del sesgo de datos, la irrelevancia y la fuga de Propiedad Intelectual.
Autor: Wayne Sadin
Artículo original aquí