Cloud Wars
  • Home
  • Top 10
  • CW Minute
  • CW Podcast
  • Categories
    • AI and Copilots
    • Innovation & Leadership
    • Cybersecurity
    • Data
  • Member Resources
    • Cloud Wars AI Agent
    • Digital Summits
    • Guidebooks
    • Reports
  • About Us
    • Our Story
    • Tech Analysts
    • Marketing Services
  • Summit NA
  • Dynamics Communities
  • Ask Copilot
Twitter Instagram
  • Summit NA
  • Dynamics Communities
  • AI Copilot Summit NA
  • Ask Cloud Wars
Twitter LinkedIn
Cloud Wars
  • Home
  • Top 10
  • CW Minute
  • CW Podcast
  • Categories
    • AI and CopilotsWelcome to the Acceleration Economy AI Index, a weekly segment where we cover the most important recent news in AI innovation, funding, and solutions in under 10 minutes. Our goal is to get you up to speed – the same speed AI innovation is taking place nowadays – and prepare you for that upcoming customer call, board meeting, or conversation with your colleague.
    • Innovation & Leadership
    • CybersecurityThe practice of defending computers, servers, mobile devices, electronic systems, networks, and data from malicious attacks.
    • Data
  • Member Resources
    • Cloud Wars AI Agent
    • Digital Summits
    • Guidebooks
    • Reports
  • About Us
    • Our Story
    • Tech Analysts
    • Marketing Services
    • Login / Register
Cloud Wars
    • Login / Register
Home » Cómo los datos de calidad y los datos ‘sintéticos’ generados por máquinas mejoran el rendimiento de la IA
Acceleration Economy En Español

Cómo los datos de calidad y los datos ‘sintéticos’ generados por máquinas mejoran el rendimiento de la IA

Pablo MorenoBy Pablo MorenoMarch 14, 2023Updated:March 24, 20236 Mins Read
Facebook Twitter LinkedIn Email
AI Data quality
Share
Facebook Twitter LinkedIn Email

Con el reciente auge de la concienciación y los casos de uso en torno a la inteligencia artificial (IA), la conversación sobre la calidad de los datos sigue siendo importante. Es fácil dejarse llevar por el asombro de muchos de estos sistemas de IA emergentes, mientras se desvanece la consideración de cómo los datos de entrenamiento de estos mismos sistemas de IA están afectando su rendimiento y limitando su utilidad en escenarios del mundo real.

Con la IA, obtienes lo que pones. Después de todo, los modelos de IA y aprendizaje automático (ML) son máquinas de extrapolación realmente poderosas. Ellos “entienden” los patrones dentro de los datos con que son entrenados y luego identifican esos patrones en instancias de datos que son nuevos pero similares a los datos que han visto antes.

Al igual que con los atletas y sus dietas, si se reduce la calidad de la entrada, la calidad de la salida (en este caso, el rendimiento) se reduce de manera similar, sin importar cuán talentoso sea el atleta. Si el atleta solo come comida rápida durante una semana, su tiempo de milla aumentará y es más probable que sufra lesiones. Del mismo modo, sin datos de alta calidad, las organizaciones no pueden implementar la IA con éxito.

Problemas de calidad de datos y sesgo

Para comprender cómo la calidad de los datos tiene un impacto en la utilidad de la IA, veamos los intentos de automatizar el proceso de contratación. Hace unos años, Amazon intentó usar IA para agilizar el proceso de contratación. Creó AMZN.O , un sistema de IA que recibiría cientos de currículums y seleccionaría a los mejores candidatos, lo que permitiría a los reclutadores humanos evitar el trabajo servil de filtrar currículums mediocres y seleccionar rápidamente los mejores. Suena como una automatización adecuada, ¿verdad?

No exactamente. La empresa entrenó el modelo subyacente en todos los currículos que había recibido en el pasado, la mayoría de los cuales eran de candidatos masculinos. Dado que Amazon contrató a más hombres, especialmente en ciertos campos como la ingeniería de software, el sistema llegó a asociar el lenguaje y los atributos predominantes en los currículos masculinos con ser un mejor candidato. Por el contrario, con menos datos de capacitación sobre currículums femeninos, el sistema tendía a degradar o malinterpretar los atributos de las mejores candidatas. 

Top 10 preseleccionados de IA / hiperautomatización

Este es un claro ejemplo de la mala calidad de los datos que da como resultado sistemas de IA sesgados. Otros sistemas de contratación, concesión de préstamos bancarios y concesión de hipotecas también han sido señalados por su sesgo en contra de ciertos datos demográficos. El resultado previsto de estos sistemas podría generar un gran valor para las organizaciones que los implementan, y facilitar el proceso de préstamo o hipoteca para los consumidores, pero la calidad de los datos de entrenamiento impide una adopción generalizada. 

Perfilado de datos: cómo H20.ai limpia y revisa los datos

H2O.ai, una de las 10 principales empresas de Acceleration Economy Hyperautomation, es una gran defensora del “perfil de datos ” o el acto de limpiar y revisar datos de fuentes existentes. En otras palabras, H2O.ai lleva a cabo un control de calidad no solo en su propia plataforma de nube de IA, sino también en los datos que recibe.

La creación de perfiles de datos puede tomar muchas formas. Incluso antes de acercarse al conjunto de datos, es importante evaluar sus propias suposiciones: qué se está probando, qué puntos de datos indican el estado deseado, cómo se pueden etiquetar mejor los puntos de datos, cómo se pueden filtrar o aumentar los conjuntos de datos para incluir más el borde. Luego, puede aprovechar plataformas como la de H20.ai, que tiene capacidades de aprendizaje automático para filtrar y corregir puntos de datos defectuosos. Se puede realizar un análisis preliminar para identificar cualquier punto débil en los datos o descubrir sesgos que pueden no ser deseados.

Cómo los datos ‘sintéticos’ aumentan la calidad y el volumen de los datos

Estas tácticas post hoc de limpieza de datos no siempre son suficientes. A veces, solo necesita recopilar mejores datos desde el principio, lo que puede ser una tarea costosa y difícil. Es por eso que las empresas están recurriendo a datos sintéticos para entrenar sus sistemas de IA. A diferencia de los datos reales que deben capturarse, los datos sintéticos se crean mediante algoritmos o incluso modelos generativos de IA. 

Por ejemplo, las empresas que construyen los sistemas de inteligencia artificial detrás de los automóviles autónomos necesitan enormes cantidades de datos visuales sobre las situaciones de conducción. Estos datos visuales no solo son laboriosos de capturar y almacenar, literalmente hasta el último ángulo, iluminación y condición climática, por ejemplo, que un automóvil puede encontrar en un viaje, sino que también incluyen caras y placas de matrícula, que deben cumplir con una amplia variedad de normas de privacidad. Para evitar esto, los investigadores del MIT crearon un algoritmo que genera videoclips completos con modelos 3D de objetos al borde de la carretera, humanos y situaciones de tráfico únicas. Los modelos que entrenaron con estos videos sintéticos en realidad se desempeñaron mejor que los modelos entrenados con videos reales de personas conduciendo. 

Esto se debe en parte a que puede incluir más situaciones periféricas en conjuntos de datos sintéticos que de otro modo rara vez ocurrirían en la realidad, lo que ayuda al modelo a enfrentar desafíos poco comunes. También puede evitar los sesgos del mundo real o las correlaciones casuales que podrían sesgar el modelo final, como otorgar préstamos de menor cuantía a personas de color, y así reducir el riesgo. 

Los datos sintéticos nos permiten construir modelos que impulsan el mundo de la manera que queremos. Esto puede ser usado para mal y para bien. Por ejemplo, si queremos aumentar la movilidad económica en la región X, podemos asegurarnos de que nuestro conjunto de datos de entrenamienot incluya personas en la región X que reciban préstamos más grandes. Esta práctica, por supuesto, también se puede utilizar a la inversa. 

Guía: Información sobre el por qué y el cómo de la IA y el impacto de la hiperautomatización

Conclusión

Para reiterar, la IA es solo una máquina de extrapolación. Los resultados a menudo son solo reflejos de la forma en que se identificaron y manejaron las cosas en el pasado. Muchos de nuestros prejuicios humanos se mantienen. 

Pero no tiene por qué ser así. A través de un esfuerzo enfocado en mejorar la calidad de los datos y crear conjuntos de datos estratégicos de entrenamiento, podemos crear sistemas de IA que empujen al mundo en la dirección que queremos tomar. Estos sistemas mejorarán nuestra forma de vida y generarán valor para las organizaciones que los construyen. 

Autor: Toni Witt

Artículo original aquí

En Español
Share. Facebook Twitter LinkedIn Email
Pablo Moreno
  • Website
  • LinkedIn

Business Data Scientist and Project Manager (Waterfall & Agile) with experience in Business Intelligence, Robotics Process Automation, Artificial Intelligence, Advanced Analytics and Machine Learning in multiple business fields, gained within global business environment over the last 20 years. University Professor of ML and AI, International speaker and Author. Active supporter of Open-Source software development. Looking to grow with the next challenge.

Related Posts

Streamlining Manufacturing Communication: Microsoft Teams & Copilot Lead the Evolution

April 17, 2024
automated vulnerability dection

Cómo la detección automatizada de vulnerabilidades mitiga el fraude y fortalece los sistemas financieros

April 6, 2023

Cómo crear nuevos ahorros en adquisiciones utilizando IA y RPA para agilizar las compras

April 5, 2023
Celonis government

Cómo Celonis brinda beneficios de minería de procesos a instituciones gubernamentales

April 4, 2023
Add A Comment

Comments are closed.

Recent Posts
  • Microsoft, Gong Detail How AI and Integration Partnership Drives Higher Sales Performance
  • AI Industrialization of America Rolls On as AWS Plans Data Centers in Coal Country
  • Snowflake to Acquire Crunchy Data to Power Agentic AI with PostgreSQL Integration
  • AWS Data Centers Opening in Coal Country: ‘AI-Industrialization’
  • Larry Ellison Declares Oracle Will Be #1 in Cloud Databases, Apps, and AI Data Centers

  • Ask Cloud Wars AI Agent
  • Tech Guidebooks
  • Industry Reports
  • Newsletters

Join Today

Most Popular Guidebooks

Accelerating GenAI Impact: From POC to Production Success

November 1, 2024

ExFlow from SignUp Software: Streamlining Dynamics 365 Finance & Operations and Business Central with AP Automation

September 10, 2024

Delivering on the Promise of Multicloud | How to Realize Multicloud’s Full Potential While Addressing Challenges

July 19, 2024

Zero Trust Network Access | A CISO Guidebook

February 1, 2024

Advertisement
Cloud Wars
Twitter LinkedIn
  • Home
  • About Us
  • Privacy Policy
  • Get In Touch
  • Marketing Services
  • Do not sell my information
© 2025 Cloud Wars.

Type above and press Enter to search. Press Esc to cancel.

  • Login
Forgot Password?
Lost your password? Please enter your username or email address. You will receive a link to create a new password via email.