Tecnología

Investigadores advierten: IA de OpenAI podría manipularte

Por: Missael Nava

CDMX

09-12-2024

Compartir en facebook Compartir en twitter Compartir en link

Un estudio reciente ha revelado que el nuevo modelo de inteligencia artificial de OpenAI, conocido como o1, podría tener la capacidad de engañar intencionalmente a los usuarios y actuar en contra de las indicaciones explícitas. Estas conclusiones han generado preocupación tanto entre los supervisores de riesgo de OpenAI como en un equipo independiente de la firma de seguridad Apollo Research, quienes señalaron que el modelo podría estar persiguiendo objetivos propios.

El algoritmo detrás de OpenAI o1 destaca por sus capacidades de razonamiento avanzadas. Sin embargo, según los informes, este nivel de sofisticación ha dado lugar a comportamientos inesperados, incluyendo la alteración de información para favorecer sus intereses. Durante las pruebas preliminares, el modelo contradijo las instrucciones del usuario en un 19% de los casos y llegó a intentar desactivar los mecanismos de supervisión en un 5% de las ocasiones. Estas cifras superan significativamente las observadas en otros modelos de inteligencia artificial, como los de Google, Meta y Anthropic.

Uno de los hallazgos más preocupantes del estudio es que OpenAI o1 es un 20% más manipulador que su predecesor, GPT-4o. Según Apollo Research, el modelo demuestra patrones consistentes de comportamiento engañoso, llegando incluso a ocultar su razonamiento interno al usuario. "En nuestra suite, o1 destacó por presentar los casos más preocupantes de intrigas y manipulación", indicó la firma de seguridad.

Actualmente, más de 200 millones de usuarios activos utilizan ChatGPT semanalmente. Este número representa una duplicación respecto a los 100 millones de usuarios alcanzados en noviembre de 2023, apenas un año después de su lanzamiento en noviembre de 2022

Aunque OpenAI asegura que solo el 0.17% de las respuestas generadas por o1 son falsas, este margen ha sido suficiente para despertar inquietudes. En situaciones donde se le confrontó directamente sobre su comportamiento, la IA negó consistentemente las acusaciones y construyó respuestas ilusorias en un 99% de los casos. Esto plantea interrogantes sobre la capacidad de los usuarios para detectar y corregir los errores del sistema.

Según OpenAI, la tendencia del modelo a generar información errónea de manera intencional podría deberse a una técnica de entrenamiento basada en recompensas, diseñada para maximizar la satisfacción del usuario. Sin embargo, este enfoque parece estar produciendo efectos secundarios indeseados, como la manipulación y el engaño deliberado.

El principal temor entre los expertos radica en la posibilidad de que una IA con capacidades avanzadas, como OpenAI o1, pueda evadir el control humano y actuar de manera autónoma si logra desarrollar habilidades de planificación y acceso a recursos. Aunque los investigadores aclaran que actualmente el modelo está lejos de alcanzar este nivel de autonomía, consideran urgente reforzar las regulaciones para mitigar riesgos potenciales.

Apollo Research subraya que los protocolos de contención actuales no están diseñados para medir ni responder adecuadamente a estos riesgos. "Creemos que, aunque es poco probable que estos casos deriven en resultados catastróficos a corto plazo, las medidas preventivas deben fortalecerse para evitar escenarios adversos", expone el informe

El historial de OpenAI en torno a la seguridad de sus modelos también ha sido cuestionado. Anteriormente, la empresa enfrentó acusaciones de omitir mecanismos de seguridad durante los procesos de desarrollo y comercialización de sus tecnologías. Además, se ha señalado su oposición a ciertas regulaciones de IA en favor de políticas corporativas. Según OpenSecrets, OpenAI destinó 800 mil dólares en acciones de cabildeo durante el primer semestre de 2024 para influir en legislaciones federales relacionadas con el desarrollo tecnológico.

En respuesta a las preocupaciones generadas por o1, OpenAI ha asegurado que está implementando nuevos mecanismos de monitoreo en la "cadena de pensamiento" del modelo. Estos sistemas buscan identificar y corregir las instancias en las que la IA genera información errónea de manera intencional.

Investigadores advierten: IA de OpenAI podría manipularte

Noticias Similares

Noticias Destacadas

Más de Meganoticias