Operator de OpenAI, un agente de IA que puede navegar y ejecutar tareas en internet como un ser humano

El modelo procesa datos de los píxeles de la pantalla para comprender lo que sucede en ella y utiliza un ratón y un teclado virtual para completar las acciones de forma autónoma, con acciones como hacer clic, desplazarse o escribir.

Trump deroga la "peligrosa" regulación de Biden sobre IA y convertirá a EEUU en la "capital de las criptomonedas"

Operator, el agente de inteligencia artificial de OpenAI

Un agente de inteligencia artificial que razona, aprende y puede interactuar con lo que muestra una pantalla para navegar por internet y ejecutar tareas de forma autónoma, como lo haría una persona.

Así es Operator, la última innovación de OpenAI, que combina las capacidades del modelo GPT-4o con un razonamiento avanzado a través del aprendizaje y del que ya hay disponible una versión preliminar que pueden probar los usuarios del plan de pago Pro en Estados Unidos.

Como ha explicado la compañía, Operator funciona con un nuevo modelo llamado Computer-Using Agent (CUA) y se basa "en años de investigación en la intersección entre la comprensión y el razonamiento multimodal".

Al combinar la percepción avanzada de la interfaz gráfica de usuario con la resolución de problemas, este CUA es capaz de dividir las tareas para ejecutarlas en varios pasos, adaptarse de forma dinámica cuando surgen cambios inesperados y autocorregirse si ejecuta alguna acción de forma incorrecta.

Cómo funciona Operator

El modelo procesa datos de los píxeles de la pantalla para comprender lo que sucede en ella y utiliza un ratón y un teclado virtual para completar las acciones de forma autónoma, con acciones como hacer clic, desplazarse o escribir.

Así puede desenvolverse de forma humana en una amplia gama de entornos digitales, interactuar con botones, menús y campos de texto (GUI), realizar tareas como complementar formularios o navegar por sitios web sin necesidad de una API (interfaz de programación de aplicaciones especializada.

Seguridad y privacidad

Aunque puede realizar la mayoría de los pasos de forma automática, busca la intervención del usuario para acciones sensibles, como introducir datos de inicios de sesión, formularios CAPTCHA o ejecutar transacciones bancarias.

OpenAI aclara que almacena los chats, el historial de navegación y las capturas de pantalla que realiza Operator para ofrecer su servicio hasta que los eliminen los usuarios, a través de la página de Configuración.

Al eliminar un chat, se borran todas las capturas de pantalla tomadas durante ese chat. Una vez borrada toda esta información, se eliminará de los sistemas de la compañía en un plazo de 90 días.

OpenAI presume de Operator como "el siguiente paso en el desarrollo de la IA: permite que los modelos utilicen las mismas herramientas de las que dependen los humanos a diario y abre la puerta a una amplia gama de nuevas aplicaciones".

Pruebas de su efectividad

Por lo que respecta al modelo CUA, aún se encuentra en una etapa temprana de desarrollo y tiene por tanto limitaciones. Según ha publicado OpenAI, está avalado por WebArena y WebVoyager, con una tasa de éxito del 58,1% en la primera y un 87% en la segunda.

Por otra parte, OpenAI ha señalado que OSWorld, un punto de referencia que evalúa la capacidad de los modelos para controlar sistemas operativos completos, como Ubuntu, Windows y macOS, le ha otorgado una tasa de éxito del 38,1%. No obstante, la compañía ha observado un escalamiento en tiempo de prueba, lo que quiere decir que el rendimiento de modelo mejora cuando debe ejecutar más pasos o acciones.

Seguridad

La compañía dirigida por Sam Altman incide en que CUA se ha desarrollado con la seguridad como máxima prioridad, para abordar los desafíos que plantea el acceso de un agente al mundo real.

Está entrenado para rechazar tareas dañinas y actividades ilegales o irregulares y no puede acceder a sitios web que la propia OpenAI ha bloqueado de forma preventiva (contenidos para adultos o juegos de azar) y es capaz de identificar actividades fraudulentas. Monitoriza la actividad y pausa la ejecución de una acción si detecta contenido sospechoso.

Por el momento, este agente se está implementando a través de una vista previa de investigación a través de operator.chatgpt.com y ya tienen acceso los suscriptores del nivel Pro en Estados Unidos. Próximamente, planea llevarlo a usuarios de Plus, Team y Enterprise, así como integrar sus capacidades en ChatGPT.