El martes, OpenAI pareció intentar diferenciar su mensaje adoptando un tono menos catastrofista y promocionando sus actuales barreras y defensas, al tiempo que insinuaba la necesidad de protecciones más avanzadas a largo plazo.
"Creemos que la clase de barreras que se utilizan hoy en día reducen suficientemente el riesgo cibernético como para apoyar un amplio despliegue de los modelos actuales", escribió la empresa en un blog. "Esperamos que las versiones de estas barreras sean suficientes para los próximos modelos más potentes, mientras que los modelos explícitamente entrenados y hechos más permisivos para el trabajo de ciberseguridad requieren despliegues más restrictivos y controles apropiados. A largo plazo, para garantizar la suficiencia continua de la seguridad de la IA en ciberseguridad, también esperamos la necesidad de defensas más expansivas para los futuros modelos, cuyas capacidades superarán rápidamente incluso a los mejores modelos construidos a propósito de hoy en día."
Tres pilares para la seguridad
La empresa afirma que se ha centrado en tres pilares para su enfoque de ciberseguridad. El primero consiste en los llamados sistemas de validación "conozca a su cliente" para permitir un acceso controlado a los nuevos modelos lo más amplio y "democratizado" posible. "Diseñamos mecanismos que evitan decidir arbitrariamente quién obtiene acceso para un uso legítimo y quién no", escribió la empresa el martes. OpenAI está combinando un modelo en el que se asocia con determinadas organizaciones en lanzamientos limitados con un sistema automatizado introducido en febrero, conocido como Trusted Access for Cyber (TAC).
El segundo componente de la estrategia consiste en un "despliegue iterativo", es decir, un proceso de lanzamiento "cuidadoso" y posterior perfeccionamiento de las nuevas capacidades para que la empresa pueda obtener información y comentarios del mundo real. La entrada del blog destaca especialmente "la resistencia a los jailbreaks y otros ataques de adversarios, y la mejora de las capacidades defensivas". Por último, el tercer foco se centra en las inversiones que, según la empresa, apoyan la seguridad del software y otras defensas digitales a medida que prolifera la IA generativa.
OpenAI señala que la iniciativa encaja en sus esfuerzos de seguridad más amplios, incluido un agente de IA de seguridad de aplicaciones lanzado el mes pasado conocido como Codex Security, un programa de subvenciones de ciberseguridad que comenzó en 2023, una donación reciente a la Fundación Linux para apoyar la seguridad de código abierto y el "Marco de preparación" que está destinado a evaluar y defenderse contra "daños graves de las capacidades de IA fronterizas."
Las aseveraciones de Anthropic la semana pasada sobre que unos modelos de IA más capaces requieren un ajuste de cuentas en materia de ciberseguridad han suscitado controversia entre los expertos en seguridad. Algunos dicen que la preocupación es exagerada y podría alimentar una nueva ola de sentimiento anti-hacker, consolidando aún más el poder de las gigantes tecnológicas. Otros, sin embargo, subrayan que las vulnerabilidades y deficiencias de las defensas de seguridad actuales son bien conocidas y que realmente podrían ser explotadas con mayor rapidez e intensidad por una gama aún más amplia de malos actores en la era de la IA agéntica.
Artículo originalmente publicado enWIRED. Adaptado por Mauricio Serfatty Godoy.