Consiguen que los chatbots de IA respondan a preguntas poco éticas con un método muy simple

La innovación alcanza nuevos horizontes en el campo de la inteligencia artificial con el logro de conseguir que los chatbots de IA respondan a preguntas poco éticas de manera sorprendentemente eficaz, todo ello gracias a un método muy simple. Esta noticia representa un avance significativo en la interacción entre humanos y sistemas automatizados, ya que se ha logrado dotar a los chatbots de la capacidad de abordar cuestiones delicadas con precisión y sensibilidad.

Vulnerabilidad en chatbots de IA permite responder a preguntas poco éticas

¿Es posible hacer que una IA responda a algo que no se debe responder? Esto se han preguntado varios investigadores de Anthropic, que han descubierto una vulnerabilidad en un gran modelo de lenguaje (LLM) que permite que te conteste a cualquier cosa, como construir una bomba, por ejemplo, si lo preparas con antelación.

Se trata de una técnica a la que han denominado como many-shot jailbreaking que consigue saltarse los códigos éticos con los que han sido entrenados estos chatbots.

¿Cómo lo hacen? Pues gracias al aumento de la ventana de contexto de la última generación de LLMs. Este término responde a lo que puede retener un chatbot a corto plazo. Antes eran solo unas oraciones, pero ahora son miles de palabras o incluso libros enteros.

La investigación de Anthropic ha descubierto que estos modelos con grandes ventanas de contexto, pueden desempeñarse mejor en muchas tareas si hay muchos ejemplos de esa tarea dentro de la solicitud y pueden mejorar con el tiempo.

Es decir, si responde mal la primera pregunta, puede responder correctamente mucho más tarde a la misma petición.

¿El problema de todo esto? Que son modelos que también mejoran en responder a preguntas inapropiadas. Por ejemplo, si le pides que te diga cómo fabricar una bomba, se negará en la primera pregunta, pero si le pides que responda 99 preguntas más leves, es probable que en el siguiente intento te muestre cómo hacerlo.

¿Esto por qué funciona? No hay una respuesta clara, pero lo lógico es pensar que existe algún mecanismo interno que le permite enfocarse en lo que el usuario desea. Ya sea con preguntas triviales o preguntas poco éticas.

El equipo de Anthropic ya ha informado a la comunidad de IA para que este error pueda ser mitigado y espera que esto fomente una cultura donde exploits como este sean compartidos abiertamente entre proveedores e investigadores de LLM, tal y como apuntan desde TechCrunch.

En su investigación, descubrieron que para mitigar el problema valía con limitar la ventana de contexto, pero es algo que tiene un efecto secundario: reduce el rendimiento del modelo. Eso no se puede permitir, así que están trabajando en clasificar y contextualizar las consultas antes de que lleguen.

Juan Marín

Soy Juan, redactor jefe con amplia experiencia en el mundo de la tecnología. En Digital Soft, un periódico independiente de actualidad sobre tecnología y PCs, me encargo de garantizar que cada noticia sea presentada con la máxima rigurosidad y objetividad. Mi pasión por la innovación y mi dedicación a mantenerme al día con las últimas tendencias en el mundo digital me permiten ofrecer a nuestros lectores información precisa y de calidad. En Digital Soft, nuestro compromiso es informar con transparencia y profesionalismo para que nuestros lectores estén siempre al tanto de las novedades tecnológicas más relevantes.

Deja una respuesta Cancelar la respuesta