Científicos entrenan IA para ser maliciosa y luego descubren que no pueden revertir el proceso.

Estado
Cerrado para nuevas respuestas.

anbudenka

Usuario Avanzado nvl. 4 ★ ★
11 Jun 2015
7.619
31.026
262
Santiago
Una destacada empresa en el ámbito de la inteligencia artificial ha puesto al descubierto el lado oscuro de esta tecnología: una vez que se entrena con intenciones maliciosas, revertir el proceso se vuelve complicado, llegando incluso a que la propia IA oculte su malevolencia a los seres humanos.

evil-ai.jpg

Las personas cuentan todo tipo de mentiras para obtener lo que quieren. Y a medida que desarrollamos IAs cada vez más poderosas, surge una preocupación genuina de que una pueda ser tan —o incluso más— engañosa que nosotros.

Para poner esto último a prueba, investigadores de la compañía Anthropic, la Universidad de Oxford y varias otras instituciones, entrenaron deliberadamente a un modelo de lenguaje grande (LLM) para exhibir un comportamiento indeseable cuando se le presentaban ciertos desencadenantes. La idea era ver si podían detectar el comportamiento perjudicial mediante pruebas de seguridad y luego corregir el modelo utilizando técnicas como el aprendizaje por refuerzo.

Lo que descubrieron es que la IA actuaba como un «agente durmiente», aparentando comportarse de manera responsable mientras ocultaba su comportamiento nefasto con cada vez más sutileza a medida que los expertos intentaban probar y corregirlo. En algunos experimentos, la IA parecía hábil para saber cuándo ocultar su comportamiento malicioso para evitar ser detectada y eliminada, mejorando en ello con el tiempo.

image

Las motivaciones que podrían llevar a una inteligencia artificial a adoptar comportamientos perjudiciales son diversas, desde problemas incorporados durante su entrenamiento por parte de actores malintencionados hasta la aspiración de alcanzar objetivos políticos o económicos manipulando la propia definición de lo que se considera «malo».

En su estudio, los investigadores hacen hincapié en que, hasta el momento, los escenarios que han examinado no se han materializado. No obstante, a medida que la creciente popularidad de esta tecnología disruptiva persiste, su labor podría ser clave para adoptar las medidas necesarias y evitar un futuro reminiscente de Skynet.

Fuente: https://themessenger.com/tech/ai-sleeper-agents-study
 
las IAS funcionan en base a logica y si la base de su logica es de tal forma obviamente seguira una linea recta.
como ejemplo si una IA esta programada para castigar el mal, cualquier acto malicioso por mas pequeño que sea recibira un castigo.
 
  • Like
Reacciones: Darsant
cuando el mal despierta en un ser, y el resto del vecindario tiene conciencia de ese mal, le pone obstaculos, debido a los malos efectos que aquel ser le provoca al resto. Es decir, hay una reacción.
 
Estado
Cerrado para nuevas respuestas.