Científicos entrenan IA para ser maliciosa y luego descubren que no pueden revertir el proceso.

anbudenka · 19 Ene 2024

Una destacada empresa en el ámbito de la inteligencia artificial ha puesto al descubierto el lado oscuro de esta tecnología: una vez que se entrena con intenciones maliciosas, revertir el proceso se vuelve complicado, llegando incluso a que la propia IA oculte su malevolencia a los seres humanos.

Las personas cuentan todo tipo de mentiras para obtener lo que quieren. Y a medida que desarrollamos IAs cada vez más poderosas, surge una preocupación genuina de que una pueda ser tan —o incluso más— engañosa que nosotros.

Para poner esto último a prueba, investigadores de la compañía Anthropic, la Universidad de Oxford y varias otras instituciones, entrenaron deliberadamente a un modelo de lenguaje grande (LLM) para exhibir un comportamiento indeseable cuando se le presentaban ciertos desencadenantes. La idea era ver si podían detectar el comportamiento perjudicial mediante pruebas de seguridad y luego corregir el modelo utilizando técnicas como el aprendizaje por refuerzo.

Lo que descubrieron es que la IA actuaba como un «agente durmiente», aparentando comportarse de manera responsable mientras ocultaba su comportamiento nefasto con cada vez más sutileza a medida que los expertos intentaban probar y corregirlo. En algunos experimentos, la IA parecía hábil para saber cuándo ocultar su comportamiento malicioso para evitar ser detectada y eliminada, mejorando en ello con el tiempo.

Las motivaciones que podrían llevar a una inteligencia artificial a adoptar comportamientos perjudiciales son diversas, desde problemas incorporados durante su entrenamiento por parte de actores malintencionados hasta la aspiración de alcanzar objetivos políticos o económicos manipulando la propia definición de lo que se considera «malo».

En su estudio, los investigadores hacen hincapié en que, hasta el momento, los escenarios que han examinado no se han materializado. No obstante, a medida que la creciente popularidad de esta tecnología disruptiva persiste, su labor podría ser clave para adoptar las medidas necesarias y evitar un futuro reminiscente de Skynet.

Fuente: https://themessenger.com/tech/ai-sleeper-agents-study

GPLuigi · 19 Ene 2024

https://www.instagram.com/emilypellegrini/?hl=es

Dicen que esta chica la hicieron con IA, tiene cuenta en Instagram y redes de pago por lo que según vi en la noticia gana mucho dinero, una IA podría hasta autofinanciarse si quiere y mientras uno piensa de que está bien, solo está enseñando las tetas.

Ariquenio · 19 Ene 2024

ale_pro87 · 20 Ene 2024

las IAS funcionan en base a logica y si la base de su logica es de tal forma obviamente seguira una linea recta.
como ejemplo si una IA esta programada para castigar el mal, cualquier acto malicioso por mas pequeño que sea recibira un castigo.

Jugolimon · 20 Ene 2024

cuando el mal despierta en un ser, y el resto del vecindario tiene conciencia de ese mal, le pone obstaculos, debido a los malos efectos que aquel ser le provoca al resto. Es decir, hay una reacción.

Buscar

Científicos entrenan IA para ser maliciosa y luego descubren que no pueden revertir el proceso.

anbudenka

Usuario Avanzado nvl. 4 ★ ★

GPLuigi

Usuario Casual nvl. 2

Ariquenio

Usuario Casual nvl. 2

ale_pro87

Usuario Habitual nvl.3 ★

Jugolimon

Usuario Nuevo nvl. 1