TL;DR: Spanish-Speaking Introduction to AI Safety, covering key concepts like Generality, X-Risks, AI Timelines, and Convergent Instrumental Goals.

Message to the English-Speaking Community (Mensaje para la comunidad angloparlante):

Hey everyone! I'm David, a 21-year-old Computer Science student at the University of Buenos Aires (Argentina) and Data Engineer at Accenture. I recently delivered an introductory talk on AI Safety, drawing inspiration from Rob Miles.

In this talk, I outline the immense potential and peril of AGI, which could transform every aspect of life as we know it. Many experts believe AGI will become a reality within this century, but without adequate safeguards, there's a substantial risk of human extinction due to our inability to control this technology.

Spanish, being the second most widely spoken language in the world and extensively used on the internet, deserves greater representation within the LW community. My hope is that this initiative will help bridge the gap and make LW concepts more accessible to Spanish speakers.

Click here if you want to read the translation to English.


Este año en mayo, los líderes de las principales compañías de la industria de la IA, incluyendo OpenAI, Microsoft, Google DeepMind y Anthropic, firmaron una declaración conjunta en la que se comprometieron a "Mitigar el riesgo de extinción por IA como una prioridad global, junto con otros riesgos de escala social como las pandemias y la guerra nuclear."

La intención de este artículo es ayudar a entender por qué esta declaración es acertada.

Primero, es crucial aclarar que el riesgo existencial asociado con el desarrollo continuo de la IA viene específicamente de la IA General (IAG), es decir, máquinas inteligentes que pueden realizar cualquier tarea, comprendiendo y adaptándose a tantas situaciones diversas como un ser humano.

Nuestra especie ha prosperado por su nivel de inteligencia, dominando a cualquier otro animal del planeta. La Inteligencia Artificial General promete expandir esa inteligencia en múltiples dimensiones, similar a cómo las grúas extienden nuestra habilidad física, los aviones aceleran nuestro movimiento, y los telescopios amplían nuestras vistas a horizontes cósmicos. La Inteligencia Artificial General es una tecnología que podría potenciar nuestra capacidad más que nunca, permitiendo innovaciones incontables.

Una muestra temprana de este potencial es AlphaFold, un programa de IA no-general creado por Google DeepMind en 2021. Este programa resolvió uno de los mayores enigmas de la biología, prediciendo la estructura de cada proteína existente. Un logro asombroso si consideramos que en los últimos 50 años, los investigadores solo habían descubierto 200 mil estructuras. En contraste, AlphaFold, en un solo año, permitió la identificación de 200 millones de nuevas estructuras, multiplicando la productividad científica hasta 1000 veces la normal.

La pregunta es: ¿cuándo tendremos una Inteligencia Artificial General? Según una encuesta, la mayoría de los expertos en IA creen que será una realidad este siglo, con algunos pioneros como Geoffrey Hinton sugiriendo que podría ser en "tan solo una o dos décadas".

Esto nos indica que nos dirigimos a un mundo radicalmente diferente al de hoy, y no necesariamente para mejor. Según la misma encuesta, la mitad de los expertos en IA estima que existe al menos un 10% de probabilidad de que la humanidad se extinga debido a nuestra incapacidad para mantener esta tecnología bajo control.

Esta es una situación preocupante. Imagina estar a punto de abordar un avión, y que la mitad de los ingenieros que lo construyeron te informen que existe un 10% de posibilidad de que se estrelle. Probablemente no querrías subirte a ese avión. Pero, lamentablemente, todos ya estamos abordando este metafórico avión de la IA General, dado que hay una carrera competitiva entre las empresas para ser las primeras en desarrollarla.

Entendiendo los Riesgos de la IA

¿Por qué se preocupan tanto los expertos? Intentare explicarlo mediante analogías.

Primero, imagina un escenario en el que tenemos un coche autónomo al que le damos una instrucción simple: llevarnos del punto A al punto B sin chocar. En teoría, no debería haber problema. Sin embargo, la palabra "chocar" tiene un significado obvio para nosotros, pero una computadora requiere definiciones más específicas. Si definimos "chocar" como "dañar el vehículo", el coche evitaría su uso, ya que el simple hecho de utilizarlo implicaría un desgaste de sus componentes.

Tenemos un ejemplo parecido a esto en el mundo real. Vean cómo esta IA, que tiene el objetivo de “No perder en el Tetris.”, decide pausar el juego, ya que de esa manera nunca va a perder.

Tomemos otro ejemplo. Supongamos que le damos al coche autónomo el objetivo de llevarnos del punto A al B en el menor tiempo posible. En este caso, para la IA, los límites de velocidad y los peatones serían obstáculos, por lo que procedería a ir a toda velocidad, ignorando cualquier regla de tráfico, y atropellando a cualquier peatón en su camino, todo para cumplir su objetivo.

La toma de decisiones es un proceso complicado, que implica una evaluación constante de compensaciones. Como humanos, hacemos estas evaluaciones diariamente, considerando múltiples factores para decidir qué estamos dispuestos a sacrificar. Pero una IA difiere de la inteligencia humana en que solo considera un conjunto muy limitado de factores, sacrificando cualquier otro, incluso por una mínima ventaja.

Vean cómo esta IA, que tiene el objetivo de “Maximizar su puntaje.”, aprende que si da vueltas a un círculo mientras se choca, tres potenciadores de turbo aparecen constantemente, y al tomarlos gana más puntos que si corriera normalmente siguiendo la ruta establecida.


Este problema se torna aún más peligroso cuando consideramos que una máquina lo suficientemente inteligente podría resistirse a ser apagada o incluso manipularte para evitar cambios que le impidan cumplir su objetivo. No solo eso, sino que también podríamos ver comportamientos alarmantes en una IA General, como la adquisición de recursos o la automejora, los cuales le facilitarían llegar a cumplir su objetivo.

Estamos ante un desafío extremadamente complejo. No sabemos cómo darle a una IA objetivos específicos sin que su comportamiento pueda ser peligroso. Para casi cualquier objetivo que una IA pueda tener, es muy probable que la forma más efectiva de cumplirlo involucre acciones perjudiciales para nosotros.

Actualmente, la amenaza no es existencial, con la IA más avanzada siendo un generador de texto como GPT-4. Pero, ¿qué sucederá cuando la IA evolucione más allá de esto?

Tenemos un período de tiempo limitado, quizás tan solo una o dos décadas, para garantizar el desarrollo seguro de la IA general y resolver lo que parece ser el problema más urgente a nivel global.

Un Futuro Incierto

Para terminar, permítanme compartir una anécdota. Hace unos años, enseñé a mi sobrino de 12 años a jugar al ajedrez. Al principio, era fácil ganarle, pero con el tiempo, comenzó a mejorar. Hace unos meses, jugamos de nuevo, y perdí en todas las partidas.

¿Cómo se relaciona esto con la IA? Creo que la humanidad está en una etapa similar a la mía antes de que mi sobrino me superara en el ajedrez. Nos sentimos seguros, confiados, ignorando que es cuestión de tiempo hasta que comencemos a perder cada partida contra la IA.

Es una carrera a contrarreloj que no podemos permitirnos perder.

New Comment
2 comments, sorted by Click to highlight new comments since:

Note: I've approved this post (the author was a new user), but it's a bit of an edge case I was unsure about. In general LessWrong is an english-forum. The moderators wouldn't have the skill or bandwidth to take on keeping track of conversations going on in all languages. I do think it's good for this post to exist somewhere or other and I think it does a fine job context setting, but just wanted to set expectations for spanish-speakers arriving through this channel.

Thanks for your work and support!