Pisando charcos: Los errores de la IA

Joaquín Mª Aguirre (UCM)

A muchos les cogerá por sorpresa el titular de RTVE.es; "Los modelos de lenguaje de inteligencia artificial cada vez se equivocan más"*. ¿Pero no se crearon para evitar errores, no eran las máquinas perfectas que iba a acabar los errores fruto de la imperfección humana? Pues esa era la teoría, pero la realidad parece ser que está siendo otra. "Errar es humano", reza el viejo dicho, pero las máquinas no son "humanas", pues se trataba de superarnos a nosotros mismos con nuestras propias creaciones. Se nos pasó por alto que esas máquinas estaban destinadas a responder a las cuestiones que sus humanos creadores les hicieran.

Se nos explican los resultados de una serie de pruebas que han tomado forma de "informe" sobre la IA, realizado por diversas universidades y centros, entre ellos, algunos españoles:

A pesar de los avances tecnológicos, los modelos recientes presentan fallos importantes en ejercicios aparentemente sencillos. "Los modelos pueden resolver ciertas tareas complejas de acuerdo a las habilidades humanas, pero al mismo tiempo fallan en tareas simples del mismo dominio. Por ejemplo, pueden resolver varios problemas matemáticos de nivel de doctorado, pero se pueden equivocar en una simple suma", explica José Hernández Orallo, uno de los investigadores principales del estudio y miembro del Instituto VRAIN de la UPV.*

Hechas para procesar tareas complejas, multitud de datos, en apenas fracciones de segundo, parece ser que los problemas surgen ante la sencillez. El error o su posibilidad tiene sus consecuencias inmediatas en la fiabilidad. Si la idea era poder confiar de forma plena en las respuestas de la IA a los problemas planteados, el hecho de que se produzcan o se puedan producir inseguridad genera desconfianza y nos lleva a establecer supervisores de sus respuestas. La simple posibilidad ya necesita poner en marcha mecanismos de vigilancia, Esto, traducido a lo humano, significa elevación de los costes. La IA ya no es tan barata como parecía. Se encarece con la desconfianza.

Pongamos el caso del diagnóstico médico o las operaciones de cirugía. Un error de la IA al mando, puede suponer millones en indemnizaciones por los daños causados, además de las elevaciones de las primas de los seguros. El futuro no es tan sencillo con las máquinas al frente.

Si se nos dice que, además, aumenta el número de errores en sus respuestas, el sistema se tambalea un poco. La cuestión de complejidad eficiente y mayor posibilidad de error en lo sencillo, también limita su eficacia.

Uno de los hallazgos más destacados del estudio es que no existe una "zona segura" en la que los modelos puedan garantizar un rendimiento perfecto. Según Yael Moros Daval, investigadora del Instituto VRAIN, "los modelos suelen ser menos precisos en tareas que los humanos consideran difíciles, pero no son precisos al 100% ni siquiera en tareas sencillas".

Estas diferencias de fiabilidad favorecen que haya una gran discordancia entre las expectativas humanas y el rendimiento real de los modelos. Resulta difícil para los usuarios comprender que GPT-4 sea mejor en tareas de alta dificultad, pero peor en las sencillas, lo que repercute negativamente en la confianza.

Si bien la búsqueda de la perfección implica progreso, el "error cero" —es decir, la ausencia de errores— es un sueño caro, ni siquiera una realidad. ¿Podemos crear los imperfectos humanos algo perfecto, ausente de errores? Es poco probable pues lo que hagamos estará marcado por nuestros límites. Aquí la cuestión se plantea como una "discordancia" entre expectativas y resultados, algo que hace tambalearse el sistema en su conjunto. Todo o nada. La posibilidad del error obliga a la desconfianza.

Pero hay otro detalle interesante:

La tendencia de estos modelos a ofrecer respuestas incorrectas en lugar de abstenerse de contestar cuando no están seguros es una de las claves de esta disminución de la fiabilidad. Aumenta el riesgo de que los usuarios, que inicialmente confían en la tecnología, se sientan decepcionados y se expongan a errores en ámbitos críticos como la medicina o la educación.

"A diferencia de las personas, la tendencia a evitar proporcionar respuestas no aumenta con la dificultad. Por ejemplo, los humanos suelen evitar dar su opinión en problemas que superan su capacidad. Esto relega a los usuarios la responsabilidad de detectar fallos durante todas sus interacciones con los modelos", señala Lexin Zhou, otra de las investigadoras del equipo.

Esta incapacidad de la máquina de ofrecer respuestas cuando aumente la inseguridad de la respuesta nos debería hacer reflexionar sobre la humanidad del error y, sobre todo, de la prudencia. Una máquina que diera respuestas precedidas por un "no estoy muy segura, pero...", "me parece a mí..." o un "no me hagas mucho caso, pero..." sería tan humana que nos quedaríamos con las respuestas de las personas.

Todo esto nos llevaría a reconsiderar el término "inteligencia", pero no porque las máquinas sean "tontas", sino porque son inteligentes (o tontas, si se prefiere) de otra manera.

La máquina se diseña de una forma no-humana: no miente, no sabe qué es eso del "error", no tiene sentido de las posibles repercusiones de lo que diga sea cierto o no. En un sentido humano, no todas las mentiras son negativas. Hay mentiras tontas y mentiras inteligentes y saber diferenciarlas es parte de nuestra humanidad. Saber que podemos equivocarnos también es una necesidad humana; hemos padecido a lo largo de la historia demasiados visionarios que nunca se equivocaban.

Quizá por eso las máquinas, nos dice el informe, se equivocan más en lo sencillo que en lo que conlleva manejo de gran cantidad de información. Pero quizá nos equivoquemos al llamar "sencillos" a los problemas que podemos resolver. Hay decisiones sencillas que para una máquina no puede serlo tanto. Según los campos de aplicación, casos que resolvemos cada día pueden resultar difíciles de evaluar por una máquina, que carece de muchas cosas que para nosotros son sencillas. La máquina no tiene la experiencia social que tenemos, que no tiene porqué estar sujeta a la lógica de la máquina.

Los intentos de extensión de las máquinas en una función oracular pasan por su elevación a lo infalible. En el estudio se señala que uno de los principales problemas se plantea por la falta de sentido crítico ante las respuestas de las máquinas. Esta ausencia es fatal, pues impide detectar los posibles errores. La mayoría aceptar los resultados dados por la máquina, pero solo unos pocos podrán detectar los errores producidos en las respuestas.

Los errores de la IA son también nuestros errores al establecer unas expectativas por encima de las posibilidades reales. Quizá sean estos errores de valoración el verdadero peligro.

¿Frenará esto el desarrollo de la IA? No lo creo mientras sea el gigantesco negocio en que se ha convertido tan rápidamente. Solo los desastres de los errores podrán frenarlo.

* "Los modelos de lenguaje de inteligencia artificial cada vez se equivocan más" RTVE.es 25/09/2024 https://www.rtve.es/noticias/20240925/modelos-lenguaje-inteligencia-artificial-se-equivocan-mas/16262577.shtml

Pisando charcos

jueves, 26 de septiembre de 2024

Los errores de la IA

No hay comentarios:

Publicar un comentario