05/07/2019 | Hubert Krivine
El ámbito de
la inteligencia artificial (IA) es un poco como el Universo: se halla en
expansión acelerada y llena de agujeros negros… La IA es una disciplina
totalmente nueva, como lo fue en su tiempo la imprenta a mediados del siglo XV.
¿Quién habría podido anticipar entonces que su desarrollo iría mucho más allá
de su propósito inicial, a saber, la propagación de las sagradas escrituras?
Más recientemente, ¿quién habría podido imaginar las consecuencias de internet,
creada originalmente para facilitar los intercambios entre físicos de
laboratorios alejados entre sí? Por consiguiente, hay que ser extremadamente
prudentes con respecto a las potencialidades de la IA, sobre todo porque, a
diferencia de esas dos innovaciones, no se sabe por qué funciona tan
bien. Al fin y al cabo, el nombre es jactancioso: la inteligencia artificial no
es a la inteligencia humana lo que la insulina artificial es a la insulina
animal, es decir –potencialmente al menos–, lo mismo pero mejor.
No
pretendemos hablar aquí de los éxitos y los peligros de la IA en todos los
terrenos, sino fundamentalmente de lo que nos parecen ser sus limitaciones actuales.
Es evidente que ignoramos lo que vaya a suceder en los próximos siglos.
Comprender
para prever
La humanidad
tiene desde siempre la necesidad de prever. Lo ha hecho a través de la magia
(auspicios, augurios y otras pitias) o bien mediante la observación de
correlaciones regulares. Se trataba de la previsión del movimiento de los
astros, de las mareas, de la acción medicamentosa de determinadas plantas, de
las propiedades de las aleaciones metálicas, de las ventajas del cruce de
plantas y de animales, etc. De ahí la importancia de la tradición en las
sociedades primitivas.
En el
Renacimiento surgió la idea de que existen leyes impersonales y universales que
gobiernan el mundo y que la tarea de los sabios es descubrirlas. Galileo, quien
afirmaba que el “libro del Universo está escrito en lengua matemática”, es su
precursor más famoso. Claro que Dios no es abandonado, digamos más bien que
relegado. Estas leyes no solo explicarán los fenómenos observados, sino que
también preverán otros nuevos. La teoría de la gravitación de Newton es
emblemática: non solo dio cuenta con precisión del movimiento elíptico de los
planetas, sino que además previó el retorno del cometa Halley, el valor del
ensanchamiento de la Tierra en el ecuador y un siglo y medio después el descubrimiento
de Neptuno gracias a los cálculos de Le Verrier. Las ondas de radio se
descubrirán veinte años después de que hubieran sido previstas por las
ecuaciones de Maxwell. La teoría general de la relatividad no se basó en la
observación de que la presencia de masas desvía la trayectoria de la luz, sino,
por el contrario, previó esta (minúscula) desviación, que Eddington medirá
efectivamente cuatro años más tarde. Podríamos multiplicar las previsiones de
fenómenos inéditos, en el sentido literal del término, causados por el
conocimiento de estas leyes.
Por
desgracia, esta vía luminosa de entendimiento, que podríamos resumir en comprender
para prever, acabará oscureciéndose por (al menos) dos razones:
1- Aunque se
conozcan las leyes de un fenómeno, estas pueden ser tan numerosas y/o
complicadas e intrincadas que su aplicación resulte prácticamente imposible.
Entonces hay que recurrir a leyes estadísticas, que solo preverán medias.
2- Puede
ocurrir que una sola ley simple y bien conocida gobierne un fenómeno y que a
pesar de ello seamos incapaces de anticipar más allá de cierto horizonte de
tiempo. Esto es lo que se denomina caos determinista. Determinista
porque hay una ley, caos porque a pesar de ello no se puede concluir
nada para dentro de cierto plazo. Se debe al hecho de que pequeñísimas
variaciones de las condiciones iniciales o del entorno pueden generar una
divergencia exponencial de las soluciones. Muchos fenómenos conocen este caos:
las trayectorias de las moléculas de un gas, el desarrollo de especies en
competición, la meteorología, el movimiento de los planetas del sistema solar.
Por supuesto, este horizonte de impredecibilidad depende del sistema, puede
variar de la millonésima de segundo en el primer ejemplo a los miles de
millones de años en el último.
El caos
determinista –bello oxímoron– no pone en duda la causalidad, sino que
interroga, inclusive en las llamadas ciencias duras, nuestra capacidad
de evidenciarla. La conclusión general es que la comprensión –e incluso el
conocimiento de la ley cuando se conoce– no permite necesariamente prever.
Prever sin
comprender (¿el retorno?)
Nuestros
ancestros, sobre la base de miles (¿millones?) de observaciones, conseguían
extraer algunas lecciones. Pero ahora disponemos de infinitivamente más datos (en
cifras, imágenes, sonidos, vídeos); son los datos masivos (big data). Se
trata de cantidades inimaginables: por ejemplo, cada día se generan ¡2,5
trillones (2.500.000.000.000.000.000) de octetos! 1/.
Añadamos que la acumulación de informaciones es tal que el 90 % de los
datos en el mundo se han creado en el transcurso de tan solo los dos últimos
años. Es imposible que estas inmensas bases de datos sean leídas directamente
por personas. Deben ser almacenadas inteligentemente y después
analizadas por la máquina. Este es uno de los objetos de la mal llamada inteligencia
artificial.
Muy
esquemáticamente, la IA moderna se caracteriza por el aprendizaje máquina, es
decir, la máquina, instruida por una base de datos, extrapola a partir
de la información que tiene sobre datos nuevos. Estos datos de aprendizaje
pueden suministrársele etiquetados, es decir, por ejemplo, en forma de
miles de caracteres manuscritos previamente catalogados como a, b, c… z
o millones de imágenes de animales catalogados como gatos, perros, tigres, etc.
Este es el aprendizaje supervisado. Incluso se puede no etiquetar a priori
las imágenes, que la máquina se las arreglará para realizar reagrupamientos ad
hoc y crear así nuevas categorías; este es el aprendizaje no supervisado,
más selectivo en recursos, pero más fácil de aplicar (no hace falta etiquetar,
que es un proceso largo y complejo). En fin, la máquina misma puede procurarse
los datos de aprendizaje, que comprobará in situ proponiéndose
experiencias; es el aprendizaje por refuerzo. Un poco como un niño que habla
sin conocer la gramática. Con este último modo de aprendizaje funcionó la
máquina AlphaZero, que derrotó al campeón del mundo del juego de go, Ke Jie, en
mayo de 2017 2/. En
tres días jugó millones de partidas contra sí misma y en cierto modo comprendió
cómo jugar. Las cursivas son importantes: puede que ella lo haya comprendido,
¡pero nosotros no! Nadie sabe explicar el camino que ha seguido para obtener
esta victoria.
Pero ¿sirve
de algo comprender o todavía necesitamos demostraciones?
A diferencia
del espíritu humano, la máquina que utiliza las redes neuronales artificiales
carece de un instrumento para distinguir las correlaciones causales de las no
causales; y, a fortiori, no da explicaciones. Pero, ¿es eso tan
grave? Después de todo, con una base de datos extremadamente limitada y sin
teoría real, la humanidad del homo sapiens se desarrolló muy bien
durante más de 150.000 años. ¿No cabría pensar con mayor razón que, con la
gigantesca base moderna de datos masivos correctamente explotada, podrá
continuar igual o incluso infinitamente mejor que antes? De todas maneras, incluso
las correlaciones no causales pueden ser predictivas: no es la caída del
barómetro la que causa la tormenta.
Cito la
posición extremista y sin embargo popular de un Chris Anderson. El título de su
célebre artículo 3/ es
elocuente: La fin de la théorie : le déluge de données rend la méthode
scientifique obsolète (El fin de la teoría: el diluvio de datos vuelve
obsoleto el método científico). Allí podemos leer esto: “Con datos suficientes,
los números hablan por sí mismos”, y más adelante: “la correlación suplanta la
causalidad, y la ciencia puede avanzar incluso sin un modelo coherente, sin
teoría unificada e incluso sin ninguna explicación mecanicista.” Para él, la
idea es que todos los modelos son falsos y a menudo están contaminados de ideas
preconcebidas, mientras que las bases de datos, a condición de que sean
suficientemente gigantescas, no pueden mentir.
¿Cabe pensar
que Deng Xiaoping ya anticipó en 1960 esta filosofía cuando afirmó eso de que
“poco importa que un gato sea blanco o negro, si caza ratones, es un buen
gato”? Se trataba de introducir más pragmatismo (en el sentido de más mercado)
en la economía, sin prestar atención a las objeciones teóricas que pudieran
oponerse.
Hay quien es
menos extremista en el abandono de la teoría4/: “La
ciencia vive así una revolución epistemológica con la aplicación desde hace tan
solo una decena de años de un ‘cuarto paradigma’ del descubrimiento científico,
a partir del análisis y de la explotación intensiva de los datos, sin
necesidad a priori de un modelo que describa la realidad. Esta
revolución afecta a todos los sectores científicos, sobre todo a los ámbitos de
la biología-salud y las ciencias humanas y sociales.”
No hay
inteligencia, solo hay pruebas de inteligencia
¿Cómo
definir la inteligencia de la máquina sin haber definido la de los humanos? 5/
Turing 6/
escamotea hábilmente esta cuestión proponiendo tan solo compararlas mediante
una prueba. Un experimentador conversa a través de un teclado (u hoy incluso de
viva voz) con un interlocutor oculto. Si el hombre es la mayoría de las veces
incapaz de saber si ha conversado con una máquina o no, se dirá que la máquina
ha superado la prueba de Turing. Claro que la duración de la prueba es importante
y hasta hoy ninguna máquina lo ha conseguido dentro de un tiempo razonable. A
pesar (¿o tal vez a causa?) de su gran simplicidad, determinados especialistas
de IA consideran que el test de Turing es poco interesante. Por lo demás, se
puede pensar que las máquinas lograrían superar el test de Turing si no
comportara más que pruebas convencionales del tipo de las que se utilizan para
determinar el cociente intelectual de los individuos.
La
inteligencia de la IA procede básicamente por inducción. Esto quiere decir que
la máquina solo puede prever sobre la base (gigantesca, sin duda) de lo ya
conocido o sucedido. Caricaturizando un poco, para la máquina lo que sucederá
ya ha sucedido o está a punto de suceder, pero sin los datos masivos, los
humanos nunca lo habríamos adivinado. Salvo que en situaciones políticas,
financieras y económicas inéditas, las previsiones de los datos masivos
fracasan. Véanse por ejemplo las previsiones de la crisis de las
hipotecas basura que partió de EE UU en 2007. Nate Silver7/
demuestra cómo la singularidad absoluta del cuadro económico de EE UU en
aquella época hacía que toda extrapolación resultara inoperante.
En el fondo,
el razonamiento por inducción supone que cuando un acontecimiento se
repite n veces, se repetirá una (n + 1)-ésima vez, y esto con
tanta más seguridad, cuanto mayor sea n; pero en esto no se tienen en
cuenta las condiciones, eventualmente cambiantes, que han permitido esta continuidad;
hace falta una hipótesis implícita de uniformidad. Con esta hipótesis, ¡ni tú
ni tus padres morirán jamás! (Porque si constatas que han vivido todos los días
sin interrupción desde hace 25.000 jornadas, seguirán viviendo el día
siguiente.) El razonamiento por inducción, corriente en la vida cotidiana,
puede por tanto sugerir una hipótesis, pero en ningún caso la demuestra.
No existen
los datos brutos
No hay datos
inocentes; la noción de datos brutos es un oxímoron, como ha escrito con toda
la razón la historiadora de medios norteamericana Lisa Gitelman. Los datos son
producciones humanas que pueden estar social o técnicamente sesgadas, no
necesariamente de manera voluntaria. Se toman y se mezclan los datos allí donde
uno los encuentra, como un borracho que busca la llave que ha perdido tan solo
donde llega la luz de la farola. Son numerosos los ejemplos del peligro de
analizar los datos brutos sin reflexionar sobre su producción y cuyo
aumento de volumen no reducirá su sentido falseado. De hecho, la IA no hace más
que multiplicar los peligros de sesgo inherentes a todos los análisis clásicos.
¿Se puede
digitalizar el Universo?
El ser
humano interactúa –al menos potencialmente- con toda la Naturaleza (¡que no es
poco!), no la máquina, que no conoce de ella más que una pequeña parte, y
además digitalizada, es decir, en última instancia, representada tan solo por
una sucesión –gigantesca, sin duda, pero finita– de 0 y 1. Sin embargo, el mapa
(digital) no es el terreno. Creer que la Naturaleza suficientemente
digitalizada es la Naturaleza nos parece ser una ilusión total, al
margen del grado de digitalización. Este es, sin embargo, el credo de
algunos ayatolás de los datos masivos. Extrapolando los éxitos espectaculares
de la IA, imaginan que mañana se podrá hacer física sin físicos, o medicina sin
médicos y, por qué no, sentencias sin jueces.
Ilusión
total, ¿verdad? Pero el ser humano tampoco tiene acceso directamente a toda la
Naturaleza. Solo interactúa con ella a través de sus sentidos y por tanto no
puede ver –ni sentir, ni tocar– todo el terreno. Lo que ve, por ejemplo, está
pixelado entre los 120 millones de células fotosensibles (conos y bastones) que
pueblan su retina. Ahora bien, hoy en día las fotos digitalizadas pueden
alcanzar o incluso superar esta resolución. Los receptores artificiales no
tienen nada que envidiar a nuestros receptores naturales, pero el terreno
no se limita tan solo a la imagen que percibe nuestra retina. Hay que tener en
cuenta todo lo que lo constituye, con su geología, su historia, sus millones de
especies vivas y muertas, sus olores, su precio por metro cuadrado, su belleza,
la poesía que se asocia con él, etc.
De una
manera u otra, el cerebro humano es sensible a ello, aunque no se sepa cómo ni
hasta qué punto; esto abarca prácticamente una infinitud de elementos (que
interactúan). Creer que el terreno, en el pleno sentido del término, es
pixelable, es decir, representable mediante una serie finita (aunque muy
grande) de 0 y 1, parece igual de demencial que pensar que, al estar compuestos
los seres humanos (y los demás) de moléculas que interactúan, se llegará a la
explicación de la toma de la Bastilla en 1789 mediante el estudio (¡muy!)
profundo de las fuerzas entre átomos. Sería lo que podemos denominar un
reduccionismo disparatado. Nunca estará de más recordar este título de un
artículo tan lapidario como profundo de Philip Waren Anderson: More is
different. Hay que cambiar de teoría cuando se cambia de escala de tiempo,
de volumen o de complejidad. Es bien sabido que el todo no es lo mismo que la
suma de sus partes. Esto es lo que caracteriza el fenómeno de emergencia.
La ciencia
no progresa por acumulación de datos
La ciencia
no progresa por acumulación de datos. Si los descubrimientos del bosón de Higgs
o de las ondas gravitacionales solo pudieron producirse manipulando miles de
millones de datos masivos, tales descubrimientos son, por su génesis, clásicos:
se sabía lo que se buscaba. Miles de científicos y técnicos, con la ayuda de
cientos de millones de dólares, etc., tuvieron que imaginar dispositivos
diabólicamente astutos para detectar los efectos extraordinariamente débiles,
que habrían pasado desapercibidos si no los hubieran buscado allí donde lo
preveía la teoría. Se trata, en el ejemplo de las ondas gravitacionales, de una
variación de longitud de menos de una milmillonésima de milmillonésima de metro
de un brazo de interferómetro de 3 km. Ninguna base de datos masivos habría
podido hallarlas.
Esto no es
nuevo; sucedió lo mismo con el neutrino. Previsto en 1930 por Wolfgang Pauli,
es una partícula neutra que no interactúa prácticamente con la materia y por
tanto es muy difícil de detectar (¡habrá que esperar a 1956!). No está claro
cómo los datos masivos, por muy masivos que sean, sin guía teórica de
investigación, habrían permitido estos descubrimientos. Más en general, los
avances que han revolucionado la física (e incluso la filosofía), a saber, la
teoría atómica, la mecánica cuántica y la relatividad, no tienen nada que ver
con una acumulación intensiva de datos. Einstein elaboró la relatividad
especial sobre la base de las contradicciones lógicas internas de las
ecuaciones de Maxwell (que rigen las corrientes eléctricas y explican las ondas
de radio) y la relatividad general a causa de las contradicciones teóricas
aparecidas en el seno de la relatividad especial. Newton no vio caer más
manzanas que sus predecesores para elaborar su teoría de la gravitación.
Los datos
–por supuesto indispensables para la verificación de la teoría– solo vendrán
después. Son estas teorías, que permiten una nueva auscultación del cielo, las
que situarán el punto de partida para la creación de los datos masivos y no a
la inversa. Por ejemplo, la teoría de la relatividad (enunciada por Einstein en
1915) prevé una curvatura de los rayos luminosos que pasan cerca de una
estrella masiva (fenómeno que será verificado en 1919 por Eddington). Se trata
del fenómeno de lentilla gravitacional, nueva fuente de información sobre la
distribución de las masas del universo. Ocurre lo mismo con las ondas
gravitacionales, que enriquecerán todavía más nuestros datos masivos.
En resumen,
la ciencia no procede por acumulación y sistematización de datos –aunque esta
sea una etapa que puede ser importante–, sino mediante la resolución de
problemas 8/.
Problemas que pueden ser internos de la teoría existente o resultar de
contradicciones entre teoría y experiencias (u observaciones). Es todo el
problema abierto de la creatividad.
Hay
finalmente otra diferencia de calibre: la máquina está dedicada. Debe resolver,
permaneciendo todo lo demás invariable, una tarea que se le marca. Vive dentro
de un mundo pequeño. Aunque el número de partidas de go sea miles de millones
de veces superior al número total de átomos del universo, la máquina solo
interactúa muy débilmente con todo el universo (responde únicamente a las
jugadas del adversario). En estos sentidos, es un juego simple. Una rata
robot se manejará mucho mejor que una rata de carne y hueso en un laberinto,
pero si aparece un olor a quemado, la rata de carne y hueso tratará de huir, el
robot no. La rata de verdad posee en cierto modo una cultura, fruto de un
proceso de evolución darwiniana de interacciones con el resto del mundo, que
habrá durado miles de millones de años. Este proceso es copioso, es decir, sin
objetivo. Es mucho más lento que un proceso pilotado por un objetivo, pero a
largo plazo es mucho más eficaz. Es el que está en el origen del sentido
común, lo más difícil de adquirir –si es que esto resulta posible un día–
por parte de una máquina 9/.
¿En
conclusión?
He aquí el
extracto de la entrevista de Antoinette Rouvroy publicada con el título Mais
pourquoi faudrait-il s’en inquiéter si l’on gagne en efficacité ? (¿Por qué
inquietarse si se gana en eficacia?) en Le Monde del 30 de diciembre de
2017:
Vamos hacia
un cambio epistemológico de calibre. Basarnos en este tipo de cálculo supone
una renuncia a las ambiciones de la razón moderna, que asociaba los fenómenos a
sus causas. Estas ambiciones de la razón permitían abordar la prevención,
actuar sobre las causas para cambiar los efectos. En vez de ello, nos dirigimos
a un sistema de puras correlaciones. Ya no se intenta comprender el
medioambiente, sino predecirlo. Nuestra relación con el saber cambia, pero
también nuestra relación con el mundo: nos centramos más que antes en los
riesgos. Ver y comprender son sustituidos por detectar y prevenir. Pasamos de
una civilización del signo, que era portador de sentido, a una civilización de
la señal, que es un dato que no significa nada en sí mismo.
En otras
palabras, con la ciencia se trata de actuar sobre el mundo, con la IA
fetichizada, es el mundo el que actúa sobre nosotros, lo cual es muy distinto.
Esto vuelve a poner de actualidad a un Marx que afirmaba en sustancia que no
había que interpretar el mundo, sino que se trataba de transformarlo.
Traducción: viento
sur
Notas
1/ Un octeto está formado por 8 cifras binarias (bits), es decir, una
secuencia de 8 ceros o unos. Permite codificar 28=256 caracteres, o
sea, mucho más que todo un alfabeto con mayúsculas, acentos y signos de
puntuación.
6/ Alan Turing (1912-1954), genial matemático inglés que logró descubrir
el código secreto alemán durante la segunda guerra mundial. Perseguido por su
homosexualidad, se suicidó comiéndose una manzana envenenada.
8/ Profecía atribuida a Einstein: un día, las máquinas podrán resolver
todos los problemas, pero ninguna de ellas podrá jamás plantear uno.
9/ Por ejemplo, la minúscula modificación de algunos píxels en una foto de
una oveja que pasta en un prado puede hacer que la máquina la identifique como
una mesa, cosa que el sentido común, evidentemente, no lo permitiría.
No hay comentarios:
Publicar un comentario