El Fin de La Teoría
El Fin de La Teoría
El Fin de La Teoría
George Dyson
Durante mucho tiempo he estado obcecado en la idea de que el cerebro contiene de
alguna forma un «modelo» de la realidad, y que la Inteligencia Artificial se hará
realidad cuando entendamos ese modelo inserto en una máquina. ¿Qué es un
modelo? Podemos plantear dos condiciones: a/ algo que funcione y b/ algo que
entendamos. Se puede tener a sin b. Nuestras grandes creaciones distribuidas a
escala petabyte están empezando a captar la realidad de un modo que funciona
bien, pero que no necesariamente entendemos. Pero cuando podamos finalmente
apartar el cerebro, neurona por neurona, sin encontrar nunca el modelo, podremos
descubrir que la verdadera IA vino a la existencia sin que nadie desarrollara nunca
un modelo coherente de realidad o una teoría inequívoca de la inteligencia. La
realidad, con sus ambigüedades, funciona. Puede que nuestro verdadero destino
como especie sea construir una inteligencia de probado gran éxito, entendamos o
no cómo funcione. La memoria colectiva asociativa distribuida masivamente que
constituye la «supramente» (o el Ordenador Único de Kevin) ya está formando
asociaciones, detectando patrones y haciendo predicciones –aunque esto no
signifique pensar en el modo en que lo hacemos o en una escala que podamos
comprender. El repentino aluvión de grandes bases de datos y la apertura de un
territorio científico completamente nuevo promete una vuelta a la emoción del
nacimiento de la ciencia (moderna) en el siglo XVII, cuando era, como Newton,
Boyle, Hooke, Petty y el resto vieron, «el negocio de la Filosofía Natural» el que
averiguaba las cosas. Lo que Chris Anderson da a entender es que la ciencia irá
perteneciendo cada vez más a una nueva generación de filósofos naturales que no
sólo están leyendo la naturaleza, sino que están empezando a leer la «supramente».
¿Hará esto que el método científico quede obsoleto? No. Aún estamos muy cerca de
los comienzos del método científico para hablar de su fin. Como Sir Robert
Southwell escribió a William Petty el 28 de septiembre de 1687, poco antes de ser
elegido presidente de la Royal Society, «La intuición de la verdad no resulta tan
sabrosa como la Verdad ya cazada».
Kevin Kelly
Existe la incipiente sensación de que las bases de datos extremadamente grandes, a
partir del nivel petabyte, podrían cambiar el modo en que aprendemos las cosas. El
modo tradicional de hacer ciencia implica construir una hipótesis que coincida con
los datos observados o solicitar otros nuevos. Dado un grupo de observaciones ¿qué
teoría explica cuántos datos son suficientes para poder predecir la siguiente
observación? Puede resultar que volúmenes de datos tremendamente grandes sean
suficientes para saltarse la teoría y hacer una observación predictiva. Google fue
uno de los primeros en darse cuenta de esto. Pongamos el ejemplo del corrector
ortográfico de Google. Cuando, googleando, escribes una palabra mal, Google
surgiere la forma correcta. ¿Cómo lo sabe? ¿Cómo predice la palabra correcta? No
es porque tenga una teoría sobre la ortografía, ni porque haya llegado a dominar las
reglas ortográficas. De hecho, Google no sabe nada en absoluto sobre ortografía. En
su lugar, Google opera con un gran conjunto de datos de observaciones que
muestran que para cualquier palabra escrita hay x personas que dicen «sí» cuando
se les pregunta si querían decir la palabra «y». El motor ortográfico de Google
consiste enteramente en estos puntos de referencia, más que en cualquier otra
noción sobre la correcta escritura del inglés. Por eso, el mismo sistema puede
corregir la ortografía de cualquier idioma. Lo cierto es que Google emplea la misma
filosofía de aprendizaje mediante datos masivos para sus programas de traducción.
Pueden traducir del inglés al francés, o del alemán al chino, haciendo correlaciones
entre inmensos conjuntos de datos a partir del material traducido por el hombre.
Por ejemplo, Google entrena su motor de traducción francés-inglés surtiéndolo de
documentos canadienses que han sido publicados de manera frecuente tanto en
inglés como en francés. Los de Google no conocen la teoría del idioma,
especialmente del francés, tampoco un traductor con inteligencia artificial. Y las
traducciones son bastante buenas. No al nivel de experto, pero lo suficiente para
entender lo esencial. Puedes coger una web china y al menos captar el sentido de lo
que significa en inglés. Pero como Peter Norving, director de investigación de
Google, presumía ante mí, «ni una sola persona que trabajara en el traductor de
chino hablaba chino». No hay teoría de chino, ni comprensión. Sólo datos. (Si
alguien ha querido alguna vez una refutación del enigma de Searle de la Sala China,
aquí la tiene).
Si se puede saber cómo se escribe una palabra sin saber nada sobre ortografía o
gramática, y si se puede saber cómo traducir idiomas sin tener ninguna teoría o
concepto sobre la gramática de esos idiomas que estás traduciendo, entonces ¿qué
más se puede saber sin la teoría? Chris Anderson está explorando la idea de que
quizá se pueda hacer ciencia sin tener teorías.
Quizá haya algo respecto a esta observación. Muchas ciencias como la astronomía,
la física, la genómica, la lingüística y la geología están generando hoy conjuntos de
datos extremadamente grandes y constantes flujos de datos a nivel petabyte. En
una década habrán alcanzado el nivel exabyte [mil millones de Gb]. Usando
«máquinas de aprendizaje» pasadas de moda, los ordenadores pueden extraer
patrones en este océano de datos que ningún humano podría detectar posiblemente
nunca. Estos patrones son correlaciones. Pueden ser o no causales, pero podemos
aprender nuevas cosas. Por tanto, logran lo que la ciencia hace, aunque no de la
manera tradicional. Lo que Anderson está planteando es que a veces basta con las
suficientes correlaciones. Hay un buen paralelismo en la salud. Un montón de
trabajos médicos en el enfoque correlativo. El doctor puede no encontrar nunca la
causa real de una dolencia, pero puede predecir correctamente su curso y tratar los
síntomas. ¿Pero es esto verdadera ciencia? Se pueden tener resultados, pero si no
se tiene un modelo ¿es algo en lo que otros puedan basarse? No lo sabemos todavía.
El término técnico para este enfoque científico es Data Intensive Scalable
Computation (DiSC). Otros términos son «Grid Datafarm Architecture» o
«Petascale Data Intensive Computing ». Estas técnicas hacen más hincapié en la
naturaleza de los datos intensivos que en los propios clusters de computación. La
industria online llama a esta forma de investigación una especie de «analytics».
Empresas de cloud computing como Google, IBM y Yahoo, y algunas universidades
han hecho talleres sobre el tema. En esencia, estos pioneros están intentando
explotar el cloud computing, o la Máquina Única, para la ciencia a gran escala. Las
herramientas actuales incluyen masivas plataformas software como MapReduce
(Ver: A Cloudbook For The Cloud), almacenaje barato, y gigantescos clusters de
centros de datos. Hasta la fecha, muy pocos científicos, al margen de la genómica,
están empleando estas nuevas herramientas. La intención del NSF’s Cluster
Exploratory program es reunir a científicos que posean grandes cantidades de
datos basados en las observaciones con los científicos informáticos que tienen
contacto y pericia con el cluster/cloud computing.
Stewart Brand
La humanidad digital ha pasado aparentemente de un hito a otro durante los
últimos pocos años. Ahora nos damos cuenta. Darse cuenta suele ser de ayuda.
Coincidiremos en uno o dos nombres para el nuevo hito y observaremos lo que la
inducción nos diga sobre cómo funciona o para qué sirve.
W. Daniel Hills
Soy un gran fan de Google, y me encanta buscar patrones matemáticos en los datos,
pero el artículo de Chris Anderson, El fin de la teoría, establece una falsa distinción.
Afirma que usando una gran colección de datos para «ver los datos
matemáticamente primero y establecer un contexto después» es en cierto modo
distinto de «la manera en que la ciencia ha trabajado durante cientos de años». No
estoy de acuerdo.
Chris Anderson acierta en su intuición de que hay algo diferente sobre estas nuevas
y grandes bases de datos, pero no ha identificado bien lo que es. Lo que es
interesante es que por primera vez tenemos datos significativamente cuantitativos
sobre las variaciones de los individuos: su comportamiento, su interacción e
incluso sus genes. Estos nuevas bases de datos inmensas nos dan una medida de la
riqueza de la condición humana. Ahora podemos vernos a nosotros mismos con las
herramientas que hemos desarrollado para estudiar las estrellas.
Sean Carroll
¿Qué es una buena teoría?
A principios del siglo XVII, Johannes Kepler propuso sus Tres Leyes del
Movimiento Planetario: los planetas se mueven en elipses, barren áreas iguales en
tiempos iguales y sus periodos son proporcionales al cubo de la distancia media
desde el Sol. Esto fue un gran avance en el aspecto astronómico de la cultura,
descubriendo un conjunto de relaciones simples en los voluminosos datos sobre los
movimientos de los planetas que habían sido reunidos por su mentor Tycho Brahe.
Más tarde, en el mismo siglo, Sir Isaac Newton propuso su teoría de la mecánica,
que incluía sus Leyes del Movimiento y su Ley de la Gravitación Universal (la
fuerza ejercida por la gravedad inversamente proporcional al cuadrado de la
distancia). En el sistema de Newton, se podían derivar las leyes de Kepler –en vez
de oponerlas– y muchas otras cosas. Esto era generalmente considerado como un
importante paso al frente. No sólo teníamos reglas de una aplicabilidad mucho más
amplia, sino que podíamos afirmar con sensatez que entendíamos lo que estaba
pasando. Entender es algo bueno, y es en cierto sentido el primer objetivo de la
ciencia.
Jaron Lanier
El objetivo de la teoría científica no es que un ángel vaya a apreciarla. Su propósito
es la comprensión humana. La ciencia sin una búsqueda de teorías significa una
ciencia sin humanos. Los científicos están mundialmente contentos con los nuevos
grandes recursos relacionados con la computación. Soy consciente de que nadie
discute ese punto. La única idea en el texto de Chris Anderson que se sale de esa
feliz zona de consenso es que no deberíamos querer entender nuestro propio
trabajo cuando usamos los nuevos recursos. Encuentra emocionante que podamos
hacer algo que funciona sin comprender el porqué. Esto es precisamente lo que no
debería ser emocionante. Algunos remedios caseros funcionan y no sabemos por
qué. La ciencia va de entender. La comprensión es mucho más excitante que los
remedios caseros. Anderson parece decir que es inútil ser humano. Las máquinas
deberían ser ahora las que piensen, y ser las heroínas del descubrimiento. Digo
«parece» porque no me creo que esté siendo sincero. Creo que es una treta para
lograr cierto tipo de atención. Escuchar la retórica antihumana produce la misma
punzada que la trama de una película sobre un asesino en serie. Alguna parte
profunda y moral de todos nosotros está tan ofendida que no podemos desviar
nuestra atención.
Joseph Traub
Estoy de acuerdo con Danny Hills en que las grandes cantidades de datos no
socavarán el método científico. De hecho, las leyes científicas codifican una
inmensa cantidad de datos. Pienso en el ejemplo de las ecuaciones de Maxwell o en
las leyes de Kepler. ¿Por qué piensa Chris Anderson que con más datos aún, las
leyes (lo que él llama teoría) se volverá menos importante?
John Horgan
Mi primera reacción al ensayo de Chris Anderson fue, no, otra Gran-Profecía-del-
Fin-de-Algo. Anderson, además, recicla la retórica del caos, la complejidad y la
Inteligencia Artificial. ¡Ordenadores aún más poderosos van a encontrar patrones
ocultos en bases de datos cada vez mayores y van a revolucionar la ciencia! No
necesitas ser un ordenador para trazar los ciclos de auge y caída de estas
afirmaciones. Pero la idea de que los ordenadores obviarán la teoría y la
comprensión inspira unos pocos pensamientos:
Chris Anderson parece creer que los ordenadores reducirán la ciencia a la pura
inducción, prediciendo el futuro basado en el presente. Este método no puede
naturalmente predecir cisnes negros, anomalías y sucesos verdaderamente
originales. La carga teórica de los expertos humanos no puede prever cisnes negros,
pero para el futuro previsible, los expertos humanos sabrán cómo manejar mejor a
los cisnes negros cuando aparezcan.
Bruce Sterling
La ciencia ficción inmediatamente obsoleta por la «petabyte ficción»
Estoy tan impresionado por los prefijos «peta» y «exa» como el que más. También
me inclino a pensar que los motores de búsqueda son más grandes y mejores que la
Inteligencia Artificial (incluso aunque la IA se las hubiera arreglado alguna vez para
existir fuera de la ciencia ficción). También me encanta la idea de grandes,
nubladas [cloudy] y sin embargo profundas relaciones entre fenómenos
aparentemente inconexos –en literatura, llamamos a esos gadgets «metáforas».
¡Son geniales!
Pero he de preguntarme por qué Chris Anderson quiere que Google –después de
que haya echado inmediatamente por tierra la publicidad– aborde la teoría
científica. La publicidad no tiene nada que ver con la teoría científica. La publicidad
ha sido siempre una completa paparruchada de hechiceros. Despues de que soplara
esa casa de paja, Google puede querer seguir con las de ladrillo (eso es una
metáfora). Seguramente hay otros frutos de fácil alcance que los petabytes podrían
recoger fructíferamente antes de aspirar a las remotas, frágiles y altísimas ramas de
la ciencia. (Otra metáfora –aquí me enrollo).
Por ejemplo: la ideología política. Todo el mundo sabe que la ideología es muy
similar a la publicidad. Así que ¿por qué no hacemos que los zillones establezcan
nuestras creencias políticas, basadas en algunas grandes escalas y asociaciones con
otros fenómenos estadísticamente verificables como, digamos, el color de nuestra
piel o el lugar donde nacimos? La abogacía. ¿Por qué argumentar los casos con
lógica, intentando determinar los hechos, la culpa o la inocencia? Echemos toda la
carga legal de todos los casos conocidos en la tolva de petabytes, y dejemos que los
algoritmos seleccionen el resultado del juicio. Después podemos «colgar a todos los
abogados», como dijo Shakespeare (no es una metáfora). El amor y el matrimonio.
No puedo entender por qué la gente sigue insistiendo en casarse con sus amiguitas
de la infancia cuando una búsqueda petabyte de miles de millones de potenciales
compañeras de todo el mundo resulta demostrablemente más barato y más
efectivo. Las inversiones. Hacer cálculos en el mercado de valores tiene que ser
trabajo de tecnología petabyte. Ningún humano sabe cómo oscila el mercado –es
todo la hora del «triple embrujo», es pura, baja y sucia superstición. Pero
seguramente los propietarios petabyte pueden deducir mecánicamente el (sólo
aparente) caos de los mercados, convirtiéndose en súper-ultramagnates. Entonces
compran toda la ciencia y hacen lo que les parezca con ella. Los escépticos no se
reirán entonces. El diseño gráfico. Éste se mata fácilmente. Se compara el conjunto
total de pixels de un proyecto de página para Wired con el conjunto de todos los
píxeles de todas las páginas de papel que haya escaneado Google. Se pone el
creatímetro en marcha y se genera la imagen gráfica definitiva. Ah, y lo mismo para
toda la música digitalizada en tu iPod, nada más y nada menos. ¿Por qué mezclar
las canciones en random [aleatoriamente] cuando puedes reducir las canciones a
puras longitudes de onda en un alucinante mashup petabyte? Así puedes patentarlo
en vez de poner copyright. Finalmente –aquí llegaré a una pequeña meta–, el
último número de Edge. En lugar de esos dolorosos comentarios que Edge publica
como respuesta a acreditados científicos y sus parásitos culturetas, la Tercera
Cultura conquistará la Tierra cuando todos los comentarios de internet de
cualquier tipo sean analizados para las posibles repuestas Edgy, del modo en que
Google puede traducir estonio a klingon ¡en un solo paso! ¡El resultado es la última
tesis cultural crítico-científica! No es una «Gran Teoría Unificada» –(así de
acabada está la teoría, ya que nunca podrás estampar los datos bancarios de Google
en una camiseta). Siguiendo con las metáforas –aquí quédate conmigo–, visualizo
este Edge petabyte como una especie de infinito cantoriano, de debate intelectual
posthumano, una cibercultura autogeneradora que muerde delicadamente su cola
de dragón como un ouroboros chino, masticando la naturaleza de la verdad remota
con una poética claridad cristalina, girando y precesando en su propio eje de
escamas, en una nube de internet del tamaño de California.
Douglas Rushkoff
Sí, pero.
Tengo mis sospechas en unos pocos puntos:
Lo primero: no creo que Google haya sido probado «correcto». Sólo efectivo, por el
momento. Una vez que la propia publicicidad se revele como un modelo de negocio
temporal, la habilidad de Google de explotar correctamente la trayectoria de una
industria en descenso podrá entonces ser tenida en cuenta. Sin un contexto más
amplio, el éxito de Google es en realidad una mera táctica. No es una extensión de
una agencia humana (o incluso de una agencia corporativa), sino una puñalada
estratégica basada en la lógica del momento. No es un esfuerzo guiado, sino una
respuesta pasiva. ¿Funciona? De momento. ¿Va a la cabeza? En absoluto.
Asimismo, para determinar la elección humana, o hacer política u obtener ciencia a
partir de la nube [cloud] niega a todos estos campos la presunción de significado.
Vi cómo, durante las elecciones de 2004, las firmas de investigación de mercado
procesaban los datos de esta forma para las campañas de Bush y Kerry. Usarían la
información no relacionada con la política para identificar hogares que parecieran
contener a más votantes indecisos. El modelo predictivo usaría puntos de
referencia tales como si los votantes tenían un perro o un gato, un coche de dos o
cuatro puertas, a qué distancia les quedaba el trabajo y cuánto debían en sus
hipotecas para determinar qué tipo de votantes había dentro. Estas técnicas no
tenían lógica para ellos. La lógica era vista como una distracción. Todo lo que
importaba eran las correlaciones que eran determinadas por ordenadores que
estudiaban minuciosamente los datos. Si resultaba que quienes tenían un gato y un
coche con dos puertas parecían más votar en un cierto sentido o favorecer cierta
causa, entonces las compañías de encuestas podían indicar a los que encuestadores
a qué teléfono tenían que llamar para hacérselas. Chicos con reproductores de DVD
que contenían anuncios personalizados para ciertos hogares se dejarían ver en las
esquinas de las casas, pondrían la canción por ordenador, dejarían un folleto y se
dirigirían a la siguiente. Algo, durante ese proceso, me hizo cínico respecto a ese
campo que emergía de forma no piramidal, contraria a la taxonomía. Estoy
totalmente a favor de una buena «folksonomía», como cuando los chicos etiquetan
sus vídeos favoritos o los post de los blogs. Es así como sabemos qué vídeo de
YouTube ver; hacemos una búsqueda general y luego del hit que ha sido visto más
veces. Pero los números más certeros no hablan por sí mismos. Al olvidar la
taxonomía, la ontología y la psicología, olvidamos por qué estamos aquí en primera
instancia. Quizá el consumidor de vídeos puede olvidar esas disciplinas, ¿pero y el
que hace los vídeos?
Cuando leí los sumamente astutos argumentos de Anderson sobre la dirección de la
ciencia, me sentí preocupado por que la ciencia pudiera muy bien seguir el mismo
curso en la política o en los negocios. Las técnicas del petabyte sin cerebro
favorecen a la industria sobre la reflexión, al consumo sobre la creación, y –me
atrevo a decir– al fascismo descerebrado sobre el reflexivo autogobierno. Son
compatibles con los objetivos ético-agnósticos de las grandes empresas mucho más
de lo que lo son las ciencias más intencionalmente aplicadas a una comunidad o
civilización. Aunque para los propios agnósticos, estas técnicas no son imparciales.
Mientras que su tendencia puede ser menos obvia de lo que les han enseñado a los
científicos humanos en las instituciones de élite, su tendencia no está sin embargo
implícita en el aparente pero falsamente postmecanicista y absolutamente abierto
enfoque de los datos y sus implicaciones. No son en realidad más abiertas que la
apertura de mercados, y en definitiva están inclinadas a su favor. Sólo porque
eliminemos los límites y las distorsiones de la narratividad humana de la ciencia,
no significa que otras distorsiones se apresuren a llenar el vacío.
Oliver Morton
Las provocaciones de Chris Anderson despiertan muchos pensamientos –me
limitaré a dos específicos y dos generales. El primero específico es que Anderson
hace una caracterización equivocada de la física de partículas. El problema con la
física de partículas no es la pobreza de datos –es la complejidad teórica. El
Tevatron, y el LEP antes, habían producido cantidades inmensas de datos para sus
épocas –datos que son un rico suministro. El problema es que el modelo estándar
lo explique todo. El paso que va más allá del modelo estándar no es una reflexión
sobre la pobreza de datos, sino teoría que se nutre de teoría porque los datos están
bien servidos. Esto no significa que no haya un ángulo Googlesco que se pueda usar
aquí –hay un equipo observando los datos de Fermilab en lo que entiendo que es
una efectiva forma de «teoría agnóstica» (ver Particle physicists hunt for the
unexpected de mi colega de Nature Sarah Tomlin)– pero no es algo de vital
importancia. (Y añado brevemente: una teoría como la de Newton, que permite a
los profesionales predecir con precisión las posiciones de los pequeños trozos de
roca que vuelan velozmente, con décadas de antelación, en un sistema solar 10[25]
más grande que las rocas en cuestión pude ser incompleta pero, «en bruto», no lo
es.
Daniel Everett
El ensayo de Chris Anderson hace que me pregunte sobre la lingüística en la era de
los petabytes. En la primera hora de la teoría lingüística en Estados Unidos, los
lingüistas estuvieron, como todos los científicos, preocupados con el
descubrimiento de las regularidades. La antropóloga Ruth Benedict primero, llamó
«patrones en la cultura» a las regularidades en los modos de los humanos de dar
significado al mundo. Más tarde, Edward Sapir, Kenneth Pike y otros buscaron
patrones en el lenguaje, especialmente en las lenguas indias americanas que se
convirtieron en el centro de la lingüística americana diferenciándose así de los
incipientes estudios lingüísticos de los investigadores europeos. Habiendo acabado
de terminar una guía de investigación de campo, mi propio énfasis pedagógico para
los nuevos investigadores es en gran parte el mismo que el de los primeros estudios
de las lenguas indígenas de las Américas –entrar en una comunidad que habla un
idioma no estudiado y seguir procedimientos inductivos estándar para encontrar
regularidades y patrones. Una vez que los patrones han sido descubiertos,
articularlos como normas, anotar las excepciones y ahí lo tienes: una gramática.
Pero hay dos aspectos en los que los lingüistas están empezando a estar
descontentos con esta metodología, como el resultado de unas cuestiones que
conectan con las tesis de Chris Anderson. El primero, que los lingüistas han
comenzado a cuestionar la relevancia de distinguir las reglas de las listas. Segundo,
que han comenzado a preguntarse si el niño procede de facto como un pequeño
lingüista en el aprendizaje de su lengua con procedimientos de inducción y
deducción construidos en él genéticamente, o si el aprendizaje del niño del idioma
tiene lugar de forma muy distinta del modo en que los lingüistas estudian en campo
nuevas lenguas. La diferencia entre las reglas y las listas y los enunciados
extensionales vs. intencionales es la confrontación de que la ley rige contra el
desorden. Así, los humanos estamos motivados por nuestra evolución a clasificar.
Estamos profundamente insatisfechos con los recuentos de datos que parecen más
listas y «meras estadísticas» que generalizaciones basadas en la detección de un
comportamiento estructurado por leyes. Y sin embargo, como muchos han
empezado a señalar, algunos de los hechos más interesantes sobre las lenguas,
especialmente los hechos cruciales que distinguen una lengua de otra, son con
frecuencia listas, más que reglas (o esquemas). La gente tiene que aprender listas
en cualquier lenguaje. Ya que tienen que hacerlo, ¿hay alguna razón para
proponerles un segundo tipo de aprendizaje, o de adquisición en forma de reglas,
estén las propuestas motivadas genéticamente o no? Más curiosamente ¿adquieren
el lenguaje los niños basándose en un conjunto de hipótesis limitado
genéticamente, o tratan el lenguaje como internet y funcionan como calculadoras
estadísticas, como pequeños «Googlers»? Los psicólogos conexionistas de Carnegie
Mellon, Stanford y otras universidades han impulsado hipótesis relacionadas con
nosotros durante años, aunque los lingüistas han tardado en abrazarlas.
La lingüística tiene mucho que hacer durante los próximos años para restituirse a sí
misma en la era de los petabytes. Las generalizaciones estadísticas sobre grandes
cantidades de datos pueden ser más útiles en algunos aspectos, al menos si las
usamos como herramientas paralelas, que la reflexión superficial sobre pequeños
montones de datos que caracteriza a los primeros modelos de las ciencias humanas.
Puede muy bien ser, de hecho a muchos de nosotros nos parece más probable, que
los modelos previos basados principalmente en la inducción o en los genes eran
incapaces de explicar qué es lo fundamental qué queremos explicar –cómo los
niños aprenden las lenguas y cómo las lenguas pueden diferir de interesantes
formas mientras comparten profundas similitudes.
Gloria Origgi
Estoy de acuerdo con Daniel Hills en que lo que dice Chris Anderson: aunque
provocador y oportuno, no es exactamente una nueva noticia. La ciencia se ha
valido siempre de las correlaciones con el fin de ganar fuerza predictiva. La ciencia
social más que otras ciencias: tenemos pocos mecanismos causales sólidos que
expliquen por qué la gente se comporta de un modo o de otro, o por qué estallan las
guerras, pero un montón de correlaciones sólidas –para las que no tenemos
fundamentos– que es mejor tener en cuenta si queremos entender mejor un
fenómeno. Si el aumento de la tasas de mortalidad infantil resulta estar
correlacionado con la caída del Imperio soviético (como se ha señalado), es en
efecto información relevante, aunque carezcamos de una explicación causal para
ello. De modo que buscamos un posible mecanismo causal que sustente esta
correlación. La buena ciencia social encuentra mecanismos causales que no son
completamente ad hoc y que sustentan las generalizaciones en otros casos. La mala
ciencia social se atasca en las interpretaciones que suelen confirmar los prejuicios
ideológicos del científico. La ciencia describe, predice y explica el mundo: las
correlaciones ayudan a predecir, y también pueden describir el mundo de una
nueva forma, como un enredado conjunto de petabytes, pero no explican nada si no
son sustentadas por un mecanismo causal. La función explicativa de la ciencia, esto
es, responder los porqués, puede ser sólo un pequeño elemento de la empresa en su
totalidad: y de hecho, coincido plenamente con Anderson en que las técnicas y los
métodos de recopilación de datos pueden ser transformados completamente por la
densidad de la información disponible y la existencia de algoritmos estadísticos que
filtren esta información con una tremenda capacidad de computación.
Así que nada de nostalgia por los buenos viejos métodos si las nuevas técnicas de
compilación de datos son más eficientes para predecir eventos. Ni nada de
nostalgia por los «malos» modelos si las nuevas técnicas son lo suficientemente
buenas como para proporcionarnos comprensión (la Inteligencia Artificial frente a
los motores de búsqueda, por ejemplo). De modo que, pensemos en la era de los
petabytes como una era en la que «el contexto del descubrimiento», por usar el
viejo estribillo de la filosofía de la ciencia, es masivamente mecanizado por el
tratamiento algorítmico de enormes cantidades de datos, mientras que el «contexto
del descubrimiento» sigue perteneciendo a la ambición humana de dar sentido al
mundo que nos rodea.
Esto deja sitio para los porqués, es decir, ¿por qué algunas de las correlaciones
estadísticas extraídas por los algoritmos son tan condenadamente buenas?
Sabemos que son buenas porque tenemos la intuición de que funcionan y de que
nos dan la respuesta correcta, pero este «equilibrio reflexivo» entre las respuestas
clasificadas de Google a nuestras peticiones y nuestra intuición de que la
clasificación es satisfactoria sigue necesitando ser explicado. En el caso de
PageRank, me parece que el algoritmo incorpora un modelo de la web como una
red social estructurada en la que cada link de un nodo a otro es interpretado como
un «voto» de ese nodo al otro. Esto me suena a «teoría», a método de extracción de
información que, aunque sea realizado por máquinas, se realiza en la base de una
conceptualización de la realidad con el fin de obtenerla correctamente.
Puede surgir una nueva ciencia en la era Petabyte, esto es, una ciencia que intenta
responder las preguntas a cómo los procesos de la inteligencia colectiva hicieron
posible, mediante las nuevas y enormes cantidades de datos que pueden
combinarse fácilmente por potentes algoritmos de forma fiable. Quizá sea una
ciencia «más suave», totalmente nueva, liberada al fin de la carga del rigor de los
«métodos cuantitativos» que hacen a los documentos científicos tan aburridos de
leer, que deja esta carga para los algoritmos y deja que las mentes se muevan
libremente entre los datos en el más creativo sentido. La ciencia puede convertirse
en un juego más barato desde el punto de vista de las inversiones para descubrir
nuevos hechos: pero, como filósofa, no creo que estos juegos intelectuales baratos
sean un desafío menor o que merezcan menos jugarse.
Lee Smolin
Para saber qué pensar sobre la hipótesis de Anderson de que el almacenamiento y
procesamiento informáticos de cantidades masivas de datos reemplazarán la
necesidad de formular hipótesis y teorías, se puede ver si tiene alguna relevancia en
la forma en que las supercomputadoras están siendo actualmente usadas en la
física contemporánea. Un ejemplo que me viene a la mente es el de la astronomía
de ondas gravitacionales, en la que una señal amplia al receptor hace imposible
observar las ondas gravitacionales a partir de lo que producen los detectores. En
vez de eso, los flujos de datos masivos creados por la LIGO, VIRGO y otras antenas
de ondas gravitacionales son escaneados por ordenadores sobre plantillas con
formas de onda creadas por los teóricos que modelan las posibles fuentes. Estas
fuentes, como la rotación espiral y la fusión de los agujeros negros y las estrellas de
neutrones, precisan por sí mismas una simulación en superordenadores para
producir las plantillas necesarias.
¿Cuál ha sido la experiencia tras varias décadas de trabajo? Mientras que las ondas
gravitacionales no han sido hasta ahora identificadas, los detectores están activos y
en funcionamiento, como los programas que generan las plantillas con las formas
de las ondas a partir de las fuentes simuladas por el superordenador. Alcanzar este
estadio ha requerido una gran cantidad de cómputos, pero que han sido guiados en
cada fase por los conocimientos teóricos y los enfoques analíticos. Las cuestiones
claves que asomaban fueron resueltas por teóricos que lograron comprender lo que
estaba yendo bien y mal en sus simulaciones, porque eran capaces de formular
hipótesis y probarlas con cálculos analíticos. Aunque no trabajo en este campo, he
tenido claro todos estos años en que he estado observando su desarrollo que el
progreso era gracias a los buenos físicos que hacían lo que los buenos físicos hacen
siempre, construir historias y dibujos intuitivos en sus mentes que les conducen a
hipótesis probables. El hecho de que las hipótesis se basaran en lo que estaba
sucediendo en sus simulaciones informáticas, y no en los datos que provenían de
las observaciones, no quita que se utilizase la misma clase de creatividad y
pensamiento intuitivo, como es tradicional en la ciencia no computacional.
Joel Garreau
Quizá las cosas son diferentes en la física y la biología. Pero por mi experiencia al
estudiar la cultura, los valores y la sociedad, los datos demoran la realidad por
definición –son un pantallazo del pasado. Y cuando la realidad humana no se
alínea convenientemente con los modos establecidos de pensar, los datos pueden
retrasarse durante años, si no décadas.
Los datos son un artefacto de selección, lo que significa que reflejan una hipótesis
subyacente, ya que si no, no habrían sido recogidos. Por ejemplo, en mi trabajo
descubrí que no tenía datos a tiempo para «probar» mi hipótesis de que
Norteamérica estaba actuando como si consistiera en nueve civilizaciones o
economías separadas que rara vez son ligadas por las jurisdicciones políticas de los
países, estados o condados. Era igualmente problemático sacarme datos para
probar que lugares como Silicon Valley se estaban convirtiendo en una versión
moderna de la «ciudad», aunque sus millones de metros cuadrados de grandes
edificios estuvieran justo ante nuestros ojos. Hasta que aquellos modelos de las
«nueve naciones» o la «ciudad en las afueras» no empezaron a ser considerados
útiles por otros, la gente no comenzó a pasar por el gran problema de verificarlos
reuniendo datos de una forma que no conocía los límites anteriores. La vida no está
obligada a seguir los datos, y no es algo que haga con frecuencia.
Ahora los pensadores producen hipótesis con las que se puede trazar un mapa del
cambio cultural y social sobre la Ley de Moore. Será interesante ver el momento en
que los datos demuestren apoyar sus predicciones. Ray Kurzweil y los de la
Singularidad ven una curva exponencial que conduce finalmente a la perfección de
la humanidad análoga a la versión cristiana del «cielo». Los pesimistas como Billy
Joy, Francis Fukuyama, Susan Greenfield y Martin Rees ven una curva gemela que
conduce rápidamente a algo parecido al «infierno». Ambas hipótesis son creíbles.
Pero los datos se retrasan. Es difícil encontrar «pruebas» de que estemos llegando
a lo uno o a lo otro, aunque se basen en las bellas y tersas curvas
tecnodeterministas, de esas que rara vez han sido –si es que lo han sido– un objeto
importante en la historia de la humanidad. Sabe Dios cómo se podría demostrar, a
través de los datos, la llegada de la hipotesis «predominante» descrita por Jaron
Lanier y otros. Esa hipótesis se basa en la idea de que un aspecto importante de la
futura historia es que estamos cubriendo el incremento de nuestros retos mediante
las respuestas imaginativas, tercas, maledicentes y colectivas nutridas desde abajo
por los hombres, desviando los acontecimientos en direcciones impredecibles. En
una gráfica, el resultado –como mucha de la materia prima de la historia– se
mostraría probablemente tan organizado como un plato de espaguetis. Me
encantaría pensar que la ausencia de datos tras las hipótesis –mucho menos la
realidad– está a punto de cambiar. (¡Al fin! ¡Una bola de cristal!) Pero espero
impaciente una demostración.