El Fin de La Teoría

EL FIN DE LA TEORÍA: El diluvio de
datos ¿hará obsoleto el método

científico? Por Chris Anderson, editor
jefe de Wired.
escrito por 3.0
Compartir
Edge (30-6-08) Traducción: Verónica Puertollano
«Todos los modelos son erróneos, pero algunos son útiles».

Dijo el proclamado estadístico George Box hace treinta años, y llevaba razón. Pero
¿qué opción teníamos? Sólo los modelos, desde las ecuaciones cosmológicas a las
teorías de la conducta humana, parecían ser capaces de explicar de forma
coherente, si bien imperfecta, el mundo que nos rodea. Hasta ahora. Hoy, las
empresas como Google que han crecido en una era de masiva abundancia de datos,
no tienen que conformarse con modelos erróneos. De hecho, no tienen que
conformarse con modelos en general.
Hace sesenta años los ordenadores hicieron la información legible. Hace veinte,
internet la hizo alcanzable. Hace diez, los primeros robots araña1 la hicieron una
base de datos sencilla. Ahora Google y compañías similares escudriñan la época
más medida de la historia, tratando este corpus masivo como un laboratorio de la
condición humana. Son hijos de la Era del Petabyte.
La Era del Petabyte es diferente porque más es diferente. Los kilobytes se
almacenaban en disquetes. Los megabytes, en discos duros. Los terabytes, en
sistemas disk array2. Los petabytes se almacenan en clústeres3. De igual modo que
avanzamos en esa progresión, y fuimos de la analogía de la carpeta a la del
archivador y de ahí a la de la biblioteca, al llegar al petabyte nos quedamos sin
analogías organizativas.
En la escala del petabyte, la información no es sólo una cuestión tridimensional ─y
tetradimensional─ de simple taxonomía y orden sino de estadísticas
dimensionalmente agnósticas.
Esto exige un enfoque completamente distinto, que nos haga desprendernos de la
red de datos como algo que pueda ser visualizado en su totalidad. Nos fuerza a ver
los datos matemáticamente primero y establecer un contexto después. Por ejemplo,
Google conquistó el mundo de la publicidad con nada más que matemáticas
aplicadas. No pretende saber nada sobre la cultura y los convencionalismos de la
publicidad ─simplemente supuso que unos mejores datos, con mejores
herramientas de análisis, triunfarían. Y Google estaba en lo cierto.
La filosofía fundacional de Google es que no sabemos por qué esta página es mejor
que esa otra: si las estadísticas de los links entrantes lo dicen, es suficientemente
buena. No se requiere un análisis semántico o causal. Por eso es por lo que Google
puede traducir idiomas sin «saberlos» realmente (dados idénticos cuerpos de
datos, Google puede traducir del klingon4 al persa con la misma facilidad con que
traduce del francés al alemán). Y por qué puede casar los anuncios con los
contenidos sin ningún conocimiento o presunción sobre el anuncio o los
contenidos.
Hablando en la Conferencia O’Reilly de Tecnologías Emergentes el pasado marzo,
Peter Norving, director de investigación de Google, aportó una actualización de la
máxima de George Box: «Todos los modelos son erróneos, y se puede cada vez más
triunfar con ellos”.
Este es un mundo en el que las cantidades masivas de datos y las matemáticas
aplicadas reemplazan a cualquier otra herramienta que pudiera ser utilizada. Fuera
con cada teoría del comportamiento humano. Olvide la taxonomía, la ontología y la
psicología. ¿Quién sabe por qué las personas hacen lo que hacen? La cuestión es
que lo hacen, y podemos seguir su pista y medirlo con una fidelidad sin
precedentes. Con suficientes datos, los números hablan por sí mismos.
No obstante, el gran objetivo aquí no es la publicidad. El método científico está
construido sobre hipótesis comprobables. Estos modelos, en su mayoría, son
sistemas visualizados en la mente de los científicos. Los modelos son entonces
probados, y los experimentos confirman o falsan los modelos teoréticos de cómo
funciona el mundo. Esta es la manera en que la ciencia ha trabajado durante
cientos de años.
Los científicos están preparados para reconocer que la correlación no implica
causalidad, que ninguna conclusión debería apoyarse sólo en la base de la
correlación entre X e Y (podría ser sólo una coincidencia). En su lugar, se deben
comprender los mecanismos subyacentes que conectan a las dos. Una vez que se
tiene un modelo, se puede unificar el conjunto de datos con seguridad. Los datos
sin un modelo son sólo ruido.
Pero en contraste con los datos masivos, este planteamiento de la ciencia
─elaboración de hipótesis, modelo, prueba─ está volviéndose obsoleto. Considérese
la física: los modelos newtonianos fueron rudas aproximaciones a la verdad
(equivocadas al nivel atómico, pero aún útiles). Hace cien años, la mecánica
cuántica fundada estadísticamente ofreció un mejor retrato ─pero aún la mecánica
cuántica es otro modelo, y como tal, también es defectuosa, sin duda la caricatura
de una realidad profunda más compleja. La razón por la que la física se ha
deslizado hacia la especulación teorética sobre los modelos n-dimensionales
unificados globalmente durente las últimas décadas (etapa de «bonita historia» de
una disciplina privada de datos) es que no sabemos cómo ejecutar los experimentos
que falsarían las hipótesis ─las energías son demasiado altas y los aceleradores
demasiado caros, y así.
Ahora la biología apunta a la misma dirección. Los modelos que tomamos en la
escuela sobre los genes «dominantes» y «recesivos» regidos por un proceso
estrictamente mendeliano han resultado ser una simplificación de la realidad aún
mayor que las leyes de Newton. El descubrimiento de las interacciones del gen
proteína y otros aspectos de la epigenética han cuestionado la visión del ADN como
destino e incluso ha aportado indicios de que el ambiente puede influir en rasgos
no heredables, algo que fue una vez considerado genéticamente imposible.
En resumen, cuanto más aprendemos sobre biología, más lejos nos encontramos de
un modelo que pueda explicarla.
Ahora hay un método mejor. Los petabytes nos permiten decir: «la correlación es
suficiente». Podemos dejar de buscar modelos. Podemos analizar los datos sin
hipótesis sobre qué podrían mostrar. Podemos arrojar los números hacia los
clústeres de computación más grandes que el mundo haya visto y dejar que los
algoritmos estadísticos encuentren patrones que la ciencia no puede.
El mejor ejemplo práctico de esto es la secuenciación aleatoria del genoma por J.
Craig Venter. Gracias a secuenciadores de alta velocidad y superordenadores que
analizan estadísticamente los datos que producen, Venter pasó de secuenciar
organismos individuales a secuenciar ecosistemas enteros. En 2003, comenzó a
secuenciar gran parte del océano, recorriendo el viaje del Capitán Cook. Y en 2005
empezó a secuenciar el aire. En el proceso, descubrió miles de especies de bacteria
antes desconocidas y otras formas de vida.
Si las palabras «descubrir nuevas especies» le recuerdan a Darwin y a los dibujos
de pinzones, probablemente esté situado en el modo viejo de hacer ciencia. Venter
no puede decirle casi nada de las especies que él encuentra. No conoce su
apariencia, ni cómo viven, ni mucho más sobre su morfología. No puede incluso
teniendo su genoma entero. Todo lo que tiene es una variación estadística ─una
secuencia única que, siendo distinta a cualquier otra secuencia de la base de datos,
debe representar una nueva especie.
Esta secuencia puede correlacionarse con otras secuencias que se parecen a
aquellas de especies más conocidas. En ese caso, Venter puede hacer algunas
conjeturas sobre los animales ─que convierten la luz del sol en energía de una
determinada manera, o que descienden de un ancestro común. Pero al margen de
eso, no tiene mejores modelos de estas especies de los que tiene Google de su
página MySpace. Son sólo datos. Sin embargo, analizándolos con los recursos
informáticos avanzados de Google, Venter ha modernizado la biología mucho más
que cualquiera de su generación.
Esta forma de pensar está lista para ser la corriente dominante. En febrero, la
Fundación Nacional de la Ciencia anunció el Cluster Exploratory [CluE] un
programa de fondos para la investigación diseñado para ser ejecutado en una
plataforma de computación distribuida a gran escala, desarrollada por IBM y
Google en conjunto con seis universidades piloto. El cluster consistirá en 1.600
procesadores, varios terabytes de memoria y cientos de almacenaje, junto al
software, que incluye el Tivoli de IBM y versiones open source de Google File
System [GFS] y Google MapReduce. Los primeros proyectos CluE incluirán
simulaciones del cerebro y del sistema nervioso y otras investigaciones biológicas
que se sitúan entre el wetware y el software.
Aprender a usar un «ordenador» de estas proporciones puede ser un reto. Pero la
oportunidad es grande: la nueva disponibilidad de enormes cantidades de datos,
junto a las herramientas estadísticas que hagan los cálculos, ofrece toda una nueva
forma de entender el mundo. La correlación sustituye a la causalidad, y la ciencia
puede avanzar aun sin modelos coherentes, teorías unificadas o ciertamente
cualquier otra explicación mecanística. No hay razones para aferrarnos a nuestros
viejos usos. Es hora de preguntar: ¿Qué puede aprender la ciencia de Google?
Sobre El fin de la teoría de Chris Anderson.
George Dyson
Durante mucho tiempo he estado obcecado en la idea de que el cerebro contiene de
alguna forma un «modelo» de la realidad, y que la Inteligencia Artificial se hará
realidad cuando entendamos ese modelo inserto en una máquina. ¿Qué es un
modelo? Podemos plantear dos condiciones: a/ algo que funcione y b/ algo que
entendamos. Se puede tener a sin b. Nuestras grandes creaciones distribuidas a
escala petabyte están empezando a captar la realidad de un modo que funciona
bien, pero que no necesariamente entendemos. Pero cuando podamos finalmente
apartar el cerebro, neurona por neurona, sin encontrar nunca el modelo, podremos
descubrir que la verdadera IA vino a la existencia sin que nadie desarrollara nunca
un modelo coherente de realidad o una teoría inequívoca de la inteligencia. La
realidad, con sus ambigüedades, funciona. Puede que nuestro verdadero destino
como especie sea construir una inteligencia de probado gran éxito, entendamos o
no cómo funcione. La memoria colectiva asociativa distribuida masivamente que
constituye la «supramente» (o el Ordenador Único de Kevin) ya está formando
asociaciones, detectando patrones y haciendo predicciones –aunque esto no
signifique pensar en el modo en que lo hacemos o en una escala que podamos
comprender. El repentino aluvión de grandes bases de datos y la apertura de un
territorio científico completamente nuevo promete una vuelta a la emoción del
nacimiento de la ciencia (moderna) en el siglo XVII, cuando era, como Newton,
Boyle, Hooke, Petty y el resto vieron, «el negocio de la Filosofía Natural» el que
averiguaba las cosas. Lo que Chris Anderson da a entender es que la ciencia irá
perteneciendo cada vez más a una nueva generación de filósofos naturales que no
sólo están leyendo la naturaleza, sino que están empezando a leer la «supramente».
¿Hará esto que el método científico quede obsoleto? No. Aún estamos muy cerca de
los comienzos del método científico para hablar de su fin. Como Sir Robert
Southwell escribió a William Petty el 28 de septiembre de 1687, poco antes de ser
elegido presidente de la Royal Society, «La intuición de la verdad no resulta tan
sabrosa como la Verdad ya cazada».
Kevin Kelly
Existe la incipiente sensación de que las bases de datos extremadamente grandes, a
partir del nivel petabyte, podrían cambiar el modo en que aprendemos las cosas. El
modo tradicional de hacer ciencia implica construir una hipótesis que coincida con
los datos observados o solicitar otros nuevos. Dado un grupo de observaciones ¿qué
teoría explica cuántos datos son suficientes para poder predecir la siguiente
observación? Puede resultar que volúmenes de datos tremendamente grandes sean
suficientes para saltarse la teoría y hacer una observación predictiva. Google fue
uno de los primeros en darse cuenta de esto. Pongamos el ejemplo del corrector
ortográfico de Google. Cuando, googleando, escribes una palabra mal, Google
surgiere la forma correcta. ¿Cómo lo sabe? ¿Cómo predice la palabra correcta? No
es porque tenga una teoría sobre la ortografía, ni porque haya llegado a dominar las
reglas ortográficas. De hecho, Google no sabe nada en absoluto sobre ortografía. En
su lugar, Google opera con un gran conjunto de datos de observaciones que
muestran que para cualquier palabra escrita hay x personas que dicen «sí» cuando
se les pregunta si querían decir la palabra «y». El motor ortográfico de Google
consiste enteramente en estos puntos de referencia, más que en cualquier otra
noción sobre la correcta escritura del inglés. Por eso, el mismo sistema puede
corregir la ortografía de cualquier idioma. Lo cierto es que Google emplea la misma
filosofía de aprendizaje mediante datos masivos para sus programas de traducción.
Pueden traducir del inglés al francés, o del alemán al chino, haciendo correlaciones
entre inmensos conjuntos de datos a partir del material traducido por el hombre.
Por ejemplo, Google entrena su motor de traducción francés-inglés surtiéndolo de
documentos canadienses que han sido publicados de manera frecuente tanto en
inglés como en francés. Los de Google no conocen la teoría del idioma,
especialmente del francés, tampoco un traductor con inteligencia artificial. Y las
traducciones son bastante buenas. No al nivel de experto, pero lo suficiente para
entender lo esencial. Puedes coger una web china y al menos captar el sentido de lo
que significa en inglés. Pero como Peter Norving, director de investigación de
Google, presumía ante mí, «ni una sola persona que trabajara en el traductor de
chino hablaba chino». No hay teoría de chino, ni comprensión. Sólo datos. (Si
alguien ha querido alguna vez una refutación del enigma de Searle de la Sala China,
aquí la tiene).
Si se puede saber cómo se escribe una palabra sin saber nada sobre ortografía o
gramática, y si se puede saber cómo traducir idiomas sin tener ninguna teoría o
concepto sobre la gramática de esos idiomas que estás traduciendo, entonces ¿qué
más se puede saber sin la teoría? Chris Anderson está explorando la idea de que
quizá se pueda hacer ciencia sin tener teorías.
Este es un mundo en el que las cantidades masivas de datos y las matemáticas

aplicadas reemplazan a cualquier otra herramienta que pudiera ser utilizada. Fuera
con cada teoría del comportamiento humano. Olvide la taxonomía, la ontología y la
psicología. ¿Quién sabe por qué las personas hacen lo que hacen? La cuestión es
que lo hacen, y podemos seguir su pista y medirlo con una fidelidad sin
precedentes. Con suficientes datos, los números hablan por sí mismos.
Quizá haya algo respecto a esta observación. Muchas ciencias como la astronomía,
la física, la genómica, la lingüística y la geología están generando hoy conjuntos de
datos extremadamente grandes y constantes flujos de datos a nivel petabyte. En
una década habrán alcanzado el nivel exabyte [mil millones de Gb]. Usando
«máquinas de aprendizaje» pasadas de moda, los ordenadores pueden extraer
patrones en este océano de datos que ningún humano podría detectar posiblemente
nunca. Estos patrones son correlaciones. Pueden ser o no causales, pero podemos
aprender nuevas cosas. Por tanto, logran lo que la ciencia hace, aunque no de la
manera tradicional. Lo que Anderson está planteando es que a veces basta con las
suficientes correlaciones. Hay un buen paralelismo en la salud. Un montón de
trabajos médicos en el enfoque correlativo. El doctor puede no encontrar nunca la
causa real de una dolencia, pero puede predecir correctamente su curso y tratar los
síntomas. ¿Pero es esto verdadera ciencia? Se pueden tener resultados, pero si no
se tiene un modelo ¿es algo en lo que otros puedan basarse? No lo sabemos todavía.
El término técnico para este enfoque científico es Data Intensive Scalable
Computation (DiSC). Otros términos son «Grid Datafarm Architecture» o
«Petascale Data Intensive Computing ». Estas técnicas hacen más hincapié en la
naturaleza de los datos intensivos que en los propios clusters de computación. La
industria online llama a esta forma de investigación una especie de «analytics».
Empresas de cloud computing como Google, IBM y Yahoo, y algunas universidades
han hecho talleres sobre el tema. En esencia, estos pioneros están intentando
explotar el cloud computing, o la Máquina Única, para la ciencia a gran escala. Las
herramientas actuales incluyen masivas plataformas software como MapReduce
(Ver: A Cloudbook For The Cloud), almacenaje barato, y gigantescos clusters de
centros de datos. Hasta la fecha, muy pocos científicos, al margen de la genómica,
están empleando estas nuevas herramientas. La intención del NSF’s Cluster
Exploratory program es reunir a científicos que posean grandes cantidades de
datos basados en las observaciones con los científicos informáticos que tienen
contacto y pericia con el cluster/cloud computing.
Mi impresión es que este método naciente será una herramienta adicional en la

evolución del método científico. No reemplazará a ninguno de los métodos vigentes
(¡lo siento, la ciencia no se acaba!) pero complementará la teoría establecida por la
ciencia. Llamemos a este enfoque de datos intensivos, para solucionar el problema,
Correlative Analytics. Creo que Chris Anderson desaprovecha una oportunidad
única titulando su tesis «El fin de la teoría», porque eso es una negación, la
ausencia de algo. Es más bien el comienzo de algo, y ahora es cuando se tiene la
posibilidad de acelerar ese nacimiento dándole un nombre positivo. Un nombre no
negativo también ayudará a clarificar la tesis. Estoy sugiriendo Correlative
Analytics en lugar de No Teoría porque no estoy completamente seguro de que
estos sistemas correlativos carezcan de modelo. Creo que hay un incipiente e
inconsciente modelo implícito incrustado en el sistema que genera las respuestas.
Si ninguno de los que trabajan en la Sala China de Google que habla inglés conoce
la teoría del chino, podemos seguir pensando en la Sala como una forma de teoría.
El modelo puede estar más allá de la percepción y la comprensión de los creadores
del sistema, y ya que funciona, no merece la pena intentar descubrirlo. Pero puede
seguir estando ahí. Simplemente opera a un nivel al que no tenemos acceso.
Pero no importa la invisibilidad de los modelos, porque funcionan. No es el fin de

las teorías, sino el fin de las teorías que entendemos. George Dyson dice esto
mucho mejor en su respuesta a Chris Anderson. Lo que George Dyson sugiere es
que este nuevo método de hacer ciencia –reunir zillones de puntos de referencia y
después hacer que la Máquina Única calcule una respuesta correlativa– puede ser
también pensado como método de comunicación con un nuevo tipo de científico,
uno que puede crear modelos a niveles de abstracción (en el mundo de los zillones)
más alla de nuestras propias facultades. Hasta ahora Correlative Analytics, o el
modo Google de hacer ciencia, han sido principalmente utilizados en áreas
sociológicas, como la traducción de idiomas, o el marketing. Ahí es donde los
zillones de datos han estado. Todos esos zillones de puntos generados por nuestra
vida colectiva online. Pero a medida que nuestras observaciones y medidas de la
naturaleza sean captadas durante 24 horas, 7 días a la semana, con una variedad
creciente de pruebas y sensores, la ciencia también entrará en el campo de los
zillones y será procesada fácilmente por las nuevas herramientas de Correlative
Analytics. En esta parte de la ciencia, podemos obtener respuetas que funcionan,
pero que no entendemos. ¿Es esto una comprensión parcial? ¿O una nueva forma
de comprensión? Quizá la comprensión y las respuestas están sobrevaloradas. «El
problema de los ordenadores», se rumorea que dijo Pablo Picasso, «es que sólo te
dan respuestas». Estos inmensos sistemas correlativos basados en datos nos darán
montones de respuestas –de buenas repuestas– pero es todo lo que nos darán. Eso
es lo hace al Ordenador Único –darnos buenas respuestas. En el nuevo mundo del
cloud computing las buenas respuestas se convertirán perfectamente en una
mercancía. El valor real del resto de la ciencia se convierte entonces en hacer
buenas preguntas. [Ver The Google Way of Science en el blog de Kevin Kelly].
Stewart Brand
La humanidad digital ha pasado aparentemente de un hito a otro durante los
últimos pocos años. Ahora nos damos cuenta. Darse cuenta suele ser de ayuda.
Coincidiremos en uno o dos nombres para el nuevo hito y observaremos lo que la
inducción nos diga sobre cómo funciona o para qué sirve.
W. Daniel Hills
Soy un gran fan de Google, y me encanta buscar patrones matemáticos en los datos,
pero el artículo de Chris Anderson, El fin de la teoría, establece una falsa distinción.
Afirma que usando una gran colección de datos para «ver los datos
matemáticamente primero y establecer un contexto después» es en cierto modo
distinto de «la manera en que la ciencia ha trabajado durante cientos de años». No
estoy de acuerdo.
La ciencia siempre comienza buscando patrones en los datos, y los primeros

modelos simples eran siempre meras extrapolaciones de lo que habíamos visto
antes. Los astrónomos eran capaces de predecir con precisión los movimientos de
los planetas mucho antes de las teorías de Newton. Lo hicieron reuniendo
montones de datos y buscando patrones matemáticos.
El «nuevo» método que Chris Anderson describe ha estado siempre en el punto de

partida: reunir una cantidad de datos y asumir que es representativa de otras
situaciones. Esto funciona bien mientras no intentemos extrapolarlo demasiado a
partir de lo que hemos observado. Es un tipo de modelo muy sencillo, un modelo
que dice «lo que vamos a ver a continuación será mucho más de lo que hemos visto
hasta ahora». Suele ser una buena conjetura. Los datos existentes siempre nos dan
nuestra primera hipótesis. Los humanos y otros animales están probablemente
preparados para ese tipo de extrapolación. Las herramientas matemáticas como las
ecuaciones diferenciales y la estadística fueron desarrolladas para ayudarnos a
hacer un mejor uso de ellas. Estas herramientas científicas han sido usadas durante
siglos y los ordenadores nos han dejado aplicarlas a mayores conjuntos de datos.
También nos han permitido reunir más datos que extrapolar. Los métodos basados
en datos que aplicamos a los petabytes son los métodos que siempre hemos
probado en primer lugar.
El método experimental (hipótesis, modelo, prueba) es lo que permite a la ciencia
ir más allá de lo que puede ser extrapolado a partir de los datos existentes. Las
hipótesis son más interesantes cuando predicen algo que es diferente de lo que
hemos visto hasta ahora. Por ejemplo, el modelo de Newton pudo predecir las
trayectorias de planetas no descubiertos, mientras que los obsoletos modelos
basados en datos, no. El modelo de Einstein, a su vez, predijo métodos que habrían
sorprendido a Newton. Los modelos son interesantes precisamente porque pueden
llevarnos más allá de los datos.
Chris Anderson dice que «este planteamiento de la ciencia –hipótesis, modelo,

prueba– se está volviendo obsoleto». No dudo que la frase pretende ser
provocadora, pero no veo ni siquiera una pizca de verdad en ella. Comparto su
entusiasmo por las posibilidades creadas por los conjuntos de datos de petabytes y
la computación paralela, pero no veo por qué grandes las grandes cantidades de
datos vayan a minar el método científico. Empezaremos, como siempre, por buscar
patrones sencillos en lo que hemos observado y los usaremos para hacer una
hipótesis sobre lo que es cierto en otra parte. Cuando nuestras extrapolaciones
funcionen, creeremos en ellas, y cuando no, crearemos nuevos modelos y
probaremos sus consecuencias. Extrapolaremos a partir de los datos primero y los
estableceremos en un contexto después. Esta es la forma de hacer ciencia que ha
funcionado durante cientos de años.
Chris Anderson acierta en su intuición de que hay algo diferente sobre estas nuevas
y grandes bases de datos, pero no ha identificado bien lo que es. Lo que es
interesante es que por primera vez tenemos datos significativamente cuantitativos
sobre las variaciones de los individuos: su comportamiento, su interacción e
incluso sus genes. Estos nuevas bases de datos inmensas nos dan una medida de la
riqueza de la condición humana. Ahora podemos vernos a nosotros mismos con las
herramientas que hemos desarrollado para estudiar las estrellas.
Sean Carroll
¿Qué es una buena teoría?
A principios del siglo XVII, Johannes Kepler propuso sus Tres Leyes del
Movimiento Planetario: los planetas se mueven en elipses, barren áreas iguales en
tiempos iguales y sus periodos son proporcionales al cubo de la distancia media
desde el Sol. Esto fue un gran avance en el aspecto astronómico de la cultura,
descubriendo un conjunto de relaciones simples en los voluminosos datos sobre los
movimientos de los planetas que habían sido reunidos por su mentor Tycho Brahe.
Más tarde, en el mismo siglo, Sir Isaac Newton propuso su teoría de la mecánica,
que incluía sus Leyes del Movimiento y su Ley de la Gravitación Universal (la
fuerza ejercida por la gravedad inversamente proporcional al cuadrado de la
distancia). En el sistema de Newton, se podían derivar las leyes de Kepler –en vez
de oponerlas– y muchas otras cosas. Esto era generalmente considerado como un
importante paso al frente. No sólo teníamos reglas de una aplicabilidad mucho más
amplia, sino que podíamos afirmar con sensatez que entendíamos lo que estaba
pasando. Entender es algo bueno, y es en cierto sentido el primer objetivo de la
ciencia.
Chris Anderson parece querer que lo deshagamos. Comienza con un

verdaderamente importante y emocionante desarrollo –las nuevas bases de datos
gigantes de petabytes que resisten modos ordinarios de análisis, pero que podemos
usar para descubrir patrones inesperados hasta ahora indagando en los torrentes
de información– de que la era de la teoría ha terminado. Él imagina un mundo en
el cual los científicos escudriñan las pilas gigantes de números, buscando cosas
frescas, y que no se molestan en entender lo que todo eso significa en términos de
los sencillos principios que subyacen.
Ahora hay un método mejor. Los petabytes nos permiten decir: «la correlación es
suficiente». Podemos dejar de buscar modelos. Podemos analizar los datos sin
hipótesis sobre qué podrían mostrar.
Bien, podemos hacer eso. Pero, como le gustaba decir a Richard Nixon, sería
incorrecto. A veces será duro, o imposible, descubrir modelos sencillos que
expliquen las inmensas colecciones de datos enmarañados tomados de los
fenómenos ruidosos y no lineales. Pero eso no significa que no debamos intentarlo.
Las hipótesis no son sólo herramientas útiles en algunas visiones de la ciencia
potencialmente obsoletas; lo son todo. La teoría es comprender, y comprender
nuestro mundo es de lo que trata totalmente la ciencia.
Jaron Lanier
El objetivo de la teoría científica no es que un ángel vaya a apreciarla. Su propósito
es la comprensión humana. La ciencia sin una búsqueda de teorías significa una
ciencia sin humanos. Los científicos están mundialmente contentos con los nuevos
grandes recursos relacionados con la computación. Soy consciente de que nadie
discute ese punto. La única idea en el texto de Chris Anderson que se sale de esa
feliz zona de consenso es que no deberíamos querer entender nuestro propio
trabajo cuando usamos los nuevos recursos. Encuentra emocionante que podamos
hacer algo que funciona sin comprender el porqué. Esto es precisamente lo que no
debería ser emocionante. Algunos remedios caseros funcionan y no sabemos por
qué. La ciencia va de entender. La comprensión es mucho más excitante que los
remedios caseros. Anderson parece decir que es inútil ser humano. Las máquinas
deberían ser ahora las que piensen, y ser las heroínas del descubrimiento. Digo
«parece» porque no me creo que esté siendo sincero. Creo que es una treta para
lograr cierto tipo de atención. Escuchar la retórica antihumana produce la misma
punzada que la trama de una película sobre un asesino en serie. Alguna parte
profunda y moral de todos nosotros está tan ofendida que no podemos desviar
nuestra atención.
Joseph Traub
Estoy de acuerdo con Danny Hills en que las grandes cantidades de datos no
socavarán el método científico. De hecho, las leyes científicas codifican una
inmensa cantidad de datos. Pienso en el ejemplo de las ecuaciones de Maxwell o en
las leyes de Kepler. ¿Por qué piensa Chris Anderson que con más datos aún, las
leyes (lo que él llama teoría) se volverá menos importante?
John Horgan
Mi primera reacción al ensayo de Chris Anderson fue, no, otra Gran-Profecía-del-
Fin-de-Algo. Anderson, además, recicla la retórica del caos, la complejidad y la
Inteligencia Artificial. ¡Ordenadores aún más poderosos van a encontrar patrones
ocultos en bases de datos cada vez mayores y van a revolucionar la ciencia! No
necesitas ser un ordenador para trazar los ciclos de auge y caída de estas
afirmaciones. Pero la idea de que los ordenadores obviarán la teoría y la
comprensión inspira unos pocos pensamientos:
Montones de grupos que ya trabajan en soluciones a los problemas sin

comprenderlas. Los economistas emplean métodos puramente numéricos para
predecir los mercados, y los matemáticos construyen «pruebas computacionales»
basadas en cálculos masivos en lugar de la lógica comprensible. Esto es menos
ciencia que ingeniería. La ingeniería no busca la verdad. Buscan una solución al
problema. Lo que funciona, funciona. Se podría decir que desde la aparición de la
mecánica cuántica, la física moderna ha dado la predicción sin comprensión. La
teoría cuántica tiene un éxito estupendo, casi demasiado para el que la conviene,
prediciendo los resultados de los experimentos del acelerador. Pero como Niels
Bohr solía decir, cualquiera que diga que entiende la teoría cuántica no sabe lo
primero que hay que saber sobre ella.
Pero dudo de que computadoras procesadoras de cálculo vayan a reemplazar por

completo a los expertos humanos, como da a entender Anderson. Los físicos del
Gran Colisionador de Hadrones tienen que hacer programas que ayuden a sus
ordenadores a averiguar entre la avalancha de datos eventos potencialmente
importantes. El procesador de cálculo masivo de IBM permitió a Deep Blue vencer
a Gary Kasparov. Pero los expertos humanos de ajedrez también incorporaron sus
conocimientos al software de Deep Blue para hacerlo más eficiente y encontrar las
jugadas óptimas. Apuesto a que el traductor de Google incorpora mucha habilidad
humana.
Chris Anderson parece creer que los ordenadores reducirán la ciencia a la pura
inducción, prediciendo el futuro basado en el presente. Este método no puede
naturalmente predecir cisnes negros, anomalías y sucesos verdaderamente
originales. La carga teórica de los expertos humanos no puede prever cisnes negros,
pero para el futuro previsible, los expertos humanos sabrán cómo manejar mejor a
los cisnes negros cuando aparezcan.
Bruce Sterling
La ciencia ficción inmediatamente obsoleta por la «petabyte ficción»
Estoy tan impresionado por los prefijos «peta» y «exa» como el que más. También
me inclino a pensar que los motores de búsqueda son más grandes y mejores que la
Inteligencia Artificial (incluso aunque la IA se las hubiera arreglado alguna vez para
existir fuera de la ciencia ficción). También me encanta la idea de grandes,
nubladas [cloudy] y sin embargo profundas relaciones entre fenómenos
aparentemente inconexos –en literatura, llamamos a esos gadgets «metáforas».
¡Son geniales!
Pero he de preguntarme por qué Chris Anderson quiere que Google –después de
que haya echado inmediatamente por tierra la publicidad– aborde la teoría
científica. La publicidad no tiene nada que ver con la teoría científica. La publicidad
ha sido siempre una completa paparruchada de hechiceros. Despues de que soplara
esa casa de paja, Google puede querer seguir con las de ladrillo (eso es una
metáfora). Seguramente hay otros frutos de fácil alcance que los petabytes podrían
recoger fructíferamente antes de aspirar a las remotas, frágiles y altísimas ramas de
la ciencia. (Otra metáfora –aquí me enrollo).
Por ejemplo: la ideología política. Todo el mundo sabe que la ideología es muy
similar a la publicidad. Así que ¿por qué no hacemos que los zillones establezcan
nuestras creencias políticas, basadas en algunas grandes escalas y asociaciones con
otros fenómenos estadísticamente verificables como, digamos, el color de nuestra
piel o el lugar donde nacimos? La abogacía. ¿Por qué argumentar los casos con
lógica, intentando determinar los hechos, la culpa o la inocencia? Echemos toda la
carga legal de todos los casos conocidos en la tolva de petabytes, y dejemos que los
algoritmos seleccionen el resultado del juicio. Después podemos «colgar a todos los
abogados», como dijo Shakespeare (no es una metáfora). El amor y el matrimonio.
No puedo entender por qué la gente sigue insistiendo en casarse con sus amiguitas
de la infancia cuando una búsqueda petabyte de miles de millones de potenciales
compañeras de todo el mundo resulta demostrablemente más barato y más
efectivo. Las inversiones. Hacer cálculos en el mercado de valores tiene que ser
trabajo de tecnología petabyte. Ningún humano sabe cómo oscila el mercado –es
todo la hora del «triple embrujo», es pura, baja y sucia superstición. Pero
seguramente los propietarios petabyte pueden deducir mecánicamente el (sólo
aparente) caos de los mercados, convirtiéndose en súper-ultramagnates. Entonces
compran toda la ciencia y hacen lo que les parezca con ella. Los escépticos no se
reirán entonces. El diseño gráfico. Éste se mata fácilmente. Se compara el conjunto
total de pixels de un proyecto de página para Wired con el conjunto de todos los
píxeles de todas las páginas de papel que haya escaneado Google. Se pone el
creatímetro en marcha y se genera la imagen gráfica definitiva. Ah, y lo mismo para
toda la música digitalizada en tu iPod, nada más y nada menos. ¿Por qué mezclar
las canciones en random [aleatoriamente] cuando puedes reducir las canciones a
puras longitudes de onda en un alucinante mashup petabyte? Así puedes patentarlo
en vez de poner copyright. Finalmente –aquí llegaré a una pequeña meta–, el
último número de Edge. En lugar de esos dolorosos comentarios que Edge publica
como respuesta a acreditados científicos y sus parásitos culturetas, la Tercera
Cultura conquistará la Tierra cuando todos los comentarios de internet de
cualquier tipo sean analizados para las posibles repuestas Edgy, del modo en que
Google puede traducir estonio a klingon ¡en un solo paso! ¡El resultado es la última
tesis cultural crítico-científica! No es una «Gran Teoría Unificada» –(así de
acabada está la teoría, ya que nunca podrás estampar los datos bancarios de Google
en una camiseta). Siguiendo con las metáforas –aquí quédate conmigo–, visualizo
este Edge petabyte como una especie de infinito cantoriano, de debate intelectual
posthumano, una cibercultura autogeneradora que muerde delicadamente su cola
de dragón como un ouroboros chino, masticando la naturaleza de la verdad remota
con una poética claridad cristalina, girando y precesando en su propio eje de
escamas, en una nube de internet del tamaño de California.
Douglas Rushkoff
Sí, pero.
Tengo mis sospechas en unos pocos puntos:
Lo primero: no creo que Google haya sido probado «correcto». Sólo efectivo, por el
momento. Una vez que la propia publicicidad se revele como un modelo de negocio
temporal, la habilidad de Google de explotar correctamente la trayectoria de una
industria en descenso podrá entonces ser tenida en cuenta. Sin un contexto más
amplio, el éxito de Google es en realidad una mera táctica. No es una extensión de
una agencia humana (o incluso de una agencia corporativa), sino una puñalada
estratégica basada en la lógica del momento. No es un esfuerzo guiado, sino una
respuesta pasiva. ¿Funciona? De momento. ¿Va a la cabeza? En absoluto.
Asimismo, para determinar la elección humana, o hacer política u obtener ciencia a
partir de la nube [cloud] niega a todos estos campos la presunción de significado.
Vi cómo, durante las elecciones de 2004, las firmas de investigación de mercado
procesaban los datos de esta forma para las campañas de Bush y Kerry. Usarían la
información no relacionada con la política para identificar hogares que parecieran
contener a más votantes indecisos. El modelo predictivo usaría puntos de
referencia tales como si los votantes tenían un perro o un gato, un coche de dos o
cuatro puertas, a qué distancia les quedaba el trabajo y cuánto debían en sus
hipotecas para determinar qué tipo de votantes había dentro. Estas técnicas no
tenían lógica para ellos. La lógica era vista como una distracción. Todo lo que
importaba eran las correlaciones que eran determinadas por ordenadores que
estudiaban minuciosamente los datos. Si resultaba que quienes tenían un gato y un
coche con dos puertas parecían más votar en un cierto sentido o favorecer cierta
causa, entonces las compañías de encuestas podían indicar a los que encuestadores
a qué teléfono tenían que llamar para hacérselas. Chicos con reproductores de DVD
que contenían anuncios personalizados para ciertos hogares se dejarían ver en las
esquinas de las casas, pondrían la canción por ordenador, dejarían un folleto y se
dirigirían a la siguiente. Algo, durante ese proceso, me hizo cínico respecto a ese
campo que emergía de forma no piramidal, contraria a la taxonomía. Estoy
totalmente a favor de una buena «folksonomía», como cuando los chicos etiquetan
sus vídeos favoritos o los post de los blogs. Es así como sabemos qué vídeo de
YouTube ver; hacemos una búsqueda general y luego del hit que ha sido visto más
veces. Pero los números más certeros no hablan por sí mismos. Al olvidar la
taxonomía, la ontología y la psicología, olvidamos por qué estamos aquí en primera
instancia. Quizá el consumidor de vídeos puede olvidar esas disciplinas, ¿pero y el
que hace los vídeos?
Cuando leí los sumamente astutos argumentos de Anderson sobre la dirección de la
ciencia, me sentí preocupado por que la ciencia pudiera muy bien seguir el mismo
curso en la política o en los negocios. Las técnicas del petabyte sin cerebro
favorecen a la industria sobre la reflexión, al consumo sobre la creación, y –me
atrevo a decir– al fascismo descerebrado sobre el reflexivo autogobierno. Son
compatibles con los objetivos ético-agnósticos de las grandes empresas mucho más
de lo que lo son las ciencias más intencionalmente aplicadas a una comunidad o
civilización. Aunque para los propios agnósticos, estas técnicas no son imparciales.
Mientras que su tendencia puede ser menos obvia de lo que les han enseñado a los
científicos humanos en las instituciones de élite, su tendencia no está sin embargo
implícita en el aparente pero falsamente postmecanicista y absolutamente abierto
enfoque de los datos y sus implicaciones. No son en realidad más abiertas que la
apertura de mercados, y en definitiva están inclinadas a su favor. Sólo porque
eliminemos los límites y las distorsiones de la narratividad humana de la ciencia,
no significa que otras distorsiones se apresuren a llenar el vacío.
Oliver Morton
Las provocaciones de Chris Anderson despiertan muchos pensamientos –me
limitaré a dos específicos y dos generales. El primero específico es que Anderson
hace una caracterización equivocada de la física de partículas. El problema con la
física de partículas no es la pobreza de datos –es la complejidad teórica. El
Tevatron, y el LEP antes, habían producido cantidades inmensas de datos para sus
épocas –datos que son un rico suministro. El problema es que el modelo estándar
lo explique todo. El paso que va más allá del modelo estándar no es una reflexión
sobre la pobreza de datos, sino teoría que se nutre de teoría porque los datos están
bien servidos. Esto no significa que no haya un ángulo Googlesco que se pueda usar
aquí –hay un equipo observando los datos de Fermilab en lo que entiendo que es
una efectiva forma de «teoría agnóstica» (ver Particle physicists hunt for the
unexpected de mi colega de Nature Sarah Tomlin)– pero no es algo de vital
importancia. (Y añado brevemente: una teoría como la de Newton, que permite a
los profesionales predecir con precisión las posiciones de los pequeños trozos de
roca que vuelan velozmente, con décadas de antelación, en un sistema solar 10[25]
más grande que las rocas en cuestión pude ser incompleta pero, «en bruto», no lo
es.
La segunda caracterización errónea es de la biología. Sugerir que ver el fenotipo

como una interacción del genoma y el entorno es en cierto modo un nuevo
conocimiento, o teóricamente confuso, simplemente no es así. Pero es a lo que
equivale en realidad todo eso que dice de la epigenética y las interacciones de los
genes y las proteínas. No me queda realmente claro en qué sentido serio la biología
forma hoy un modelo «más allá» del que había hace cincuenta años. Ahora hay
nuevos modelos de biología que explican más de lo que entonces era explicable, y
no hay un modelo para todos. En cuanto a los puntos generales, no creo que el
discurso alejado de las normas de Feyerabend del método científico –«vale todo»–
sea la última palabra en este asunto. Pero está más cerca de la verdad que decir que
la ciencia siempre avanza por los modelos, o por cualquier otra estrategia. La
ciencia como proceso de descubrimiento es mucho más interesante que las
herramientas que usa en cualquier momento o en cualquier área disciplinaria.
Y supongo que mi otro punto es «petabytes-¡bah!». Sin duda, un petabyte es algo

grande –pero el número de formas en que uno puede hacer preguntas es mucho
más grande. No soy matemático, y con mucho gusto aceptaré que me corrijan en
esto, pero según lo veo yo, una forma de entender un kilobit es la de un recurso que
puede agotarse –o quizá un espacio que pueda colapsarse– con diez pregutnas de sí
o no: eso es lo que es 2 [10]. Para un kilobyte el número sube a 13. Para un
petabyte, a 53. Hoy, en muchos casos, 53 es un montón de preguntas. Pero en las
redes de miles de genes, no son en verdad tantas. Para entender la biología,
necesitas pensar mucho más grande. Es posible que yo describiera los comienzos
del camino a seguir en «A Machine With a Mind of Its Own», un artículo que
escribí para Wired sobre la científica de robótica de la universidad de Aberystwyth,
y tuve el gusto de escuchar hace poco que ese programa ha comenzado haciendo
verdaderos descubrimientos nada triviales. Pero quizá, para hacerle justicia real a
estas cosas necesitas un millón de millardos de experimentos elegidos por tales
algoritmos –datos que generan datos, en lugar de datos que generan conocimiento;
la clase de futuro retratada en Rainbows End de Vernor Vinge, con sus
indescriptiblemente grandes laboratorios subterráneos automatizados en San
Diego.
Ps. Cualquiera que no aprecie la ironía en el «no, otra Gran-Profecía-del-Fin-de-
Algo» de John Horgan, debería.
Daniel Everett
El ensayo de Chris Anderson hace que me pregunte sobre la lingüística en la era de
los petabytes. En la primera hora de la teoría lingüística en Estados Unidos, los
lingüistas estuvieron, como todos los científicos, preocupados con el
descubrimiento de las regularidades. La antropóloga Ruth Benedict primero, llamó
«patrones en la cultura» a las regularidades en los modos de los humanos de dar
significado al mundo. Más tarde, Edward Sapir, Kenneth Pike y otros buscaron
patrones en el lenguaje, especialmente en las lenguas indias americanas que se
convirtieron en el centro de la lingüística americana diferenciándose así de los
incipientes estudios lingüísticos de los investigadores europeos. Habiendo acabado
de terminar una guía de investigación de campo, mi propio énfasis pedagógico para
los nuevos investigadores es en gran parte el mismo que el de los primeros estudios
de las lenguas indígenas de las Américas –entrar en una comunidad que habla un
idioma no estudiado y seguir procedimientos inductivos estándar para encontrar
regularidades y patrones. Una vez que los patrones han sido descubiertos,
articularlos como normas, anotar las excepciones y ahí lo tienes: una gramática.
Pero hay dos aspectos en los que los lingüistas están empezando a estar
descontentos con esta metodología, como el resultado de unas cuestiones que
conectan con las tesis de Chris Anderson. El primero, que los lingüistas han
comenzado a cuestionar la relevancia de distinguir las reglas de las listas. Segundo,
que han comenzado a preguntarse si el niño procede de facto como un pequeño
lingüista en el aprendizaje de su lengua con procedimientos de inducción y
deducción construidos en él genéticamente, o si el aprendizaje del niño del idioma
tiene lugar de forma muy distinta del modo en que los lingüistas estudian en campo
nuevas lenguas. La diferencia entre las reglas y las listas y los enunciados
extensionales vs. intencionales es la confrontación de que la ley rige contra el
desorden. Así, los humanos estamos motivados por nuestra evolución a clasificar.
Estamos profundamente insatisfechos con los recuentos de datos que parecen más
listas y «meras estadísticas» que generalizaciones basadas en la detección de un
comportamiento estructurado por leyes. Y sin embargo, como muchos han
empezado a señalar, algunos de los hechos más interesantes sobre las lenguas,
especialmente los hechos cruciales que distinguen una lengua de otra, son con
frecuencia listas, más que reglas (o esquemas). La gente tiene que aprender listas
en cualquier lenguaje. Ya que tienen que hacerlo, ¿hay alguna razón para
proponerles un segundo tipo de aprendizaje, o de adquisición en forma de reglas,
estén las propuestas motivadas genéticamente o no? Más curiosamente ¿adquieren
el lenguaje los niños basándose en un conjunto de hipótesis limitado
genéticamente, o tratan el lenguaje como internet y funcionan como calculadoras
estadísticas, como pequeños «Googlers»? Los psicólogos conexionistas de Carnegie
Mellon, Stanford y otras universidades han impulsado hipótesis relacionadas con
nosotros durante años, aunque los lingüistas han tardado en abrazarlas.
La lingüística tiene mucho que hacer durante los próximos años para restituirse a sí
misma en la era de los petabytes. Las generalizaciones estadísticas sobre grandes
cantidades de datos pueden ser más útiles en algunos aspectos, al menos si las
usamos como herramientas paralelas, que la reflexión superficial sobre pequeños
montones de datos que caracteriza a los primeros modelos de las ciencias humanas.
Puede muy bien ser, de hecho a muchos de nosotros nos parece más probable, que
los modelos previos basados principalmente en la inducción o en los genes eran
incapaces de explicar qué es lo fundamental qué queremos explicar –cómo los
niños aprenden las lenguas y cómo las lenguas pueden diferir de interesantes
formas mientras comparten profundas similitudes.
Gloria Origgi
Estoy de acuerdo con Daniel Hills en que lo que dice Chris Anderson: aunque
provocador y oportuno, no es exactamente una nueva noticia. La ciencia se ha
valido siempre de las correlaciones con el fin de ganar fuerza predictiva. La ciencia
social más que otras ciencias: tenemos pocos mecanismos causales sólidos que
expliquen por qué la gente se comporta de un modo o de otro, o por qué estallan las
guerras, pero un montón de correlaciones sólidas –para las que no tenemos
fundamentos– que es mejor tener en cuenta si queremos entender mejor un
fenómeno. Si el aumento de la tasas de mortalidad infantil resulta estar
correlacionado con la caída del Imperio soviético (como se ha señalado), es en
efecto información relevante, aunque carezcamos de una explicación causal para
ello. De modo que buscamos un posible mecanismo causal que sustente esta
correlación. La buena ciencia social encuentra mecanismos causales que no son
completamente ad hoc y que sustentan las generalizaciones en otros casos. La mala
ciencia social se atasca en las interpretaciones que suelen confirmar los prejuicios
ideológicos del científico. La ciencia describe, predice y explica el mundo: las
correlaciones ayudan a predecir, y también pueden describir el mundo de una
nueva forma, como un enredado conjunto de petabytes, pero no explican nada si no
son sustentadas por un mecanismo causal. La función explicativa de la ciencia, esto
es, responder los porqués, puede ser sólo un pequeño elemento de la empresa en su
totalidad: y de hecho, coincido plenamente con Anderson en que las técnicas y los
métodos de recopilación de datos pueden ser transformados completamente por la
densidad de la información disponible y la existencia de algoritmos estadísticos que
filtren esta información con una tremenda capacidad de computación.
Así que nada de nostalgia por los buenos viejos métodos si las nuevas técnicas de
compilación de datos son más eficientes para predecir eventos. Ni nada de
nostalgia por los «malos» modelos si las nuevas técnicas son lo suficientemente
buenas como para proporcionarnos comprensión (la Inteligencia Artificial frente a
los motores de búsqueda, por ejemplo). De modo que, pensemos en la era de los
petabytes como una era en la que «el contexto del descubrimiento», por usar el
viejo estribillo de la filosofía de la ciencia, es masivamente mecanizado por el
tratamiento algorítmico de enormes cantidades de datos, mientras que el «contexto
del descubrimiento» sigue perteneciendo a la ambición humana de dar sentido al
mundo que nos rodea.
Esto deja sitio para los porqués, es decir, ¿por qué algunas de las correlaciones
estadísticas extraídas por los algoritmos son tan condenadamente buenas?
Sabemos que son buenas porque tenemos la intuición de que funcionan y de que
nos dan la respuesta correcta, pero este «equilibrio reflexivo» entre las respuestas
clasificadas de Google a nuestras peticiones y nuestra intuición de que la
clasificación es satisfactoria sigue necesitando ser explicado. En el caso de
PageRank, me parece que el algoritmo incorpora un modelo de la web como una
red social estructurada en la que cada link de un nodo a otro es interpretado como
un «voto» de ese nodo al otro. Esto me suena a «teoría», a método de extracción de
información que, aunque sea realizado por máquinas, se realiza en la base de una
conceptualización de la realidad con el fin de obtenerla correctamente.
Puede surgir una nueva ciencia en la era Petabyte, esto es, una ciencia que intenta
responder las preguntas a cómo los procesos de la inteligencia colectiva hicieron
posible, mediante las nuevas y enormes cantidades de datos que pueden
combinarse fácilmente por potentes algoritmos de forma fiable. Quizá sea una
ciencia «más suave», totalmente nueva, liberada al fin de la carga del rigor de los
«métodos cuantitativos» que hacen a los documentos científicos tan aburridos de
leer, que deja esta carga para los algoritmos y deja que las mentes se muevan
libremente entre los datos en el más creativo sentido. La ciencia puede convertirse
en un juego más barato desde el punto de vista de las inversiones para descubrir
nuevos hechos: pero, como filósofa, no creo que estos juegos intelectuales baratos
sean un desafío menor o que merezcan menos jugarse.
Lee Smolin
Para saber qué pensar sobre la hipótesis de Anderson de que el almacenamiento y
procesamiento informáticos de cantidades masivas de datos reemplazarán la
necesidad de formular hipótesis y teorías, se puede ver si tiene alguna relevancia en
la forma en que las supercomputadoras están siendo actualmente usadas en la
física contemporánea. Un ejemplo que me viene a la mente es el de la astronomía
de ondas gravitacionales, en la que una señal amplia al receptor hace imposible
observar las ondas gravitacionales a partir de lo que producen los detectores. En
vez de eso, los flujos de datos masivos creados por la LIGO, VIRGO y otras antenas
de ondas gravitacionales son escaneados por ordenadores sobre plantillas con
formas de onda creadas por los teóricos que modelan las posibles fuentes. Estas
fuentes, como la rotación espiral y la fusión de los agujeros negros y las estrellas de
neutrones, precisan por sí mismas una simulación en superordenadores para
producir las plantillas necesarias.
¿Cuál ha sido la experiencia tras varias décadas de trabajo? Mientras que las ondas
gravitacionales no han sido hasta ahora identificadas, los detectores están activos y
en funcionamiento, como los programas que generan las plantillas con las formas
de las ondas a partir de las fuentes simuladas por el superordenador. Alcanzar este
estadio ha requerido una gran cantidad de cómputos, pero que han sido guiados en
cada fase por los conocimientos teóricos y los enfoques analíticos. Las cuestiones
claves que asomaban fueron resueltas por teóricos que lograron comprender lo que
estaba yendo bien y mal en sus simulaciones, porque eran capaces de formular
hipótesis y probarlas con cálculos analíticos. Aunque no trabajo en este campo, he
tenido claro todos estos años en que he estado observando su desarrollo que el
progreso era gracias a los buenos físicos que hacían lo que los buenos físicos hacen
siempre, construir historias y dibujos intuitivos en sus mentes que les conducen a
hipótesis probables. El hecho de que las hipótesis se basaran en lo que estaba
sucediendo en sus simulaciones informáticas, y no en los datos que provenían de
las observaciones, no quita que se utilizase la misma clase de creatividad y
pensamiento intuitivo, como es tradicional en la ciencia no computacional.
Algo parecido sucede en la cosmología, en la que las simulaciones por ordenador de

la formación de la estructura son parte de un arsenal de herramientas, algunas
computacionales, otras analíticas y otras intuitivas, que siempre son puestas a
prueba y comprobadas unas con otras. Y también se da algo parecido en los
estudios numéricos de la física de hadrones, en la que hay una interacción de
resultados e ideas entre las simulaciones del superordenador y los enfoques
analíticos. También, los obstáculos claves que surgieron tuvieron que ver con
cuestiones de principios físicos; hasta qué punto las simetrías en la teoría están
rotas en los modelos númericos. Ha llevado mucho trabajo creativo y de
pensamiento físico intuitivo, para superar estos obstáculos, que nos ha llevado
recientemente a conciliar teoría y experimento.
Del resultado de observar el desarrollo de estos y otros campos numéricamente

intensivos, tengo claro que mientras la simulación numérica y la computación son
unas herramientas muy útiles, sólo son de ayuda cuando son utilizadas por los
buenos científicos para mejorar sus poderes de razonamiento creativo. Rara vez se
logra algo «volcando un problema a un ordenador», sino que a una simulación le
lleva años e incluso décadas de cuidadoso mantenimiento y desarrollo hasta llega al
punto en que cede a la ayuda externa, y siempre que se ha hecho así ha sido por el
trabajo de teoría creativa y fundamentada, como la que ha estado tradicionalmente
en el núcleo del progreso científico.
Joel Garreau
Quizá las cosas son diferentes en la física y la biología. Pero por mi experiencia al
estudiar la cultura, los valores y la sociedad, los datos demoran la realidad por
definición –son un pantallazo del pasado. Y cuando la realidad humana no se
alínea convenientemente con los modos establecidos de pensar, los datos pueden
retrasarse durante años, si no décadas.
Los datos son un artefacto de selección, lo que significa que reflejan una hipótesis
subyacente, ya que si no, no habrían sido recogidos. Por ejemplo, en mi trabajo
descubrí que no tenía datos a tiempo para «probar» mi hipótesis de que
Norteamérica estaba actuando como si consistiera en nueve civilizaciones o
economías separadas que rara vez son ligadas por las jurisdicciones políticas de los
países, estados o condados. Era igualmente problemático sacarme datos para
probar que lugares como Silicon Valley se estaban convirtiendo en una versión
moderna de la «ciudad», aunque sus millones de metros cuadrados de grandes
edificios estuvieran justo ante nuestros ojos. Hasta que aquellos modelos de las
«nueve naciones» o la «ciudad en las afueras» no empezaron a ser considerados
útiles por otros, la gente no comenzó a pasar por el gran problema de verificarlos
reuniendo datos de una forma que no conocía los límites anteriores. La vida no está
obligada a seguir los datos, y no es algo que haga con frecuencia.
Ahora los pensadores producen hipótesis con las que se puede trazar un mapa del
cambio cultural y social sobre la Ley de Moore. Será interesante ver el momento en
que los datos demuestren apoyar sus predicciones. Ray Kurzweil y los de la
Singularidad ven una curva exponencial que conduce finalmente a la perfección de
la humanidad análoga a la versión cristiana del «cielo». Los pesimistas como Billy
Joy, Francis Fukuyama, Susan Greenfield y Martin Rees ven una curva gemela que
conduce rápidamente a algo parecido al «infierno». Ambas hipótesis son creíbles.
Pero los datos se retrasan. Es difícil encontrar «pruebas» de que estemos llegando
a lo uno o a lo otro, aunque se basen en las bellas y tersas curvas
tecnodeterministas, de esas que rara vez han sido –si es que lo han sido– un objeto
importante en la historia de la humanidad. Sabe Dios cómo se podría demostrar, a
través de los datos, la llegada de la hipotesis «predominante» descrita por Jaron
Lanier y otros. Esa hipótesis se basa en la idea de que un aspecto importante de la
futura historia es que estamos cubriendo el incremento de nuestros retos mediante
las respuestas imaginativas, tercas, maledicentes y colectivas nutridas desde abajo
por los hombres, desviando los acontecimientos en direcciones impredecibles. En
una gráfica, el resultado –como mucha de la materia prima de la historia– se
mostraría probablemente tan organizado como un plato de espaguetis. Me
encantaría pensar que la ausencia de datos tras las hipótesis –mucho menos la
realidad– está a punto de cambiar. (¡Al fin! ¡Una bola de cristal!) Pero espero
impaciente una demostración.

El Fin de La Teoría

Cargado por

Copyright:

Formatos disponibles

El Fin de La Teoría

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

El Fin de La Teoría

Cargado por

Copyright:

Formatos disponibles

EL FIN DE LA TEORÍA: El diluvio de

datos ¿hará obsoleto el método

«Todos los modelos son erróneos, pero algunos son útiles».

Este es un mundo en el que las cantidades masivas de datos y las matemáticas

Mi impresión es que este método naciente será una herramienta adicional en la

Pero no importa la invisibilidad de los modelos, porque funcionan. No es el fin de

La ciencia siempre comienza buscando patrones en los datos, y los primeros

El «nuevo» método que Chris Anderson describe ha estado siempre en el punto de

Chris Anderson dice que «este planteamiento de la ciencia –hipótesis, modelo,

Chris Anderson parece querer que lo deshagamos. Comienza con un

Montones de grupos que ya trabajan en soluciones a los problemas sin

Pero dudo de que computadoras procesadoras de cálculo vayan a reemplazar por

La segunda caracterización errónea es de la biología. Sugerir que ver el fenotipo

Y supongo que mi otro punto es «petabytes-¡bah!». Sin duda, un petabyte es algo

Algo parecido sucede en la cosmología, en la que las simulaciones por ordenador de

Del resultado de observar el desarrollo de estos y otros campos numéricamente

También podría gustarte