Home Ciencia Climategate: La Importancia de los Datos Brutos

Climategate: La Importancia de los Datos Brutos

escrito por Ijon Tichy 14 diciembre, 2009

Dentro del escándalo Climategate hay diversos asuntos que están centrando la atención (y con razón). Tanto que son incluso nombrados (de forma sesgada y tramposa, claro está) en los medios de desinformación masiva patrios (por ejemplo, el ya famoso “truco de Mike” para “ocultar el descenso”). Pero hay algo que resulta fundamental en todo crimen y en este caso parece haberse ejecutado a la perfección. Como sabe cualquier seguidor de CSI, un buen criminal procura esconder las pruebas que le puedan delatar, y si las destruye, mejor. Y eso es lo que parece que han hecho los intachables (hasta anteayer) científicos del CRU. Hablo lógicamente del escamoteo de los datos brutos de temperatura, origen y meollo de todo el asunto, que al parecer han sido destruidos. Recordemos, como nos informó Luis, que, tras destaparse el escándalo, los miembros del CRU accedieron a facilitar los datos de temperaturas hasta entonces celosamente guardados, pero con el ligero matiz de que lo que iban a entregar eran los datos que ellos habían procesado, no los originales que, según dicen, están en gran parte destruidos.

Pensando en como explicar la importancia de la destrucción (si se confirma) de los datos originales (datos brutos) he recordado una pequeña anécdota que le ocurrió a un amiguete. Esta persona, a falta de talento para una profesión más lucrativa (familiar de político sociata andaluz, mando pepero valenciano, futbolista de élite, traficante de armas y cosas así) se gana la vida ejerciendo de ingeniero.

Le encargaron un trabajo consistente en evaluar la viabilidad de un nuevo proyecto industrial en una pequeña localidad del sur. Un dato fundamental para su evaluación  eran las temperaturas en la zona (debido a arcanos motivos técnicos que no vienen al caso).

Por suerte, en las cercanías del emplazamiento había una pequeña estación meteorológica con datos de temperaturas máximas y mínimas día a día desde hace más de 50 años, que pudo conseguir en forma de un enorme fichero Excel.

El fichero original tenía miles de datos, y lo que se necesitaban eran medias, sencillas de obtener, pero también la distribución de horas-año con la temperatura ambiente comprendida en determinados rangos (T<0; 0<T<5; 5<T<10; y así).

Mi amigo elaboró una plantilla con filtros y sumatorios y luego procedió a ejecutar corta-pegas de los datos en bruto para diversos años representativos. Cuando empezó a recopilar los resultados anuales de sus medias y filtros, la sorpresa fue mayúscula. Las medias de temperaturas en las décadas de los 50 y 60 eran sistemáticamente inferiores en algo más de un grado a las de los 80 y éstas, a su vez, hasta dos grados menores que las de años recientes, como el 2.002 o el muy caluroso 2.003. En total, ¡más de tres grados de diferencia entre, por ejemplo, 1.962 y 2.003!

Vale que solo eran los datos de un observatorio concreto, pero el primer impulso de mi amigo, hasta entonces más bien escéptico con el asunto del calentamiento, fue correr a la cerería más cercana  y hacerse con un velón  para ofrendarlo en el altar mayor de la iglesia algoriana más cercana.

Por suerte para él, estando aun atormentado por los remordimientos, pasó la vista por encima por alguna de las hojas originales más antiguas de datos brutos recibidas del observatorio y le llamó la atención una sucesión de “0,0” ¡en pleno mes de agosto! Mosqueado, comenzó a repasar los datos originales y vio que las series de “0,0” eran más abundantes cuánto más antiguos eran los datos y mucho más frecuentes en los meses de verano (precisamente cuando las temperaturas debían ser más altas).

Lógicamente contactó con el Instituto Meteorológico que le envío los datos y le aclararon el misterio. La estación era un pequeño punto desatendido que en la actualidad tenía comunicación remota, pero antiguamente dependía de que el funcionario de turno se pasara por la estación y tomara nota de los datos, llevándolos a la central donde se registraban. Cuando el paisano enfermaba o estaba de vacaciones, nadie apuntaba la temperatura y el dato quedaba en blanco. Al parecer, cuánto más antiguos eran los datos, menos cuidado se tenía en enviar a otra persona a tomar la medida si el encargado fallaba. Al pasar a ficheros informáticos los datos históricos, estos días sin medidas quedaron en blanco, y de forma inadvertida, el fichero de la hoja de cálculo los transformaba en “ceros”.

Conocido el origen del problema, se podía solucionar bien ignorando los días sin medida, bien apuntando la media de días anteriores y posteriores o incluso desarrollando un algoritmo más complejo.

Ahora bien, como resulta evidente, todo esto fue posible gracias a que se disponía de las medidas originales (los “datos brutos”) y no medias ya procesadas vayausté a saber cómo.

Naturalmente, nadie puede asegurar que en algún caso haya ocurrido algo parecido con los datos del CRU, pero a falta de datos brutos, tampoco nadie puede asegurar lo contrario.