LHC: EL GRAN COMPUTADOR HADRON / The Large Hadron Computer

31-oct-2008 / PHISICWORDL.COM

El gran computador hadron (The large hadron computer )

 Los planes para tratar con el torrente de datos de los detectores del Large Hadron Collider han hecho que el laboratorio de física de  partículas del CERN, una vez más, sea un pionero en la computación, así como en la física. Andreas Hirstius describe los desafíos del procesamiento y almacenamiento de datos en la era de la ciencia petabyte.

A mediados del decenio de 1990, cuando los físicos del CERN hicieron sus primeras prudentes estimaciones de la cantidad de datos que los experimentos en el Large Hadron Collider (LHC)  producirían, el fabricante de componentes microordenadores  Intel acababa de lanzar el procesador Pentium Pro Windows era el sistema operativo dominante, aunque  Linux  estaba ganando impulso. CERN había realizado recientemente la World Wide Web pública, pero el sistema tenía todavía un largo camino hasta la red que todo lo abarca  que es hoy en día. Y un solo Gigabyte (10^9 bytes) de espacio en disco costaba varios cientos de dólares.

 getting-connect1
ASEGURANDO CONEXION: Todos los enlaces en la infrastructura computacional del CERN deben trabajar en conjunto para el éxito del LHC (Crédito: CERN)

Este entorno informático  planteó algunos problemas graves para el equipo científicos que trabajaban en el LHC. En primer lugar, las estimaciones iniciales de los físicos para el  LHC llamaban a producir unos pocos millones de gigabytes – unos pocas PetaBytes (10^15 bytes) – de datos cada año. Además del  enorme costo de almacenamiento de estos datos, la potencia de computación necesaria para  procesarlos  habrían requerido cerca de un millón de ordenadores de la era de los 1990. Es cierto que la capacidad se esperaba que mejorara en un factor de 100 para el momento en que el LHC finalmente estuviera en operación, gracias a la  ley de Moore, que afirma que la potencia de los computadores será aproximadamente el doble cada dos años. Sin embargo, era difícil predecir cuánta  potencia de cálculo necesitarían en el futuro los experimentos del LHC, los científicos computacionales del CERN tenían que tener cuidado  de que los requerimientos de la informática pudieran crecer más rápido que la ley de Moore. Explotar   cantidad de pedazos en varios sitios era claramente parte de la solución, pero las tasas de transmisión de datos seguían siendo comparativamente lentas – en 1994  la conectividad externa total del CERN era equivalente a sólo una de las actuales conexiones de banda ancha, tan sólo  10 megabits  por segundo.

 Las fuentes principales  de flujo de  datos LHC  son los dos más grandes detectores,ATLAS    y  CMS  , que tienen más de 100 millones  de canales de lectura. Con 40 millones  de cruces de haz por segundo, leyendo constantemente   todo el detector se generaría más de un petabyte de datos cada segundo. Afortunadamente, la mayoría de las colisiones son poco interesantes, y por el filtrado y los descartes electrónicos se reduce el flujo de datos sin perder los eventos interesantes. Sin embargo, ATLAS, CMS y los otros dos experimentos LHC, ALICE   y LHCb , que juntos producen 10^15 Petabytes de  datos cada año tienen que ser procesados, almacenados permanentemente, y también mantenerse accesibles en todo momento a los investigadores de todo el mundo. Enfrentar esa enorme cantidad de datos se denominó el “desafío LHC” por el departamentos de TI en el CERN y los demás institutos que trabajaron para resolver el problema.

 Construyendo sobre la base de los esfuerzos pasados

Las necesidades estimadas de los experimentos con el LHC eran hasta 10.000 veces mayor que el volumen de datos y la potencia de las computadoras de sus predecesores en la Gran Colisionador de Electrones y Positrones  LEP  ( Large Electron Positron (LEP) collider), que fue cerrado en el 2000 por el CERN. En el tiempo entre el final de la LEP y la puesta en marcha del LHC se realizaron una serie de experimentos en el Super Sincrotrón de Protones ( SPS) que marcaron pasos importantes hacia la computación para el LHC. Por ejemplo, justo antes de LEP fuera desmantelado para dar paso a la LHC, el experimento NA48 en física de  kaones  produjo datos  en  tasas  pico de alrededor de 40 megabytes por segundo – sólo un factor de cinco a ocho menos de lo que esperábamos desde los experimentos LHC   durante las colisiones protón-protón. Sabiendo que el hardware disponible podría hacer frente a estas velocidades de transmisión de datos fue alentador, porque significaba que para el momento en que el LHC estuviera en operación, el hardware se habría mejorado lo suficiente como para manejar las tasas más altas.

 Las colisión de iones pesados producen alrededor de dos órdenes de magnitud más que las colisiones de partículas de protón- protón, de modo que las tasas de datos para colisiones de de iones pesados de las colisiones son correspondientemente mayores. A finales de 2002 y principios de 2003, las especificaciones para el experimento ALICE, que  usará  ambos tipos de colisiones para estudiar la fuerza nuclear fuerte, demandaron  datos a una tasa de alrededor de 1,2 gigabytes por segundo. Dado que los requisitos para ALICE fueron mucho mayores que para los otros experimentos, es evidente que si la infraestructura podía manejar ALICE, entonces se podría manejar casi cualquier cosa – y, desde luego, los datos procedentes de otros experimentos no serían un problema.

 Para hacer frente a este desafío,  los científicos computacionales del CERN y los miembros del equipo de ALICE colaboraron para diseñar un sistema que pudiera recibir datos a una velocidad de 1,2 gigabytes por segundo de un experimento y adquirirlos correctamente. El primer prototipo a  gran escala  fue construido en 2003 y se suponía que iba a ser capaz de manejar una tasa de datos de 100 megabytes por segundo durante unas horas. Se colapsó casi de inmediato. Posteriores prototipos incorporaron las lecciones aprendidas de sus predecesores y fueron capaces de manejar cada vez mayores velocidades de transmisión de datos.

 Otro proyecto de la era del LEP que ayudó a los científicos computacionales construir el  entorno  computacional del LHC escalable fue la instalación de facilidades escalables i, o SHIFT, que se desarrolló en los comienzos del decenio de 1990 por los miembros de la División de Computación  del CERN  en colaboración con el experimento Opal en el  LEP. En ese tiempo, la informática en el CERN era realizada casi en su totalidad por  grandes computadores centrales (maiframe) todo-en-uno. El principio detrás de cambio fue separar los recursos basados en las tareas que llevan a cabo: la informática; de almacenamiento en disco, cinta o almacenamiento. Todos estos diferentes recursos están conectados a través de una red. Este sistema se convirtió en la base de lo que ahora se denomina de alto rendimiento de computación

 La diferencia entre computación de alto rendimiento y la más familiar computación de alta perfomance  se puede entender considerando la posibilidad de una autopista llena de coches, donde los coches representan diferentes aplicaciones informáticas. En alta perfomance, el objetivo es ir de  A a la B tan rápido como sea posible – en un Ferrari, quizá, en una carretera vacía. Cuando el coche cae en pana, la carrera se detiene mientras   el automóvil este fijo. En la computación de  alto rendimiento, en cambio, lo único que importa es conseguir que el mayor número de coches como sea posible vayan desde el punto A al punto B. Incluso si un coche falla, no importa, porque el tráfico es fluido y aún otro coche puede seguir la carretera.

 La computación de alto rendimiento  es idealmente situada para la física de alta energía, porque los “eventos” registrados por los experimentos son completamente independientes el uno del otro y por lo tanto pueden ser así mismo manejados independientemente. Esto significa que el análisis de los datos o la simulación puede llevarse a cabo en un gran número de ordenadores que trabajan de forma independiente con pequeños trozos de  datos: la carga de trabajo se dice que es “vergonzosamente paralela”. En contraste, las aplicaciones en un buen, anticuado superordenador son “altamente” paralelas: todos los recursos disponibles, tal vez decenas de miles de procesadores, se utilizan para una sola tarea de computación.

 La separación de los diferentes recursos hace al  SHIFT muy escalable: cada uno de los recursos podría crecer en forma independiente en respuesta a las nuevas exigencias. Asimismo, la constitución física de cada uno de los recursos fue en gran parte irrelevante para el sistema en su conjunto. Por ejemplo, más  unidades de cinta más podrían añadirse a la red sin la necesidad de “automáticamente” añadir espacio adicional en disco y, antiguos equipos y  nodos pueden ser fácilmente retirados y nuevos nodos instalarse sin perturbar el sistema general. Estos aspectos de SHIFT – una red vergonzosamente  paralela de  ordenadores, cada uno de los cuales podría ser actualizado a fin de aprovechar, sacar más  ventajas de la Ley de Moore, todos  trabajando de forma independiente en diferentes bits de datos – ha demostrado ser la mejor base posible para la informática en la era LHC.

 Computación distribuida: La grilla LHC

 

tiers
RED NUMBER-CRUSCHING (CREDITO: CERN)

Los experimentos del LHC producirán demasiados datos para que el CERN pueda adquirirlos por sí solo. Por lo tanto, las tareas de análisis  y almacenamiento de datos serán   emigradas a muchos sitios diferentes de todo el mundo a través de una red conocida como la Worldwide LHC Computing Grid. Desde el centro del  CERN (Nivel-0 (Tier-0) de la red), los datos colisión- partículas serán transferidos a 11 centros de Nivel-1 (Tier-1) a los largo de enlaces de fibra óptica  super-rápidos de 10 gigabits por segundo. Estos sitios nacionales almacenarán aproximadamente dos tercios de los datos en bruto en grandes bibliotecas de cinta masivas, mientras que el resto permanecerá en el CERN. La mayoría de los análisis de los datos se llevará a cabo en  equipos de alrededor  130 centros  regionales de Nivel 2 (Tier-2). Individualmente los  físicos pueden aprovechar la potencia  de procesamiento de los centros Nivel 2 (Tier-2) usando los enlaces entre los centros, los racimos de computación universitarios Nivel 3 ( Tier-3) y sus equipos de sobremesa y portátiles (Nivel-4 (Tier-4)).

Mientras los investigadores fueron desarrollando y probando   sus respectivas estructuras de software  para adquisición de datos, análisis de  datos y la simulación, el entorno computacional en el CERN y en otros lugares continuaron madurarando. Casi inmediatamente después de la planificación para la puesta en operación del  LHC se mediados de la década de 1990, se puso de manifiesto a los científicos que la potencia de cálculo en sí mismo en el CERN sería significativamente inferior a la potencia de cálculo necesaria para analizar los datos del LHC y realizar las simulaciones. Por lo tanto, la potencia de las computadoras tuvo que ser puesta a disposición en otros lugares. El desafío era construir un sistema que permitiera a los físicos un acceso fácil a la potencia de las computadoras distribuidas en todo el mundo. Este sistema es el que ahora se conoce como la Worldwide LHC Computing Grid (WLCG).

 El WLCG fue construido en una estructura de niveles (tier structure) (véase “Number-crunching network“). El CERN es el Centro de Computación de nivel-0 (tier-0), y todos los datos primarios son permanentemente almacenados allí. Hay 11 sitios de grilla  de nivel 1 (tier-1) fuera del CERN, incluida la del Reino Unido Rutherford Appleton Laboratory, Fermilab en los EE.UU. y el Centro de Computación Academia Sinica en Taiwán. Todos los sitios de nivel 1 (tier-1) tienen  espacio para almacenamiento permanente en cinta, y el experimento LHC exportar sus datos en bruto a estos sitios de nivel 1. La mayoría del análisis  de los datos reales y la simulación se realiza en unos 130 sitios Nivel-2 (tier-2).

 En total, el CERN exportará 2-5 gigabytes de datos en bruto a los sitios de nivel 1 por cada segundo. Cuando la planificación para el LHC se inició, por ejemplo, estas  tasas no parecían factibles. Sin embargo, al cambio de centuria, la tecnología de  fibra óptica había  avanzado lo suficiente para hacer los primeras  redes de 10 gigabit transcontinentales y (especialmente) las redes transatlánticas comercialmente viables. En respuesta a ello, el CERN se unió con otros institutos y proveedores de la red para formar el proyecto DataTAG, que exploraron el potencial de tales enlaces rápidos. La colaboración resultante estableció una serie de registros de velocidad para la transmisión de datos a través de largas distancias, a partir de 5,44 gigabits por segundo entre Ginebra y Sunnyvale, California, en octubre de 2003. (Por razones históricas,los expertos de  redes de datos  miden en bits por segundo, mientras que los especialistas de  transferencia de datos  miden en bytes por segundo. Un byte contiene ocho bits).

 Ee un año,  se alcanzaron tasas de transferencia de 7,4 gigabits por segundo, o sea aproximadamente  9 DVDs por minuto, para las transferencias de datos de la memoria principal de un servidor a la memoria principal de otro servidor. Esta tasa no estaba limitaba por la red, sino por la capacidad de los servidores. Las transferencias memoria – memoria  fueron sólo el comienzo, ya que actualmente los datos reales se transferirán desde discos. Esto es mucho más exigente; sin embargo, en el 2004, utilizando  servidores conectados a un sistema de disco experimental, fue posible la transferencia de 700 megabytes, o un CD de datos, cada segundo, desde Ginebra a California con un único flujo de lectura de disco — más de 10 veces más rápido que un disco duro en una computadora de escritorio de hoy. Esto demostró que las conexiones de red no sería un problema y que los datos podrían ser transferidos desde el CERN a los sitios de Nivel 1 (tier-1)  a las tasas de datos requeridas. El CERN está ahora conectado a todos los sitios de Nivel 1 con al menos una conexión de red capaz de transferir datos a una velocidad de 10 gigabits por segundo.

 ¿Que hacer con los datos?

 Los desafíos de la informática LHC también incluyeron  cosas mucho más mundanas, tales como averiguar la manera eficiente a instalar y configurar un gran número de máquinas, seguimiento, encontrar fallos y problemas y, en última instancia la forma de desmantelar miles de máquinas. El almacenamiento de datos es otra tarea aparentemente “normal” que requiere una seria consideración a principios de la fase de planificación. Uno de los principales factores en la planificación es que para el CERN, y la física de alta energía en general, el almacenamiento permanente no significa en realidad “permanente”. Después de apagado el LEP, los físicos volvieron a analizar minuciosamente  los 11 años de datos en bruto que se habían producido. El LHC puede generar hasta 300-400 PetaBytes de datos brutos durante sus estimado 15 años de vida, y los físicos esperan que todos esos datos  sigan siendo accesibles durante varios años después de apagado el  colisionador.

 Los datos que se utilizan para los cálculos se almacenan en  disco, por supuesto, pero en el largo plazo sólo los datos almacenados en cintas se consideran “seguros”. Ninguna otra tecnología  ha  probado almacenar grandes cantidades de datos fiablemente durante largos períodos de tiempo y  teniendo además  un precio razonable. Estas cintas se encuentran en  bibliotecas que puede almacenar hasta 10.000 cintas y hasta 192 unidades de cinta por la biblioteca.

tape-reading-robots
 ACCESO TODAS AREAS: Robot lector-cinta navega  biblioteca llena de datos . (Credit: CERN) 

 Para garantizar que los datos permanezcan accesibles, todos los datos en bruto se copian a una nueva generación de medios de cinta, cuando esté disponible. Históricamente, esto ha sucedido cada tres a cuatro años, aunque el ritmo del cambio se ha acelerado recientemente. Además  protegiendo los valiosos datos  contra el uso rutinario y el desgaste de las cintas individuales, tales actualizaciones periódicas también reducen el número de cintas, porque en general las versiones más recientes tienen mayores capacidades. El acceso a los datos se convierte en más rápido con cada actualización, ya que la velocidad de las nuevas unidades de cinta es más rápida. Las cintas viejas se ponen en paletas, envueltas en plástico y se almacenan junto con algunas pocas unidades de cinta para asegurarse de que es posible acceder a las cintas originales de nuevo. Las cintas de respaldo  también se almacenan en múltiples sitios y en diferentes edificios, para tratar de reducir al mínimo la pérdida en caso de que cualquier desastre  ocurra.

 Además de los datos reales sobre las colisiones de partículas, los experimentos LHC también tienen que almacenar la “condición” del detector (es decir, detalles sobre el propio detector, al igual que la calibración y alineación de información) con el fin de ser capaces de hacer un análisis adecuado y la simulación. Esta información se almacena en las llamados  “bases de datos de condiciones” (conditions databases) en el centro de informática del CERN y más tarde trasladados así mismo a los sitios Nivel 1 (tier-1). Los   experimentos LHC necesitan  hacer cambios en la base de datos 200.000 veces por segundo, pero la primer plenamente funcional  protocolo de adquisición de datos sólo puede manejar 100 cambios por segundo. Después de  intensos esfuerzos para resolver este problema, Oracle, el fabricante de bases de datos relacionales proveedor del CERN, ha cambiado ya  su software de bases de datos para permitir el cumplimiento de los requerimientos  de los   experimentos LHC.

 Una cosa que afirman los  socios  industriales  sobre el CERN y la física de alta energía es que los requerimientos están un par de años adelantados de virtualmente todlo demás. Pat Gelsinger, un funcionario de alto nivel en el grupo de empresa digital en Intel (que ha trabajado con el equipo de TI en el CERN en el pasado), ha dicho que el CERN desempeña el papel de “canario en una mina de carbón”. Al venir al CERN y  colaborando con los  que trabajan en los experimentos o en departamento de TI, la industria es capaz de hacer frente y resolver los problemas de  mañana  hoy. 

El desafío LHC que se presentó al equipo de científicos computacionales del CERN  fue tan grande como los desafíos que presentó a sus ingenieros y físicos. Los ingenieros construyeron la más grande y complicada máquina y  detectores en el planeta, además de muchos otros logros que sólo pueden ser descritas con superlativos. Por su parte, los científicos computacionales lograron desarrollar una infraestructura computacional que puede manejar grandes cantidades de datos, cumpliendo así todos los requerimientos de los físicos  y en algunos casos incluso yendo más allá de ellos. Esta infraestructura incluye el WLCG, que es la grila más grande en existencia y que tendrá muchas aplicaciones futuras. Ahora que los físicos tienen todas las herramientas que han estado esperando por tanto tiempo, su búsqueda para descubrir un poco más de los secretos de la naturaleza puede comenzar.

 Acerca del autor

Andreas Hirstius es un físico transmutado a la  computación. Él es ahora el director técnico del  Openlab CERN y la Escuela de Informática del CERN

 

Anuncios

Una respuesta a “LHC: EL GRAN COMPUTADOR HADRON / The Large Hadron Computer

  1. Pingback: LHC GRAN COLISIONADOR DE HADRONES LARGE HADRON COLLIDER « GRAZNIDOS Weblog

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s