iProfesionaliProfesional

"Up vs Down": la importancia del N+1 en el "webhosting"

La redundancia debe existir en los recursos tecnológicos y humanos en las empresa que albergan páginas y servicios basados en la web
27/08/2014 - 12:05hs
"Up vs Down": la importancia del N+1 en el "webhosting"

Luego de más de veinte años de trabajar en entornos relacionados a la tecnología, siempre tuve clara una variable: lo crítico que es la calidad de la infraestructura que se utiliza para brindar servicios, en este caso de "webhosting" y "cloud computing".

Pero esta variable, que lógicamente suena clara, viene acompañada por el valor de los productos que alcanzan dichos niveles de estabilidad, performance y confiabilidad.

En tecnología, durante las últimas dos décadas surgieron infinidad de fabricantes de dispositivos de hardware integrados, es decir servidores, hoy liderados sin duda por una empresa de origen americano que es referente en calidad a la cabeza, como de partes, microprocesadores, discos rígidos, fuentes, etc.

Sin embargo, no tardé mucho en darme cuenta que no estaba descubriendo nada nuevo, la calidad, en los componentes, y en los productos ha sido un factor esencial en la última mitad del siglo.

Esto es en todos los rubros que uno pueda imaginar, como así también es el resultado obtenido por aquellos que decidieron invertir en la calidad.

Por ejemplo, en el mercado aeronáutico privado, existe un ejemplo muy singular.

Tuve la oportunidad de hacer un viaje en un G650, un avión privado con capacidad para no más de veinte personas, pero cuyo valor iguala al de un Boeing 737, alrededor de 65 millones de dólares.

Su dueño, un empresario amigo argentino decidió hacer esa enorme inversión y cuando consulté el motivo, su razón fue evidente: desde su fundación, la empresa elegida, jamás sufrió un accidente.

Es decir, lisa y llanamente, ninguno de sus clientes perdió la vida viajando en una de sus aeronaves.

¿Valió la pena desembolsar casi diez veces más que lo que hubiera costado un avión de otra marca? ¿Ustedes que piensan?

Sin hilar muy fino, la marca elegida no solo somete a todos sus productos a pruebas exhaustivas, sino que dio un paso más, la aviónica, es decir la electrónica súper avanzada que conduce en vuelo al avión, ha sido desarrollada en forma diferente al de todo el resto de sus competidores.

No solo prueban al avión, sino también se aseguran de que la posibilidad del error humano, mediante una súper computadora de abordo, sea reducido a niveles prácticamente nulos.

Dejando de lado el ejemplo aeronáutico, y volviendo a la tecnología e infraestructura de "cloud computing", las empresas de "webhosting" deben hacer lo mismo.

Por un lado, jamás dejar de invertir en la calidad del equipamiento que se utiliza para brindar servicios, generando niveles de "uptime" similares al de las mejores empresas del mundo.

¿Y cómo se hace? La experiencia nos enseñó, por ejemplo, que un grupo electrógeno no era suficiente.

Habíamos optado por el líder en generación de energía, por lo tanto controlábamos y monitoreabamos el generador según los parámetros indicados por el fabricante, y sin embargo, un día, al intentar probarlo el motor no arrancó.

Esto me llevó a contactar al fabricante, número uno en el mundo, quién inmediatamente envío a dos de sus ingenieros en la Argentina a verificar el origen del inconveniente.

Luego de hacer algunas pruebas, en pocos minutos el generador arrancó normalmente, mientras que los técnicos, no supieron explicarme que había sucedido.

La respuesta no me dejó tranquilo, y luego de indagar e insistir, me recomendaron adquirir un segundo grupo electrógeno, y de ser posible, de otro fabricante.

A las pocas semanas hice lo propio, logrando lo que se llama esquema N+1, que es muy parecido al de la empresa aeronáutica: todos sus aviones pueden volar normalmente con una sola de sus dos turbinas…

A partir de ese momento, siguiendo este ejemplo y decidí aplicar N+1 en absolutamente toda la infraestructura para ofrecer servicios de alto valor a los clientes, que son casi tan exigentes como yo, y por eso estoy agradecido.

Contar con la doble acometida de suministro eléctrico (esto significa provisión desde dos ramales independientes del prestador), tres enlaces de última milla de fibra óptica para su conectividad, y por las dudas, un radioenlace adicional, esto conectado a tres routers también redundantes, funcionando bajo el protocolo BGP y bajo el sistema autónomo, lo que para explicar sencillamente, significa que tres fibras ópticas de tres carriers diferentes deben cortarse para que quedamos offline, e incluso en ese caso, el radioenlace entra en acción automáticamente.

Pero los "routers" también pueden fallar (aunque no haya sucedido), asi que la empresa dueña de los "routers" diseñó su propio protocolo N+1, llamado HSRP, esto hace que si uno de ellos simplemente dejara de funcionar, en forma automática, sus tareas serían llevadas a cabo por el otro.

Y luego viene la seguridad, vital y clave para cualquier red utilizada para proveer servicios.

Nuevamente, la empresa de router, con sus dispositivos ASA, cuenta con una capacidad denominada HA (alta disponibilidad), que también, permite que si un "firewall" deja de funcionar, automáticamente el otro que estaba al momento balanceando el trabajo de ambos, asuma temporalmente el trabajo y no se pierda la conectividad, evitando el "downtime", y la falta de protección de todo lo que sigue en la red después de los "firewalls", nada más y nada menos.

Creo que el título de "Up vs Down" queda representado en los párrafos anteriores. Agregó que que los switches funcionan también de la misma manera, que todos sus servidores, tienen al menos cuatro fuentes redundantes, y que todos funcionan con esquemas RAID de almacenamiento.

La redundancia también debe existir en el recurso humano, aunque resulte intrigante creerlo, también decidí implementar N+1 en todos los puestos clave de la empresa, para que la experiencia del cliente, sea siempre "Up".