Sistemas. Cuando todo sale mal: desastres en un sistema de información

Monitor de computadora viejo

Sistemas. Cuando todo sale mal: desastres en un sistema de información

– Edición 402

Monitor descompuesto

La prevención es crucial cuando se trabaja con tecnologías de información: ¿cuáles son las medidas que debería tener presentes toda la empresa, sea grande, mediana o pequeña? a continuación se mencionan algunos de los aspectos que se necesitan tener en cuenta en un proyecto de gobernavilidad de los sistemas informáticos.


 

Cuando Vicente intentó visualizar el estado de la base de datos de su sistema de cómputo más importante, sospechó que algo andaba mal, muy mal. El sistema integral de operaciones (un Enterprise Resource Planning, ERP) de la compañía Manufactura Confiable (MC) sufría un colapso que dejaba sin acceso a 275 usuarios de los departamentos de ventas, operaciones, compras y finanzas, lo que paralizaba por completo a la empresa. El ingeniero Vicente Gómez, gerente de informática, comenzó hasta ese momento el proceso acordado de recuperación del sistema; cuatro horas más tarde se dio cuenta de que el problema había salido de su control. Intentó llevar a cabo una recuperación de información, y para ello utilizó el respaldo de datos que se elaboró la noche anterior. Alarmado y temiendo lo peor, detectó que ese respaldo estaba dañado y había quedado inservible, de manera que buscó otro… que sólo funcionó parcialmente. Se había extraviado información crítica de la compañía.


Ocho días sin operaciones y cinco millones de pesos en pérdidas fueron el costo de tan desastrosa caída. La empresa no sólo tuvo que esperar a la recuperación del sistema, sino que además todas las operaciones de tres días enteros se perdieron, por lo que fue necesario recapturar la información. El día de hoy, Vicente espera tener una reunión con la mesa directiva de la empresa, rendirá cuentas y quizá pierda su empleo.


UN MES ANTES
Vicente fue contratado como gerente del área de Tecnologías de la Información (TI). La empresa MC había roto relaciones con el gerente anterior. Luego de la recepción del departamento, Vicente se dio a la tarea prioritaria de mantener la operación de sistemas, proporcionar el soporte técnico adecuado y analizar el estado que hasta ese momento tenía la infraestructura.


Un pobre esquema de control, sistemas endeblemente instalados, huecos en la seguridad informática y graves omisiones en el licenciamiento de sistemas, fueron sólo algunos de sus descubrimientos iniciales. Tras elaborar un ambicioso plan de trabajo, se propuso poner orden en el área, tarea que parecía inalcanzable dadas las dimensiones del problema y la demora en la toma de decisiones en todos los niveles.


Una vez listo el plan de estabilización del sistema, ni a Vicente ni a la empresa los favoreció el destino, ya que el desastre se dio precisamente tres días antes de iniciar las primeras acciones.



   


¿QUÉ SALIÓ MAL?
Como muchos desastres, éste no fue resultado de un solo factor sino de la desafortunada combinación de variables humanas, organizacionales y tecnológicas:
:: Un sistema crítico instalado sobre una plataforma endeble: una base de datos de compleja administración, y sin licencia, impedía que Vicente pudiera atender de forma directa e inmediata los avisos que el sistema envió unos días antes de la caída.
:: Un proveedor de desarrollo con poca capacidad: la empresa que desarrolló y vendió el ERP tenía un profundo conocimiento sobre el uso de la aplicación, pero muy limitado respecto de su conexión con las bases de datos. Además, el proveedor contaba con poco personal asignado para la resolución de problemas urgentes. Una vez que se dio la caída, demoraron cuatro días en revisar las aplicaciones, y después de ese tiempo, se declararon incompetentes para resolver la crisis.
:: Una pobre asesoría al empresario: el anterior gerente de informática había logrado importantes ahorros a la empresa gracias a instalaciones inadecuadas y sin licenciamiento. Estos ahorros mal entendidos colocaron a MC en una situación vulnerable con sus proveedores de software, quienes brindaban un soporte técnico limitado. Una pobre administración de la infraestructura que soportaba la información: no existían políticas ni procedimientos para el respaldo, la verificación y el resguardo de la información, ni mucho menos algo relativo a la seguridad o continuidad en sistemas.


 


EL HUBIERA NO EXISTE
Lo sucedido no fue, entonces, coincidencia: los factores estaban presentes, las condiciones estaban por darse, era sólo cuestión de tiempo.


:: Este desastre, ejemplo de los que se dan con alarmante frecuencia en las pequeñas, medianas y grandes empresas, pudo ser evitado mediante la práctica de sencillas premisas de administración del área de TI, prácticas que permiten gestionar los elementos dentro y fuera del centro de cómputo, de manera que el área en cuestión entregue a la empresa lo que necesita.


:: Hasta hace poco tiempo existían pocas pistas sobre prácticas, modelos y formas de llevar a cabo esta gestión de la TI. Afortunadamente, hoy contamos con elementos que nos permiten identificar actividades y procesos que no pueden ser omitidos en ninguna empresa que soporte parte o la totalidad de sus operaciones en TI. Algunos de los procesos indispensables que debe realizar un centro de cómputo son los que se enlistan a continuación:


:: Acuerdos de servicios entre los usuarios, clientes y el área de TI: el servicio se ha convertido en el habilitador que permite establecer un puente de comunicación y entendimiento entre usuarios y el área de TI. Las necesidades del negocio deben ser traducidas a una serie de servicios acordados, que son parámetro para que dentro del área de informática se organicen la infraestructura y la operación. Los servicios acordados permiten a los usuarios y tomadores de decisiones tener expectativas claras sobre lo que pueden recibir de las TI, y en qué condiciones se recibe. Por otro lado, permiten al área de TI contar con parámetros para ser medidos a partir de los logros alcanzados.


:: Monitoreo de incidentes y problemas potenciales: todas las interrupciones en sistemas y aplicaciones deben ser resueltas y monitoreadas, pues en muchos casos pueden ser síntomas de problemas más graves y de mayor repercusión. El registro sistemático de las interrupciones, fallas y solicitudes de servicio es la base para poder realizar una serie de análisis que lleve al área a encontrar puntos de mejora y problemas potenciales, con el fin de evaluar en términos generales la eficiencia del área.


:: Control de cambios y liberaciones: generalmente, los cambios en la infraestructura son los dolores de cabeza que con mayor intensidad sufren las empresas: cambios en sistemas, en servidores, en esquemas de telecomunicación, en personal de TI. Todo cambio en la infraestructura (hardware, software, procesos, políticas y personas) debe ser analizado, acordado, autorizado y monitoreado con cuidado. El control de liberaciones de hardware o software y de sus versiones, proporciona mayor certidumbre a los clientes, al tiempo que se prevé así la utilización de tecnologías pirata o de poca confiabilidad que, si bien en un inicio ahorran dinero, sólo es en apariencia.


:: Control y monitoreo de la infraestructura: el estado de la infraestructura es la base para tomar decisiones sobre aspectos como: ¿en dónde puede encontrarse un error?, ¿qué debemos instalar y en qué lugares?, ¿cuál es nuestro inventario y cuál su estado?, ¿qué inversiones debemos hacer?, ¿sobre qué equipos actualizo uno u otro sistema?, ¿qué versión de antivirus tenemos y cuándo hay que renovar la licencia?, ¿qué contratos tengo con proveedores y cuál es su estado?, etc. Un control estricto del estado de la infraestructura habilita a clientes, usuarios y personal de TI para tomar decisiones a tiempo y establecer las acciones que permitan mantener la continuidad de las operaciones y del negocio.


:: Administración de seguridad, continuidad y recuperación de desastres: planes de recuperación de desastres acordados con los usuarios permiten al personal de TI tomar decisiones y llevar a cabo acciones en los momentos difíciles. El involucramiento de la alta dirección en estos planes es indispensable para que la empresa esté preparada para cualquier contingencia. La seguridad informática es, de por sí, un tema de discusión, y contar con un proceso sencillo pero formalizado y en ejecución que asegure los activos de la empresa es de vital importancia.  



GOBERNABILIDAD EN EL ÁREA DE INFORMÁTICA
La gobernabilidad de TI es un concepto que busca que esta área de reciente creación se integre exitosamente a las organizaciones, que cuente con procesos, políticas y mecanismos de control que permitan la buena gestión de los recursos en tecnología de la información y que con ello se pueda responder a las necesidades de las empresas.
La gobernabilidad de TI habilita a los tomadores de decisiones en las empresas para entender, desde una perspectiva de negocio, el servicio que las áreas informáticas ofrecen. Por otro lado, permite al personal de informática ordenar la gestión del área en función de los servicios que provee y que responden a necesidades específicas del negocio. Es aún alarmante el número de empresas y organizaciones que administran su TI de manera espontánea y poco ordenada, sujetas a la moda o a los criterios de personal técnico poco preparado para brindar servicios de calidad. Casos como el expuesto aquí se presentan con más frecuencia de lo que creemos. Por ello, es crítico que el empresario aborde en el corto plazo proyectos de gobernabilidad en TI y que el personal informático los impulse. De lo contrario, seguiremos siendo testigos de desastres que deriven en la pérdida de recursos, productividad y dinero. m.  

MAGIS, año LX, No. 502, noviembre-diciembre 2024, es una publicación electrónica bimestral editada por el Instituto Tecnológico y de Estudios Superiores de Occidente, A.C. (ITESO), Periférico Sur Manuel Gómez Morín 8585, Col. ITESO, Tlaquepaque, Jal., México, C.P. 45604, tel. + 52 (33) 3669-3486. Editor responsable: Humberto Orozco Barba. Reserva de Derechos al Uso Exclusivo No. 04-2018-012310293000-203, ISSN: 2594-0872, ambos otorgados por el Instituto Nacional del Derecho de Autor. Responsable de la última actualización de este número: Edgar Velasco, 1 de noviembre de 2024.

El contenido es responsabilidad de los autores. Se permite la reproducción previa autorización del Instituto Tecnológico y de Estudios Superiores de Occidente, A.C. (ITESO).

Notice: This translation is automatically generated by Google.