
Por qué la prueba de restore difiere de 'backup OK'
Un backup ejecutado con éxito ('job completed') solo prueba que los bytes se escribieron al destino. No prueba que: (1) el destino es legible ahora; (2) la aplicación vuelve funcional; (3) los datos están consistentes; (4) su equipo sabe el procedimiento; (5) el tiempo real cabe en su RTO. Cada uno de esos puntos se prueba por una prueba específica.
Errores que invalidan la prueba
- 1.Probar restore en servidor de producción. Riesgo de sobrescribir producción y perder datos reales. SIEMPRE en ambiente aislado.
- 2.Mismo tester siempre. La persona que sabe demasiado del sistema enmascara el problema. Rote testers para revelar dependencias de conocimiento.
- 3.Saltarse el tabletop porque 'estamos preparados'. El tabletop revela problemas de proceso y comunicación que las pruebas técnicas no atrapan. Única prueba sin costo de infra.
- 4.No documentar el tiempo real. RTO en papel vs RTO real divergen 2-5×. Sin documentación, nadie ajusta.
5 pruebas esenciales
- 1
Restore de archivo individual (semanal)
Restaure 1 archivo aleatorio de la semana anterior en ambiente aislado. Confirme integridad y tiempo. ~10 minutos. Puede delegarse al sysadmin.
- 2
Restore de VM completa (mensual)
Restaure una VM crítica (base, aplicación) en ambiente de prueba. Levántela sin conectar a la red de producción. Confirme boot, login, integridad de la aplicación. ~2-4h.
- 3
Restore granular de base de datos (mensual)
Restaure SQL Server / Oracle / PostgreSQL en servidor de prueba. Ejecute queries de validación. Confirme transacciones de la última hora antes del backup.
- 4
Drill completo de DR (trimestral)
Simulación completa: derribe escenario de producción (en aislamiento) y restaure todo el ambiente desde cero. Cronometre cada fase. Equipo completo involucrado, sin aviso previo para todos.
- 5
Tabletop exercise (semestral)
Sin ejecutar nada. Equipo sentado con escenario hipotético (ej.: 'ransomware a las 02h domingo, AD comprometido'). Cada uno explica qué haría, en qué orden, con quién se comunica. Documente brechas.
Preguntas frecuentes
¿Cuánto tarda cada prueba?
Restore de archivo: 10 min. Restore de VM: 2-4h. Restore de base: 1-3h. Drill completo: 4-8h. Tabletop: 2h. Suman ~12-18h/mes por equipo para cubrir todo.
¿Puedo automatizar pruebas de restore?
Sí y recomendamos. Veeam SureBackup / Replica y Commvault Automation prueban restore automáticamente en sandbox semanal/mensual. Reducen drásticamente el tiempo manual.
¿Cómo justificar la inversión de tiempo?
Calcule: costo de 1 día de downtime × probabilidad anual de incidente. Para empresa media son decenas a cientos de miles de dólares. El costo de las pruebas es un orden de magnitud menor.
¿Restore funciona = puedo parar de probar?
No. El ambiente cambia constantemente: nuevos servidores, actualizaciones de aplicación, cambios de schema, nuevos volúmenes. La prueba de restore debe seguir la evolución.
¿Quién debe participar del tabletop?
Idealmente: CTO/CIO, líder de TI, líder de SOC, jurídico, comunicación, alguien de operaciones de negocio. Los escenarios realistas involucran decisiones fuera de TI.
¿Quiere apoyo para diseñar su plan de pruebas?
Consultoría de DR + ejecución de drills + tabletop facilitado.