Резервное копирование служб факультета ВМК
Введение
Защита данных пользователей от потерь делается на нескольких уровнях, т.к. данные можно потерять (или данные станут надолго недоступны) при:
- выходе из строя жесткого диска
- выходе из строя RAID-контроллера (особенно если сломалось не сразу и возникла проблема write-hole)
- выходе из строя сервера (материнская плата, память, ...)
- подключили сервер к неправильному питанию и все сгорело (был случай на факультете, не в нашей службе)
- пользователь удалил один файл, а думал, что удаляет другой
- пользователь не заблокировал рабочую станцию и злоумышленник удалил ему письмо (например, ребенок)
- злоумышленник подобрал пароль пользователя и скомпрометировал его данные (удалил, подменил, ...)
От разных опасностей надо применять разные средства.
Локальное копирование
Делается через снимки файловой системы (snapshot).
Периодичность:
- Делается два/три раза в час, хранится трое суток
- Дополнительно раз в день, хранится две недели (14 суток)
- Дополнительно раз в неделю, хранится месяц
- Дополнительно раз в месяц, хранится 6 месяцев
- В виду наличия недельных бекапов сроком на 6 месяцев перестали делаться с 1.09.2013.
Спасает от проблем пользовательского уровня:
- Удалили по ошибке письмо/файл/...
- Восстановили базу данных не из той копии/удалили базу данных
- Злоумышленник подобрал пароль к почте/сайту/... и изменил/удалил данные
- и других подобных
Т.е. оборудование все в полном порядке, не аппаратный сбой.
Использование RAID на серверах
Спасает от выхода из строя одного жесткого диска на сервере и дает время на восстановление работоспособности сервиса.
Увеличивает количество экземпляров данных пользователя локально.
Копирование на удаленный сервер
Спасает от потери всего сервера (сгорела материнская плата, контроллер, пожар в серверной ...)
Производится с периодичностью самого частого бекапа, поэтому отдельный сервер хранит достаточно релевантные данные.
На сервере хранятся те же копии (снимки), что и на основной системе, что позволяет закрыть и такой сложный сценарий:
- администратор сайта сделал неправильное обновление (например, перед новогодними праздниками)
- во время новогодних каникул сервер потеряли (например, переносили и уронили на пол)
- несмотря на это все данные (состояние системы) вполне можно восстановить
Статистика
В процессе жизни сервисы Факультета пережили:
- выход из строя сервера в январе 2014:
- потерь данных не было
- работоспособность 7ми виртуальных машин была восстановлена в течении часа.
- актуальность данных: расхождение бекапа и работающего сервера составила меньше 25 минут (сервер уникальный, его диски подключить некуда). * "потерю" пользователем папки сайта в 2013 (радикально удаляли и удалили лишнее):
- Данные были полностью восстановлены.
- "потерю" папки с письмами (2 разных пользователя) в 2013:
- Данные были полностью восстановлены (оба пользователя обратились почти сразу после своей ошибки).
- "потерю" еще одной из кафедр данных за 9 месяцев (ошибочный откат базы, 2013):
- Обратились спустя 11 дней
- Данные были полностью восстановлены (на утро проблемного дня).
- "потерю" одной из кафедр почты из-за простого пароля (после этого все завели более сложные пароли, 2013):
- Обратились спустя 4 дня после потери данных
- Почта была полностью восстановлена (за пять минут до изменения)
- выход из строя 5 серверов в течении года (2011-2012):
- потерь данных не было
- простой в сервисах не превышал двух-трех часов на каждый случай