Резервное копирование служб факультета ВМК
Введение
Защита данных пользователей от потерь делается на нескольких уровнях, т.к. данные можно потерять (или данные станут надолго недоступны) при:
- выходе из строя жесткого диска
- выходе из строя RAID-контроллера (особенно если сломалось не сразу и возникла проблема write-hole)
- выходе из строя сервера (материнская плата, память, ...)
- подключили сервер к неправильному питанию и все сгорело (был случай на факультете, не в нашей службе)
- пользователь удалил один файл, а думал, что удаляет другой
- пользователь не заблокировал рабочую станцию и злоумышленник удалил ему письмо (например, ребенок)
- злоумышленник подобрал пароль пользователя и скомпрометировал его данные (удалил, подменил, ...)
От разных опасностей надо применять разные средства.
Локальное копирование
Делается через снимки файловой системы (snapshot).
Периодичность:
- Делается два/три раза в час, хранится трое суток
- Дополнительно раз в день, хранится месяц
- Дополнительно раз в неделю, хранится 6 месяцев
Спасает от проблем пользовательского уровня:
- Удалили по ошибке письмо/файл/...
- Восстановили базу данных не из той копии/удалили базу данных
- Злоумышленник подобрал пароль к почте/сайту/... и изменил/удалил данные
- и других подобных
Т.е. оборудование все в полном порядке, не аппаратный сбой.
Использование RAID на серверах
Спасает от выхода из строя одного жесткого диска на сервере и дает время на восстановление работоспособности сервиса.
Увеличивает количество экземпляров данных пользователя локально.
Копирование на удаленный сервер
Спасает от потери всего сервера (сгорела материнская плата, контроллер, пожар в серверной ...)
Производится с периодичностью самого частого бекапа, поэтому отдельный сервер хранит достаточно релевантные данные.
На сервере хранятся те же копии (снимки), что и на основной системе, что позволяет закрыть и такой сложный сценарий:
- администратор сайта сделал неправильное обновление (например, перед новогодними праздниками)
- во время новогодних каникул сервер потеряли (например, переносили и уронили на пол)
- несмотря на это все данные (состояние системы) вполне можно восстановить
Статистика
В процессе жизни сервисы Факультета пережили:
- восстановление данных для еще одного виртуального сервера в августе 2015г:
- Данные были полностью восстановлены.
- новую "потерю" данных на предыдущем сайте в августе 2015г. (рекомендации выполнены не были, их взломали еще раз):
- Данные были полностью восстановлены.
- "потерю" данных одном из сайтов в июле 2015г. (взлом, обратились спустя неделю):
- Данные были полностью восстановлены.
- "потерю" пользователем писем в июле 2015г. (радикально удаляли и удалили лишнее):
- Данные были полностью восстановлены.
- "потерю" пользователем писем в мае 2015г. (подключились POP3-клиентом):
- Данные были полностью восстановлены.
- Как позднее оказалось, "удаление" почты было и раньше, исчезнувшая в более ранний период почта тоже восстановлена.
- "потерю" пользователем писем в феврале 2015г. (радикально удаляли и удалили лишнее):
- Данные были полностью восстановлены.
- выход из строя на бекап-сервере (август 2014г.) еще трех дисков:
- в том числе тот, который был снова введен в эксплуатацию
- ввиду нехватки дисков сервер был переделан на 6-дисковое хранилище (было 8-дисковое)
- восстановление виртуальной машины для одной из кафедр (17.07.2014 попросили восстановить на 03.07.2014).
- выход из строя на бекап-сервере (июнь 2014) трех жестких дисков:
- два безвозвратно
- один частично (данные удалось считать)
- данные не пропали (RAID6), частично вышедший из стоя диск прошел проверку и был заново введен в эксплуатацию.
- выход из строя сервера в январе 2014:
- потерь данных не было
- работоспособность 7ми виртуальных машин была восстановлена в течении часа.
- актуальность данных: расхождение бекапа и работающего сервера составила меньше 25 минут (сервер уникальный, его диски подключить некуда).
- "потерю" пользователем папки сайта в 2013 (радикально удаляли и удалили лишнее):
- Данные были полностью восстановлены.
- "потерю" папки с письмами (2 разных пользователя) в 2013:
- Данные были полностью восстановлены (оба пользователя обратились почти сразу после своей ошибки).
- "потерю" еще одной из кафедр данных за 9 месяцев (ошибочный откат базы, 2013):
- Обратились спустя 11 дней
- Данные были полностью восстановлены (на утро проблемного дня).
- проблема с сайтом компьютерных курсов (март 2013), администратор обнаружил, что сайт ведет себя иначе:
- скорее всего либо ошибка администратора (или его действий по безопасности)
- Данные (файлы и база) были полностью восстановлены.
- "потерю" одной из кафедр почты из-за простого пароля (после этого все завели более сложные пароли, 2013):
- Обратились спустя 4 дня после потери данных
- Почта была полностью восстановлена (за пять минут до изменения)
- выход из строя 5 серверов в течении года (2011-2012):
- потерь данных не было
- простой в сервисах не превышал двух-трех часов на каждый случай