Документ взят из кэша поисковой машины. Адрес оригинального документа : http://theory.sinp.msu.ru/pipermail/ru-ngi/2011q4/000281.html
Дата изменения: Mon Oct 10 16:34:39 2011
Дата индексирования: Tue Oct 2 02:48:32 2012
Кодировка:
[RU-NGI] regional nagios: текущее состояние и причины

[RU-NGI] regional nagios: текущее состояние и причины

Lev Shamardin shamardin at theory.sinp.msu.ru
Mon Oct 10 14:50:38 MSD 2011


Привет всем,

tl;dr: тесты переконфигурировали, проблемы должны "рассосаться" за несколько часов.

Теперь подробнее о причинах и текущем состоянии.

Для запуска некоторых тестов на WN используется SE, который должен быть
во-первых, правильно настроен и доступен, а во-вторых, по хорошему, находиться
во "внешнем" по отношению к сайту (а лучше и к региону в целом) месте.

Долгое время такие "внешние" SE предоставлялись CERN'овской командой SAM, и их
адреса вбиты в дефолтные значения всех конфигураций в дистрибутивах Nagios и
т.п. Более того, долгое время считалось что такое положение вещей является
правильным, и порядок изменения имен этих SE даже не описывался в документации
(и на данный момент по-прежнему отсутствует в руководстве по установке
мониторинга на Nagios).

Некоторое время назад команда SAM решила, что эти SE пора выводить из строя. Они
каким-то образом "сообщили" об этом намерении администраторам региональных
nagios'ов, но "сообщили" в кавычках, поскольку через какой канал это было
сделано не очень понятно. По крайней мере, соответствующих Broadcast'ов или
тикетов в GGUS не было.

На прошлой неделе по одной из SAM'овских рассылок пришло уведомление в духе
"всем привет, сервера выключаем, если что, имейте в виду, что вот эти ими
пользовались, и им станет плохо", и, конечно, мы тоже попали под раздачу.

Появление проблемы заодно наложилось на downtime GGUS'а, поэтому в конечном
результате занялись ей только в пятницу, и решили только сегодня.

В качестве временного решения для тестов используется один из production SE на
сайте ru-Moscow-SINP-LCG2, вопрос о том где и как будет развернут
"окончательный" SE для тестов сейчас в процессе решения.

Полностью согласен со всеми жалобами и считаю ситуацию крайне неприятной.
Вообще, хотелось бы отметить, что документация к SAM Nagios и координация
действий, связанных с какими-либо серьезными изменениями в SAM Nagios сейчас
находятся в очень странном для меня состоянии: документация "размазана" по
нескольким местам и не полная (а местами и противоречивая), публичные изменения
о серьезных изменениях, включая даже выход новых версий происходят по не очень
понятным и не очень надежным каналам, новые версии rpm-пакетов попадают в
production-репозитории ДО (!) того, как очередной апдейт получает статус
"Released", иногда с "опережением" на несколько недель (при этом в том месте,
которое можно считать документацией, стоит статус "Do not install yet").

Короче, имеет место серьезный бардак. Кто и что может с ним сделать - не знаю.
Но многие наши проблемы вызываются именно наличием этого бардака.

С уважением,

Лев.


More information about the RU-NGI mailing list