Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://theory.sinp.msu.ru/pipermail/ru-ngi/2011q4/000281.html
Дата изменения: Mon Oct 10 16:34:39 2011 Дата индексирования: Tue Oct 2 02:48:32 2012 Кодировка: |
Привет всем, tl;dr: тесты переконфигурировали, проблемы должны "рассосаться" за несколько часов. Теперь подробнее о причинах и текущем состоянии. Для запуска некоторых тестов на WN используется SE, который должен быть во-первых, правильно настроен и доступен, а во-вторых, по хорошему, находиться во "внешнем" по отношению к сайту (а лучше и к региону в целом) месте. Долгое время такие "внешние" SE предоставлялись CERN'овской командой SAM, и их адреса вбиты в дефолтные значения всех конфигураций в дистрибутивах Nagios и т.п. Более того, долгое время считалось что такое положение вещей является правильным, и порядок изменения имен этих SE даже не описывался в документации (и на данный момент по-прежнему отсутствует в руководстве по установке мониторинга на Nagios). Некоторое время назад команда SAM решила, что эти SE пора выводить из строя. Они каким-то образом "сообщили" об этом намерении администраторам региональных nagios'ов, но "сообщили" в кавычках, поскольку через какой канал это было сделано не очень понятно. По крайней мере, соответствующих Broadcast'ов или тикетов в GGUS не было. На прошлой неделе по одной из SAM'овских рассылок пришло уведомление в духе "всем привет, сервера выключаем, если что, имейте в виду, что вот эти ими пользовались, и им станет плохо", и, конечно, мы тоже попали под раздачу. Появление проблемы заодно наложилось на downtime GGUS'а, поэтому в конечном результате занялись ей только в пятницу, и решили только сегодня. В качестве временного решения для тестов используется один из production SE на сайте ru-Moscow-SINP-LCG2, вопрос о том где и как будет развернут "окончательный" SE для тестов сейчас в процессе решения. Полностью согласен со всеми жалобами и считаю ситуацию крайне неприятной. Вообще, хотелось бы отметить, что документация к SAM Nagios и координация действий, связанных с какими-либо серьезными изменениями в SAM Nagios сейчас находятся в очень странном для меня состоянии: документация "размазана" по нескольким местам и не полная (а местами и противоречивая), публичные изменения о серьезных изменениях, включая даже выход новых версий происходят по не очень понятным и не очень надежным каналам, новые версии rpm-пакетов попадают в production-репозитории ДО (!) того, как очередной апдейт получает статус "Released", иногда с "опережением" на несколько недель (при этом в том месте, которое можно считать документацией, стоит статус "Do not install yet"). Короче, имеет место серьезный бардак. Кто и что может с ним сделать - не знаю. Но многие наши проблемы вызываются именно наличием этого бардака. С уважением, Лев.