Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://theory.sinp.msu.ru/pipermail/ru-ngi/2011q4/000283.html
Дата изменения: Wed Oct 12 14:30:23 2011 Дата индексирования: Tue Oct 2 02:48:43 2012 Кодировка: |
Да, у нас тоже такое происходит. На счёт специального SE для тестов. Физически более правильно его оставить в CERN. Может быть можно на уровне RU-NGI\WLCG договориться с кем-нибудь, например: на федерацию дают сервер с предустановленным SLС5 (можно виртуальную машину) особо надёжную, а на нём мы(RDIG) уже устанавливаем свой SE и сами поддерживаем. Рамещать физически на каком-либо сайте RDIG не очень хорошо. Виктор п.с. установка и поддержка простенького SE только для одной ВО займёт не много времени. On 10/10/2011 02:34 PM, Valery Mitsyn wrote: > Hi Lev, > > проблема не "рассосалась", на наших 4-х CE этот тест примерно > через раз выдает critical, то есть, раз - OK, следующий > запуск - CRITICAL. Правда диагностика теперь другая: > > Trying SURL > srm://lcgsedc01.jinr.ru/pnfs/jinr.ru/data/ops/generated/2011-10-10/filef486e965-9d4e-46b9-b185-cedfa6561912 > ... > Source SE type: SRMv2 > Source SRM Request Token: -2079224650 > Destination SE type: SRMv2 > Destination SRM Request Token: 100489f2-1cb9-4335-ae8e-d4c2c0c4b281 > srm://lcg59.sinp.msu.ru/dpm/sinp.msu.ru/home/ops/generated/2011-10-10/file34080ee5-9949-4765-8cbe-5d9e62091cc1: > Invalid argument > lcg_rep: Invalid argument > 2011-10-10T11:38:54Z > Failed replication to lcg59.sinp.msu.ru > > Предлагаю использовать наш 2-й SE - lxse-dc01.jinr.ru, пока вопрос > с SE для nagios не будет решен окончательно. > > P.S. Проблемы с nagios мне понятны и вполне ожидаемы, после > перехода от EGEE к EGI, разработка всего софта потеряла > единого координатора. Я просматриваю тикеты в GGUS по > софту и вижу, какие обидные проблемы всплывают из-за > недостаточной координации в разработке и внедрении нового > софта именно сейчас. Будет надеяться, что текущий бардак скоро > всем надоест и его ликвидируют. Могу только посочувсвовать > вашему коллективу в нелегком деле ведения регионального > nagios. > > P.P.S. Некоторые другие регионы тоже пострадали, к примеру: > https://ggus.eu/ws/ticket_info.php?ticket=75152 > > On Mon, 10 Oct 2011, Lev Shamardin wrote: > >> Привет всем, >> >> tl;dr: тесты переконфигурировали, проблемы должны "рассосаться" за >> несколько часов. >> >> Теперь подробнее о причинах и текущем состоянии. >> >> Для запуска некоторых тестов на WN используется SE, который должен быть >> во-первых, правильно настроен и доступен, а во-вторых, по хорошему, >> находиться >> во "внешнем" по отношению к сайту (а лучше и к региону в целом) месте. >> >> Долгое время такие "внешние" SE предоставлялись CERN'овской командой >> SAM, и их >> адреса вбиты в дефолтные значения всех конфигураций в дистрибутивах >> Nagios и >> т.п. Более того, долгое время считалось что такое положение вещей >> является >> правильным, и порядок изменения имен этих SE даже не описывался в >> документации >> (и на данный момент по-прежнему отсутствует в руководстве по установке >> мониторинга на Nagios). >> >> Некоторое время назад команда SAM решила, что эти SE пора выводить из >> строя. Они >> каким-то образом "сообщили" об этом намерении администраторам >> региональных >> nagios'ов, но "сообщили" в кавычках, поскольку через какой канал это было >> сделано не очень понятно. По крайней мере, соответствующих >> Broadcast'ов или >> тикетов в GGUS не было. >> >> На прошлой неделе по одной из SAM'овских рассылок пришло уведомление в >> духе >> "всем привет, сервера выключаем, если что, имейте в виду, что вот эти ими >> пользовались, и им станет плохо", и, конечно, мы тоже попали под раздачу. >> >> Появление проблемы заодно наложилось на downtime GGUS'а, поэтому в >> конечном >> результате занялись ей только в пятницу, и решили только сегодня. >> >> В качестве временного решения для тестов используется один из >> production SE на >> сайте ru-Moscow-SINP-LCG2, вопрос о том где и как будет развернут >> "окончательный" SE для тестов сейчас в процессе решения. >> >> Полностью согласен со всеми жалобами и считаю ситуацию крайне неприятной. >> Вообще, хотелось бы отметить, что документация к SAM Nagios и координация >> действий, связанных с какими-либо серьезными изменениями в SAM Nagios >> сейчас >> находятся в очень странном для меня состоянии: документация >> "размазана" по >> нескольким местам и не полная (а местами и противоречивая), публичные >> изменения >> о серьезных изменениях, включая даже выход новых версий происходят по >> не очень >> понятным и не очень надежным каналам, новые версии rpm-пакетов попадают в >> production-репозитории ДО (!) того, как очередной апдейт получает статус >> "Released", иногда с "опережением" на несколько недель (при этом в том >> месте, >> которое можно считать документацией, стоит статус "Do not install yet"). >> >> Короче, имеет место серьезный бардак. Кто и что может с ним сделать - >> не знаю. >> Но многие наши проблемы вызываются именно наличием этого бардака. >> >> С уважением, >> >> Лев. >> _______________________________________________ >> RU-NGI mailing list >> RU-NGI at theory.sinp.msu.ru >> http://theory.sinp.msu.ru/mailman/listinfo/ru-ngi >> > > > > _______________________________________________ > RU-NGI mailing list > RU-NGI at theory.sinp.msu.ru > http://theory.sinp.msu.ru/mailman/listinfo/ru-ngi