Документ взят из кэша поисковой машины. Адрес оригинального документа : http://theory.sinp.msu.ru/pipermail/ru-ngi/2012q3/000632.html
Дата изменения: Fri Sep 21 20:36:02 2012
Дата индексирования: Tue Oct 2 03:35:39 2012
Кодировка:
[RU-NGI] nagios alarms in Russia

[RU-NGI] nagios alarms in Russia

Victor Kotlyar (IHEP) Victor.Kotlyar at ihep.ru
Fri Sep 21 16:52:23 MSK 2012


On 09/21/2012 02:44 PM, Valery Mitsyn wrote:
> On Fri, 21 Sep 2012, Eygene Ryabinkin wrote:
>
>> Thu, Sep 20, 2012 at 07:29:04PM +0400, Valery Mitsyn wrote:
>>> опять что-то было с питанием в SINP, или это что-то
>>> другое?
>>> Сегодня практически все CREAM в России получили alarm
>>> на org.sam.CREAMCE-JobSubmit-/ops/Role=lcgadmin
>>> Этот alarm очень "вредный", так как обычно много
>>> времени проходит, пока он сбросится.
>>> В результате, у всех наших сайтов пострадали A/R.
>
> Хочу напомнить, что A/R продолжает снижаться для всех
> сайтов. Похоже это уже следствие того, что тесты на
> WN не публикуют результат в региональный nagios.
> Может быть Лев в отпуске? А-у-у-у!


Врят ли бы он стал обновлять руками перед уходом в отпуск.

Но сам факт обновления без объявлений и вообще какой-то скрытной работы 
нашего ROC (если он ещё есть) печалит.

Виктор

>
>>
>> Мы видим то же самое, но я могу немножко добавить деталей. Самая
>> ранняя проблема наблюдалась в 00:59 MSK 20 сентября, после чего
>> состояние сервиса у нас то возвращалось в нормальное состояние, то
>> сваливалось в ошибку. В 7:40 мы не смогли связаться с
>> lcg05.sinp.msu.ru, чтобы проверить состояние тестов, но это была
>> единичная проблема.
>>
>> Logging info всех проблемных задач говорит о том, что тест был убит
>> после получаса выполнения в WN: это стандартный предел времени в наших
>> очередях для ops.
>>
>> И прямо сейчас я вижу, что на одной из WN уже около 25 минут висит
>> процесс
>> {{{
>> python
>> /home/gridpools/opssgm0000/home_cream_754288181/CREAM754288181/nagios/bin/mta-simple
>> --dirq /tmp/sam.31285.19974/msg-outgoing --destination
>> /queue/grid.probe.metricOutput.EGEE.lcg05_sinp_msu_ru --broker-network
>> PROD --pidfiledir
>> /home/gridpools/opssgm0000/home_cream_754288181/CREAM754288181/nagios/var/
>> -v info --bdii-uri truth.grid.kiae.ru:2170
>> }}}
>> который пытается делать select(0), но обламывается, ибо таймаут.
>> Никаких сетевых соединений у него не видно, поэтому что он хочет --
>> пока неясно.
>>
>
>
>
> _______________________________________________
> RU-NGI mailing list
> RU-NGI at theory.sinp.msu.ru
> http://theory.sinp.msu.ru/mailman/listinfo/ru-ngi



More information about the RU-NGI mailing list