Документ взят из кэша поисковой машины. Адрес оригинального документа : http://theory.sinp.msu.ru/pipermail/ru-ngi/2015q1/001499.html
Дата изменения: Tue Feb 3 11:32:44 2015
Дата индексирования: Sun Apr 10 18:11:51 2016
Кодировка:
[RU-NGI] GGUS tickets

[RU-NGI] GGUS tickets

Andrey Zarochentsev andrey.zar at gmail.com
Tue Feb 3 11:33:40 MSK 2015


День добрый, Александр!!

То, что Виктор ни чего не понял, только подтверждает мое описание ситуации.
Но к решению вопроса нас это не приближает. У нас есть некоторая система,
которая реагирует на проблемы сайтов. Реагирует не всегда правильно.
Вопрос, как эту систему исправлять. На кого писать билеты. Если дашбоард  и
нагиос будут реагировать правильно, то к коллегам не будет притензий - они
нажмут свои красные кнопки вовремя, не задумываясь и ладно.

Еще раз конкретизирую проблему, не учитывая специалистов, которые умеют
нажимать кнопки и слава богу:

1) пример дашбоард:
http://operations-portal.egi.eu/availability/siteAvailabilities/type/Zoomline/site/RU-SPbSU

Видно , что даунтайм отмечен. Видно , что он просрочен (на пол дня раньше
начался, на день позже закончился). Но итоговые цифры
достпуности-надежности подсчитаны вообще без учета даутайма. Что и приводит
к ошибке, которая пропадет, когда конец периода простоя сместится на начало
текущего месяца.

2) Центральный нагиос :
https://midmon.egi.eu/nagios/cgi-bin/extinfo.cgi?host=alice23.spbu.ru&type=2&service=org.bdii.GLUE2-Validate
показал на моем сайте ошибку за за 26 января. Нагиос российский такой
ошибки не показывал. Сейчас поискал еще раз и  обнаружил примерно на это
время следующее:

https://midmon.egi.eu/nagios/cgi-bin/history.cgi?host=alice23.spbu.ru&type=0&statetype=0&service=org.bdii.GLUE2-Validate&archive=8

"
[01-26-2015 04:19:30] Warning: Unrecognized external command -> n- Result =
WILLRESUB\n- Source = LogMonitor\n- Tag = unavailable\n- Timestamp = Mon
Jan 26 04:15:36 2015 EET\n- User = /C=GR/O=HellasGrid/OU=auth.gr/CN=Pavlos
Daoglou/CN=proxy
"
Проблема могла быть, как в прокси этого самого Павлоса, так и в чем-то еще,
но данный тест проводился чуь ли не раз в сутки, что дало повод Григорию
открыть билет по выдуманной им теме.

Это меньшая проблема - на тему билетов от Григория и Виктора можно не
обращать внимание. А билеты такие через пару суток должны автоматом
закрываться. Но сама по себе ситуация, когда центральный нагиос выдает
несуществующие ошибки, или не подтверждаемые, - не приятна.

Вот по этому вопросу и хотелось бы поднять дискуссию. Пока я ее поднимаю на
уровне  RDIG. Жду согласие или не согласие коллег дабы перенести этот
вопрос выше для конечного решения.





2 февраля 2015 г., 23:52 пользователь Victor Edneral <
edneral at theory.sinp.msu.ru> написал:

>    Ничего не понял. Речь шла только о билете 111363 - LOW AVAILABILITY.
> Это SPbSU. И параметры у него низкие, как и у ЗТЗШ. Ни о EMI, ни о GLUE2
> речь не шла.
>    PNPI  падал до 3% под вашим руководством; DT был открыт до 2014.01.21
> 18:00 и просрочен, я вам об этом писал. Сейчас НИКАКИХ DT в Российском
> сегменте нет вообще.
>
>
> ----- Original Message ----- From: Andrey Zarochentsev
> To: ru-ngi
> Cc: Victor Edneral ; Grigory Borisovich Shpiz ; Alexander Kryukov
> Sent: Monday, February 02, 2015 11:29 PM
>
> Subject: Fwd: Re: [RU-NGI] GGUS tickets
>
>
> День добрый, господа!
>
> Не сразу заметил, что из сс пропала  общая рассылка. Однако вопрос
> касается не только моего сайта, а мониторинга вех российский сайтов, в
> которых автор письма , как видим путается.
>
> По сему пересылаю переписку всем.
>
>
>
>
>
>
> ---------- Пересылаемое сообщение ----------
> От кого: Andrey Zarochentsev <andrey.zar at gmail.com>
> Дата: 2 февраля 2015 г., 23:01
> Тема: Re: Re: [RU-NGI] GGUS tickets
> Кому: Victor Edneral <edneral at theory.sinp.msu.ru>
> Копия: Alexander Kryukov <kryukov at theory.sinp.msu.ru>, Grigory Borisovich
> Shpiz <shpiz at theory.sinp.msu.ru>
>
>
>
> День добрый!! ))
>
>
> Очень порадовал ответ!! :)
>
>
> При чем тут сайт PNPI?? Кто кому куда писал?? Сайт вне даунтайма простоял
> сутки - это 1/30 = 100-3.3= 96.7 % , а билет объявляют за понижение ниже 80
> %.
>
> Причем на билет о доступности я solved в этот раз не писал:
> https://ggus.eu/index.php?mode=ticket_info&ticket_id=111363
>
>
> Я закрывал билет о EM2:
> https://ggus.eu/index.php?mode=ticket_info&ticket_id=111392
>
> Который был открыт совершенно не в тему.
>
> По российскому нагиосу вообще было все в порядке, по центральному якобы
> были засечены неправильная реакция на проверку Glue2 (которая в хистори не
> сохранилась). Ошибка эта к EMI2 , объявленной в билете не имеет отношения.
> Да и самой ошибки по ходу не было.
>
>
>
> Так что ответ полностью соответствует описанной ситуации.
>
> Эксперты наши не могут отличить сайт PNPI от SPbSU , и EMI2 от GLUE2 . И
> разобраться как работает их мониторинг.
>
>
>
> Но это не так страшно. Как я уже писал в своем первом письме - эти люди
> действительно реагируют на алармы дашбоарда, не напрягаясь эти алармы
> как-то оценить - не их задача. По сему прошу руководство RDIG либо открыть
> билет на работу системы алармов, по двум приведенным билетам, или
> подсказать мне,неграмотному в общей административной структуре, на кого я
> могу сам открыть билет, описав ситуацию.
>
>
>
>
>
> 2 февраля 2015 г., 20:28 пользователь Victor Edneral <
> edneral at theory.sinp.msu.ru> написал:
>
>
>   Отаечаю на последнее из мешанины писем. По пунктам.
>
> На RU-SPbSU один билет есть -
> https://ggus.eu/index.php?mode=ticket_info&ticket_id=111363
> О котором я уже писал в общую переписку - господа мониторщики в который
> раз не могут открыть глаза и увидеть объявленный заранее даунтайм. И
> создают билет о плохой доступности сайта. Билет сможет закрыться только
> после прохождения месяца с конца даунтайма - 20 февраля.
>
> а) Мониторирование производим не мы, а Dashboar. Мы - следуем
> сопровождающим инструкциям и открываем билеты Только после жизни аларма
> соответствующий срок (>24 часов). В случае DT аларм не возникает.  DT был
> объявлен  ДО 2015.01.21 18:00 и был сильно просрочен, о чем я сообщал
> соответствующему "специалисту" через запись в Notepad сайта PNPI за номером
> 500. Запись, впрочем, была проигнорирована. Видимо ее просто не читали (по
> безграмотности). Впрочем, после РЕАЛЬНОГО окончания DT я эту запись удалил.
> б) Билет 111363 был переоткрыт ПОСЛЕ 21 января. И мы НЕ МОЖЕМ открыть
> такой билет, пока AVAILABILITY выше 90%.  Мы НЕ МОЖЕМ закрыть его, пока
> AVAILABILITY ниже 90%. Формально закрыть можем, но немедленно возникнет
> alarm и мы снова обязаны будем через 24 часа его открыть, я вам об этом уже
> писал. А закрываем мы такой билет не через месяц , а когда сайт выйдет на
> нормальную производительность. Почему вы ставите solved -  не понятно.
> в) Только совершенно безответственный человек мог допустить падение
> AVAILABILITY сайта PNPI до 3% . Вы сильно подвели статистику по России.
> г) Открытый билет не является наказанием. Это лишь сигнал, что не все в
> порядке.  За десять лет работы мы усвоили это достаточно хорошо.
>
>   Виктор Еднерал
>
> ----- Original Message ----- From: "Alexander Kryukov" <
> kryukov at theory.sinp.msu.ru>
> To: "Grigory Borisovich Shpiz" <shpiz at theory.sinp.msu.ru>
> Cc: "Victor Edneral" <edneral at theory.sinp.msu.ru>
> Sent: Monday, February 02, 2015 4:27 PM
> Subject: Fwd: Re: [RU-NGI] GGUS tickets
>
>
>
> -----BEGIN PGP SIGNED MESSAGE-----
> Hash: SHA1
>
> Гриша, привет!
>
> Требуется твой комментарий по процедуре открытия билетов в период
> downtime.
>
>            -- А.К.
>
>
>
>
>
>
> --
>
> Best Regards,
> Andrey Zarochentsev
>
>
>
> --
>
> Best Regards,
> Andrey Zarochentsev
>



-- 
Best Regards,
Andrey Zarochentsev
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://theory.sinp.msu.ru/pipermail/ru-ngi/attachments/20150203/a8718b4d/attachment-0001.html>


More information about the RU-NGI mailing list