|
Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://theory.sinp.msu.ru/pipermail/ru-ngi/2015q1/001499.html
Дата изменения: Tue Feb 3 11:32:44 2015 Дата индексирования: Sun Apr 10 18:11:51 2016 Кодировка: |
День добрый, Александр!! То, что Виктор ни чего не понял, только подтверждает мое описание ситуации. Но к решению вопроса нас это не приближает. У нас есть некоторая система, которая реагирует на проблемы сайтов. Реагирует не всегда правильно. Вопрос, как эту систему исправлять. На кого писать билеты. Если дашбоард и нагиос будут реагировать правильно, то к коллегам не будет притензий - они нажмут свои красные кнопки вовремя, не задумываясь и ладно. Еще раз конкретизирую проблему, не учитывая специалистов, которые умеют нажимать кнопки и слава богу: 1) пример дашбоард: http://operations-portal.egi.eu/availability/siteAvailabilities/type/Zoomline/site/RU-SPbSU Видно , что даунтайм отмечен. Видно , что он просрочен (на пол дня раньше начался, на день позже закончился). Но итоговые цифры достпуности-надежности подсчитаны вообще без учета даутайма. Что и приводит к ошибке, которая пропадет, когда конец периода простоя сместится на начало текущего месяца. 2) Центральный нагиос : https://midmon.egi.eu/nagios/cgi-bin/extinfo.cgi?host=alice23.spbu.ru&type=2&service=org.bdii.GLUE2-Validate показал на моем сайте ошибку за за 26 января. Нагиос российский такой ошибки не показывал. Сейчас поискал еще раз и обнаружил примерно на это время следующее: https://midmon.egi.eu/nagios/cgi-bin/history.cgi?host=alice23.spbu.ru&type=0&statetype=0&service=org.bdii.GLUE2-Validate&archive=8 " [01-26-2015 04:19:30] Warning: Unrecognized external command -> n- Result = WILLRESUB\n- Source = LogMonitor\n- Tag = unavailable\n- Timestamp = Mon Jan 26 04:15:36 2015 EET\n- User = /C=GR/O=HellasGrid/OU=auth.gr/CN=Pavlos Daoglou/CN=proxy " Проблема могла быть, как в прокси этого самого Павлоса, так и в чем-то еще, но данный тест проводился чуь ли не раз в сутки, что дало повод Григорию открыть билет по выдуманной им теме. Это меньшая проблема - на тему билетов от Григория и Виктора можно не обращать внимание. А билеты такие через пару суток должны автоматом закрываться. Но сама по себе ситуация, когда центральный нагиос выдает несуществующие ошибки, или не подтверждаемые, - не приятна. Вот по этому вопросу и хотелось бы поднять дискуссию. Пока я ее поднимаю на уровне RDIG. Жду согласие или не согласие коллег дабы перенести этот вопрос выше для конечного решения. 2 февраля 2015 г., 23:52 пользователь Victor Edneral < edneral at theory.sinp.msu.ru> написал: > Ничего не понял. Речь шла только о билете 111363 - LOW AVAILABILITY. > Это SPbSU. И параметры у него низкие, как и у ЗТЗШ. Ни о EMI, ни о GLUE2 > речь не шла. > PNPI падал до 3% под вашим руководством; DT был открыт до 2014.01.21 > 18:00 и просрочен, я вам об этом писал. Сейчас НИКАКИХ DT в Российском > сегменте нет вообще. > > > ----- Original Message ----- From: Andrey Zarochentsev > To: ru-ngi > Cc: Victor Edneral ; Grigory Borisovich Shpiz ; Alexander Kryukov > Sent: Monday, February 02, 2015 11:29 PM > > Subject: Fwd: Re: [RU-NGI] GGUS tickets > > > День добрый, господа! > > Не сразу заметил, что из сс пропала общая рассылка. Однако вопрос > касается не только моего сайта, а мониторинга вех российский сайтов, в > которых автор письма , как видим путается. > > По сему пересылаю переписку всем. > > > > > > > ---------- Пересылаемое сообщение ---------- > От кого: Andrey Zarochentsev <andrey.zar at gmail.com> > Дата: 2 февраля 2015 г., 23:01 > Тема: Re: Re: [RU-NGI] GGUS tickets > Кому: Victor Edneral <edneral at theory.sinp.msu.ru> > Копия: Alexander Kryukov <kryukov at theory.sinp.msu.ru>, Grigory Borisovich > Shpiz <shpiz at theory.sinp.msu.ru> > > > > День добрый!! )) > > > Очень порадовал ответ!! :) > > > При чем тут сайт PNPI?? Кто кому куда писал?? Сайт вне даунтайма простоял > сутки - это 1/30 = 100-3.3= 96.7 % , а билет объявляют за понижение ниже 80 > %. > > Причем на билет о доступности я solved в этот раз не писал: > https://ggus.eu/index.php?mode=ticket_info&ticket_id=111363 > > > Я закрывал билет о EM2: > https://ggus.eu/index.php?mode=ticket_info&ticket_id=111392 > > Который был открыт совершенно не в тему. > > По российскому нагиосу вообще было все в порядке, по центральному якобы > были засечены неправильная реакция на проверку Glue2 (которая в хистори не > сохранилась). Ошибка эта к EMI2 , объявленной в билете не имеет отношения. > Да и самой ошибки по ходу не было. > > > > Так что ответ полностью соответствует описанной ситуации. > > Эксперты наши не могут отличить сайт PNPI от SPbSU , и EMI2 от GLUE2 . И > разобраться как работает их мониторинг. > > > > Но это не так страшно. Как я уже писал в своем первом письме - эти люди > действительно реагируют на алармы дашбоарда, не напрягаясь эти алармы > как-то оценить - не их задача. По сему прошу руководство RDIG либо открыть > билет на работу системы алармов, по двум приведенным билетам, или > подсказать мне,неграмотному в общей административной структуре, на кого я > могу сам открыть билет, описав ситуацию. > > > > > > 2 февраля 2015 г., 20:28 пользователь Victor Edneral < > edneral at theory.sinp.msu.ru> написал: > > > Отаечаю на последнее из мешанины писем. По пунктам. > > На RU-SPbSU один билет есть - > https://ggus.eu/index.php?mode=ticket_info&ticket_id=111363 > О котором я уже писал в общую переписку - господа мониторщики в который > раз не могут открыть глаза и увидеть объявленный заранее даунтайм. И > создают билет о плохой доступности сайта. Билет сможет закрыться только > после прохождения месяца с конца даунтайма - 20 февраля. > > а) Мониторирование производим не мы, а Dashboar. Мы - следуем > сопровождающим инструкциям и открываем билеты Только после жизни аларма > соответствующий срок (>24 часов). В случае DT аларм не возникает. DT был > объявлен ДО 2015.01.21 18:00 и был сильно просрочен, о чем я сообщал > соответствующему "специалисту" через запись в Notepad сайта PNPI за номером > 500. Запись, впрочем, была проигнорирована. Видимо ее просто не читали (по > безграмотности). Впрочем, после РЕАЛЬНОГО окончания DT я эту запись удалил. > б) Билет 111363 был переоткрыт ПОСЛЕ 21 января. И мы НЕ МОЖЕМ открыть > такой билет, пока AVAILABILITY выше 90%. Мы НЕ МОЖЕМ закрыть его, пока > AVAILABILITY ниже 90%. Формально закрыть можем, но немедленно возникнет > alarm и мы снова обязаны будем через 24 часа его открыть, я вам об этом уже > писал. А закрываем мы такой билет не через месяц , а когда сайт выйдет на > нормальную производительность. Почему вы ставите solved - не понятно. > в) Только совершенно безответственный человек мог допустить падение > AVAILABILITY сайта PNPI до 3% . Вы сильно подвели статистику по России. > г) Открытый билет не является наказанием. Это лишь сигнал, что не все в > порядке. За десять лет работы мы усвоили это достаточно хорошо. > > Виктор Еднерал > > ----- Original Message ----- From: "Alexander Kryukov" < > kryukov at theory.sinp.msu.ru> > To: "Grigory Borisovich Shpiz" <shpiz at theory.sinp.msu.ru> > Cc: "Victor Edneral" <edneral at theory.sinp.msu.ru> > Sent: Monday, February 02, 2015 4:27 PM > Subject: Fwd: Re: [RU-NGI] GGUS tickets > > > > -----BEGIN PGP SIGNED MESSAGE----- > Hash: SHA1 > > Гриша, привет! > > Требуется твой комментарий по процедуре открытия билетов в период > downtime. > > -- А.К. > > > > > > > -- > > Best Regards, > Andrey Zarochentsev > > > > -- > > Best Regards, > Andrey Zarochentsev > -- Best Regards, Andrey Zarochentsev -------------- next part -------------- An HTML attachment was scrubbed... URL: <http://theory.sinp.msu.ru/pipermail/ru-ngi/attachments/20150203/a8718b4d/attachment-0001.html>