Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://theory.sinp.msu.ru/pipermail/ru-ngi/2015q2/001543.html
Дата изменения: Sun Apr 26 16:10:00 2015 Дата индексирования: Sun Apr 10 18:17:10 2016 Кодировка: |
Добрый день. Нет, еще не брался. Наверное, придется обновлять софт на сервере, а потом допиливать на WNs в соответствии с рекомендациями из данной переписки. Всего наилучшего, Владимир. 26 апреля 2015 г., 8:09 пользователь Y.Lyublev <lublev at itep.ru> написал: > Добрый день. > У меня ситуация почти как у Владимира. > Обновление было только на одном ноде. > На нем, учитывая все рекомендации, поднял pbs_mom, > но на СЕ узел остается в > rrc087.itep.ru down > Похоже, что разные версии torque на СЕ и WN не понимают > друг друга. Верно? > Володя, вы не решили свою проблему? > Удачи. Евгений. > > ----- Original Message ----- > *From:* Vladimir Tikhomirov <tikhomir at sci.lebedev.ru> > *To:* Valery Mitsyn <vvm at mammoth.jinr.ru> > *Cc:* ru-ngi <ru-ngi at theory.sinp.msu.ru> > *Sent:* Saturday, April 25, 2015 11:39 PM > *Subject:* Re: [RU-NGI] torque-server-4.2.10 > > Добрый день. > У меня сегодня возникла та же проблема. Но еще сложнее: поскольку на > сервере > я давно запретил автоапдейты (а ручные, естественно, по лености не > делаю), то на > нем стоит очень старая torque - 2.5.7-9 и там никакого trqauthd вообще > нет. А вот > на WNs и UI автоапдейты не запретил и они сегодня ночью прошли. В > результате сервер > работает, но все задания стоят в состоянии Q. qstat и pbsnodes на СЕ > работают, а на UI > и WN дают ту же диагностику, что приводил Александр. Что посоветуете - > обновлять сервер > и далее - по списку? > Всего наилучшего, > Владимир. > > 25 апреля 2015 г., 21:31 пользователь Valery Mitsyn <vvm at mammoth.jinr.ru> > написал: > >> On Sat, 25 Apr 2015, A.V. Berezhnoy wrote: >> >> >>> 25.04.2015 18:12, Valery Mitsyn пишет: >>> >>>> On Sat, 25 Apr 2015, A.V. Berezhnoy wrote: >>>> >>>> Добрый день. >>>>> >>>>> Там не заводится какой-то демон /usr/sbin/trqauthd >>>>> >>>>> Я на CE нажал trqauthd, и он запустился. >>>>> >>>>> И yaim тогда тоже отработал без ошибок. >>>>> >>>>> Потом мне пришлось сделать заново доступ к очередям ( qmgr -c "set >>>>> queue ops acl_groups += opssgm" и т.д.) >>>>> >>>>> Задачи начали ставиться в очередь. >>>>> Но все они имеют статус "Q", так как не попадають на WN. >>>>> >>>>> Там, похоже, тоже нужен trqauthd, но на wn я его не нашёл. >>>>> >>>> >>>> Да, нужен. >>>> Попробуйте на torque сервере: >>>> rpm -qf /etc/init.d/trqauthd >>>> и поставте этот rpm на WN'ы. >>>> >>>> trqauthd находится в >>> torque-server-4.2.10-1.el6.x86_64 >>> >> >> Это явно ошибка в rpm'ам torque. >> Из epel? Последнее время я на несколько ошибок в epel нарывался. >> Я использую свой собранный torque, пока 4.2.9. >> >> >>> Это ничего, если его на wn поставить? >>> >> >> Наверное ничего страшного, только надо сделать: >> chkconfig pbs_server off >> /etc/init.d/pbs_server stop >> после установки rpm на всех WN'ах. >> >> БольшАя "засада" в том, что trqauthd должен запускаться на: >> WN'ах >> сервере torque >> CE >> UI, ели он есть. >> И должен запускаться во время старта системы, >> но старового файла для такого сервиса нет в rpm'ах >> torque* в epel. >> Похоже это очередной не проверенный и не работающий >> пакет в epel. >> >> >> >>> Спасибо, >>> А. Бережной >>> >>> Если на wn нажать qstat, то получаю >>>>> >>>>> socket_connect_unix failed: 15137 >>>>> socket_connect_unix failed: 15137 >>>>> socket_connect_unix failed: 15137 >>>>> qstat: cannot connect to server (null) (errno=15137) could not connect >>>>> to trqauthd >>>>> >>>>> >>>>> Александр >>>>> >>>>> 25.04.2015 15:40, Liudmila Stepanova пишет: >>>>> >>>>>> Добрый день, >>>>>> после upgrade на creamce pbs_server не стартует >>>>>> rpm -aq |grep torque >>>>>> torque-server-4.2.10-1.el6.x86_64 >>>>>> torque-client-4.2.10-1.el6.x86_64 >>>>>> emi-torque-utils-2.0.2-2.el6.noarch >>>>>> glite-yaim-torque-utils-5.1.3-1.el6.noarch >>>>>> glite-yaim-torque-server-5.1.0-1.sl6.noarch >>>>>> torque-4.2.10-1.el6.x86_64 >>>>>> emi-torque-server-1.0.0-2.sl6.x86_64 >>>>>> torque-libs-4.2.10-1.el6.x86_64 >>>>>> Не могу определить причину. >>>>>> С уважением, >>>>>> Людмила. >>>>>> >>>>>> _______________________________________________ >>>>>> RU-NGI mailing list >>>>>> RU-NGI at theory.sinp.msu.ru >>>>>> http://theory.sinp.msu.ru/mailman/listinfo/ru-ngi >>>>>> >>>>> >>>>> _______________________________________________ >>>>> RU-NGI mailing list >>>>> RU-NGI at theory.sinp.msu.ru >>>>> http://theory.sinp.msu.ru/mailman/listinfo/ru-ngi >>>>> >>>>> >>>> >>> >> -- >> Best regards, >> Valery Mitsyn >> >> _______________________________________________ >> RU-NGI mailing list >> RU-NGI at theory.sinp.msu.ru >> http://theory.sinp.msu.ru/mailman/listinfo/ru-ngi >> >> > ------------------------------ > > _______________________________________________ > RU-NGI mailing list > RU-NGI at theory.sinp.msu.ru > http://theory.sinp.msu.ru/mailman/listinfo/ru-ngi > > -------------- next part -------------- An HTML attachment was scrubbed... URL: <http://theory.sinp.msu.ru/pipermail/ru-ngi/attachments/20150426/084c6dd1/attachment.html>