Документ взят из кэша поисковой машины. Адрес оригинального документа : http://theory.sinp.msu.ru/pipermail/ru-ngi/2015q3/001598.html
Дата изменения: Wed Jul 29 14:12:22 2015
Дата индексирования: Sun Apr 10 18:22:46 2016
Кодировка:
[RU-NGI] CE падает без видимых причин

[RU-NGI] CE падает без видимых причин

Valery Mitsyn vvm at mammoth.jinr.ru
Wed Jul 29 13:28:55 MSK 2015


On Wed, 29 Jul 2015, A.V. Berezhnoy wrote:

> Добрый день.
>
> У нас на сайте имеется следующая проблема.
> На CE падает pbs_server. Делает он это неожиданно, поэтому  найти 
> закономерность сложно. Он может проработать иногда целую неделю, но потом 
> упасть.

  Если Вы все равно запускаете yaim, то попробуйте поставить
torque 4.2.10. У нас установлен на Tier1, работает намного
стабильнее, чем 2.5. Правда я сам его собирал, похоже в
epel уже рабочая версия.
  Надо подстоить переменные в site-info.def, у 4.x другие
TORQUE_VAR_DIR
BATCH_LOG_DIR
BATCH_VERSION.
  Лучше сохранить все настройки в текстовом файле, потом
cat <file> | qmgr -a
Я сохраняю настройки вот таким скриптом:
{{{
#!/bin/sh
###set -x
SERVER=`hostname -s`
LOGDIR="/root/log"
mkdir -p $LOGDIR
LOGBAS="pbs-config"
LOGEXT=`date "+%Y%m%d"`
LOGFILE="$LOGDIR"/"$LOGBAS"."$LOGEXT"
rm -f $LOGFILE
touch $LOGFILE
qmgr -c "print server @$SERVER" $SERVER            >> $LOGFILE
qmgr -c "print node @$SERVER" $SERVER | \
    grep -Ev '^set node wn.* status (|\+)= ' | \
    grep -Ev '^set node wn.* state (|\+)= ' >> $LOGFILE
exit 0
}}}

>
> service pbs_server restart  не помогает.
> Помогает yaim, проделанный два раза.
>
> После одного yaim  pbs_server ведёт неадекватно.
> Например команда nstat зависает.
> А сам pbs_server, если сделать service pbs_server restart, перегружается 
> аномально долго.

  Он вообще-то останавливается?
Попробуйте "ps auxwww | grep [p]bs_"

>
> После второго yaim сервер работает без сбоев до следующего неожиданного 
> падения.

  Он точно падает, или просто виснет?
ps auxwww | grep [p]bs_
пусто?

>
> Буду благодарен, если подскажете, где копать.
>
> С наилучшими пожеланиями,
> Александр Бережной
>
>
>
>
> _______________________________________________
> RU-NGI mailing list
> RU-NGI at theory.sinp.msu.ru
> http://theory.sinp.msu.ru/mailman/listinfo/ru-ngi
>

-- 
Best regards,
  Valery Mitsyn


More information about the RU-NGI mailing list