Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://theory.sinp.msu.ru/pipermail/ru-ngi/2014q1/001233.html
Дата изменения: Thu Feb 6 16:15:33 2014 Дата индексирования: Fri Feb 28 03:42:31 2014 Кодировка: |
Добрый день. /var/log/dpm-gsiftp/gridftp.log на нашем SE выглядит так. Для ATLASPRODDISK, с которым все вроде бы нормально: 14087] Thu Feb 6 06:25:52 2014 :: samnag035.cern.ch:41746: [CLIENT]: RETR /se2.grid.lebedev.ru:/st/atlas/2014-02-06/testfile-put-ATLASPRODDISK-1391653504-47ac97d55284.txt.7200458.0 [14087] Thu Feb 6 06:25:52 2014 :: Starting to transfer "/se2.grid.lebedev.ru: /st/atlas/2014-02-06/testfile-put-ATLASPRODDISK-1391653504-47ac97d55284.txt.7200458.0". [14087] Thu Feb 6 06:25:52 2014 :: samnag035.cern.ch:41746: [SERVER]: 150 Beginning transfer. [14087] Thu Feb 6 06:25:52 2014 :: Finished transferring "/se2.grid.lebedev.ru:/st/atlas/2014-02-06/testfile-put-ATLASPRODDISK-1391653504-47ac97d55284.txt.7200458.0". [14087] Thu Feb 6 06:25:52 2014 :: Transfer stats: DATE=20140206022552.370872 HOST=se2.grid.lebedev.ruPROG=globus-gridftp-server NL.EVNT=FTP_INFO START=20140206022552.243545 USER=:globus-mapping: FILE=/se2.grid.lebedev.ru: /st/atlas/2014-02-06/testfile$ [14087] Thu Feb 6 06:25:52 2014 :: samnag035.cern.ch:41746: [SERVER]: 226 Transfer Complete. [14087] Thu Feb 6 06:25:53 2014 :: samnag035.cern.ch:41746: [CLIENT]: QUIT [14087] Thu Feb 6 06:25:53 2014 :: samnag035.cern.ch:41746: [SERVER]: 221 Goodbye. [14087] Thu Feb 6 06:25:53 2014 :: Closed connection from samnag035.cern.ch:41746 [14088] Thu Feb 6 06:26:10 2014 :: GFork functionality not enabled.: globus_gfork: GFork error: Env not set Для ATLASDATADISK, у которого проблемы - иногда так же, а иногда часть "Finished transferring" отсутствует: [16530] Thu Feb 6 06:27:21 2014 :: fts104.cern.ch:49511: [CLIENT]: RETR /se2.grid.lebedev.ru: /st/atlas/2013-11-10/step09.50000030.sonar_1.sonar.ESD.RU-MOSCOW-FIAN-LCG2_DATADISK._lb0002._0001_1286528515.6487861.0 [16530] Thu Feb 6 06:27:21 2014 :: Starting to transfer "/se2.grid.lebedev.ru: /st/atlas/2013-11-10/step09.50000030.sonar_1.sonar.ESD.RU-MOSCOW-FIAN-LCG2_DATADISK._lb0002._0001_1286528515.6487861.0". [16530] Thu Feb 6 06:27:21 2014 :: fts104.cern.ch:49511: [SERVER]: 150 Beginning transfer. [21275] Thu Feb 6 06:31:29 2014 :: GFork functionality not enabled.: globus_gfork: GFork error: Env not set В обоих случаях, как видите, ругается GFork functionality not enabled.: globus_gfork: GFork error: Env not set Это важно? Что касается маркеров, то упоминания о них тоже встречаются в логах, хотя значительно реже, и относятся они, похоже, совсем к другим файлам: [8183] Thu Feb 6 05:20:46 2014 :: fts103.cern.ch:44238: [CLIENT]: STOR /se2.grid.lebedev.ru: /st/atlas/2014-02-06/step09.20201406015404.physics_C.recon.AOD.closed._lb0003._0001_1391407935.7200080.0 [8183] Thu Feb 6 05:20:46 2014 :: fts103.cern.ch:44238: [SERVER]: 127 Entering Passive Mode (193,232,69,148,95,64) [8183] Thu Feb 6 05:20:47 2014 :: Starting to transfer "/se2.grid.lebedev.ru: /st/atlas/2014-02-06/step09.20201406015404.physics_C.recon.AOD.closed._lb0003._0001_1391407935.7200080.0". [8183] Thu Feb 6 05:20:47 2014 :: fts103.cern.ch:44238: [SERVER]: 150 Beginning transfer. [8183] Thu Feb 6 05:20:47 2014 :: fts103.cern.ch:44238: [SERVER]: 112-Perf Marker Timestamp: 1391649647.4 Stripe Index: 0 Stripe Bytes Transferred: 0 Total Stripe Count: 1 112 End. [8183] Thu Feb 6 05:20:48 2014 :: fts103.cern.ch:44238: [SERVER]: 112-Perf Marker Timestamp: 1391649648.2 Stripe Index: 0 Stripe Bytes Transferred: 5500000 Total Stripe Count: 1 112 End. Тут я не понимаю - так было что-то передано или нет? Замечу, кстати, любопытную вещь: эффективность передачи данных на ATLASDATADISK подвержена явно выраженным с недельным циклом колебаниям, с максимумом эффективности (близкой к 100%) почему-то по четвергам и пятницам. Это видно и из графика в моем предыдущем письме, и из более свежих. Наводит на мысль, что, может быть, просто проблемы с пропускной способностью сети - тем более, что в логах ошибок упоминается timeout. Всего наилучшего, Владимир. 3 февраля 2014 г., 9:36 пользователь Eygene Ryabinkin <rea at grid.kiae.ru>написал: > Владимир, добрый день. > > Sun, Feb 02, 2014 at 10:38:02PM +0400, Vladimir Tikhomirov wrote: > > Сайт ФИАН работает почти исключительно на ATLAS, предоставляя свои > > ресурсы для MC production. И в целом все идет без проблем, PANDA задания > > успешно выполняются. Но вот сегодня некий товарищ прислал тикет: > > https://ggus.eu/ws/ticket_info.php?ticket=100903 > > и я с изумлением обнаружил, что значительная часть заданий по пересылке > > файлов на наш сайт завершаются с ошибкой (см. вложение). > > Нужно сказать, что выполнение задач, которые засылаются Panda и передачи > файлов, которые являются центральными и управляются FTS -- это совершенно > разные вещи, поэтому смотреть нужно и на то, и на другое. Вычислительные > задачи могут отлично проходить, а передачи данных вполне могут испытывать > проблемы. Но это так, чисто поделиться опытом разглядывания хозяйства > ATLAS. > > > У вас при передачах через DDM основная ошибка -- это то, что FTS не видит > performance marker-ов. Эти самые PM специфичны для протокола GridFTP и > периодически отсылаются принимающей файл стороной по каналу команд (то есть > к FTS-агенту), а он их использует, чтобы понять, жива ли ещё передача или > уже совсем померла (поскольку он как third-party самих данных не видит). > > Соответственно, вам нужно посмотреть в /var/log/dpm-gsiftp/gridftp.log > на соответствующих pool-ах, куда передавались файлы, и поискать фразы > 'Perf Marker' и 'Range Marker'. > > Судя по логам FTS, например, > > https://fts105.cern.ch:8449///var/log/fts3//2014-02-02/epgse1.ph.bham.ac.uk__se2.grid.lebedev.ru/2014-02-02-0450__epgse1.ph.bham.ac.uk__se2.grid.lebedev.ru__8757548__ad1bfd26-a613-4d93-882b-b0c7fc3f4702 > он таки действительно не получает этих маркеров, поскольку видит всё > время 'bytes: 0'. Поэтому если у вас в логах отсылки маркеров не видно, > то надо локально разбираться, почему. Если видно, то надо попросить > ребят, которые пасут FTS, посмотреть, в чём могло бы быть дело. > > Смотреть на передачи и логи FTS можно на странице > https://fts3-pilot.cern.ch:8449/fts3/ftsmon/#/?vo=atlas > сверху справа есть окошко, куда можно ввести FTS Job ID, который можно > найти на странице с ошибками, которую вам в показали в билетике, щелкнув > на белый крестик в зеленом кружочке. Там FTS Job ID зовется "TRANSFER ID". > > Если надо поговорить с разработчиками FTS, которые поддерживают > fts3-pilot.cern.ch, то это Michail Salichos, > https://phonebook.cern.ch/phonebook/#id=PE709008 > и, в-принципе, он достаточно хорошо отвечает на вопросы. Операционно > FTS3 pilot в CERN сейчас поддерживает Steve Traylen, но он обычно > сильно занят, поэтому быстрой реакции от него фиг дождешься. Почти как > от меня ;)) > -- > Eygene Ryabinkin, National Research Centre "Kurchatov Institute" > > Always code as if the guy who ends up maintaining your code will be > a violent psychopath who knows where you live. > -------------- next part -------------- An HTML attachment was scrubbed... URL: <http://theory.sinp.msu.ru/pipermail/ru-ngi/attachments/20140206/959ec98b/attachment-0001.html>