Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://theory.sinp.msu.ru/pipermail/ru-ngi/2014q1/001227.html
Дата изменения: Thu Feb 6 16:04:12 2014 Дата индексирования: Fri Feb 28 03:41:37 2014 Кодировка: |
Владимир, добрый день. Sun, Feb 02, 2014 at 10:38:02PM +0400, Vladimir Tikhomirov wrote: > Сайт ФИАН работает почти исключительно на ATLAS, предоставляя свои > ресурсы для MC production. И в целом все идет без проблем, PANDA задания > успешно выполняются. Но вот сегодня некий товарищ прислал тикет: > https://ggus.eu/ws/ticket_info.php?ticket=100903 > и я с изумлением обнаружил, что значительная часть заданий по пересылке > файлов на наш сайт завершаются с ошибкой (см. вложение). Нужно сказать, что выполнение задач, которые засылаются Panda и передачи файлов, которые являются центральными и управляются FTS -- это совершенно разные вещи, поэтому смотреть нужно и на то, и на другое. Вычислительные задачи могут отлично проходить, а передачи данных вполне могут испытывать проблемы. Но это так, чисто поделиться опытом разглядывания хозяйства ATLAS. У вас при передачах через DDM основная ошибка -- это то, что FTS не видит performance marker-ов. Эти самые PM специфичны для протокола GridFTP и периодически отсылаются принимающей файл стороной по каналу команд (то есть к FTS-агенту), а он их использует, чтобы понять, жива ли ещё передача или уже совсем померла (поскольку он как third-party самих данных не видит). Соответственно, вам нужно посмотреть в /var/log/dpm-gsiftp/gridftp.log на соответствующих pool-ах, куда передавались файлы, и поискать фразы 'Perf Marker' и 'Range Marker'. Судя по логам FTS, например, https://fts105.cern.ch:8449///var/log/fts3//2014-02-02/epgse1.ph.bham.ac.uk__se2.grid.lebedev.ru/2014-02-02-0450__epgse1.ph.bham.ac.uk__se2.grid.lebedev.ru__8757548__ad1bfd26-a613-4d93-882b-b0c7fc3f4702 он таки действительно не получает этих маркеров, поскольку видит всё время 'bytes: 0'. Поэтому если у вас в логах отсылки маркеров не видно, то надо локально разбираться, почему. Если видно, то надо попросить ребят, которые пасут FTS, посмотреть, в чём могло бы быть дело. Смотреть на передачи и логи FTS можно на странице https://fts3-pilot.cern.ch:8449/fts3/ftsmon/#/?vo=atlas сверху справа есть окошко, куда можно ввести FTS Job ID, который можно найти на странице с ошибками, которую вам в показали в билетике, щелкнув на белый крестик в зеленом кружочке. Там FTS Job ID зовется "TRANSFER ID". Если надо поговорить с разработчиками FTS, которые поддерживают fts3-pilot.cern.ch, то это Michail Salichos, https://phonebook.cern.ch/phonebook/#id=PE709008 и, в-принципе, он достаточно хорошо отвечает на вопросы. Операционно FTS3 pilot в CERN сейчас поддерживает Steve Traylen, но он обычно сильно занят, поэтому быстрой реакции от него фиг дождешься. Почти как от меня ;)) -- Eygene Ryabinkin, National Research Centre "Kurchatov Institute" Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live.