У меня есть небольшое количество старых рабочих столов человечности, соединенных переключателем, действующим как мини-тестовый кластер. Рабочие берут команды от главного узла с помощью диспетчера очереди SLURM. Они совместно используют данные, монтируются и монтирование, содержащее исполняемые файлы для действия на данные через NFS на отдельном поле файлового сервера. Все машины составляют приблизительно 5 старых лет. Задания от ведущего устройства разделяются на задачи, и задачи затем питаются в SLURM главным узлом. Разделение генерирует рабочие каталоги, в которых депонированы символьные ссылки соответствующих файлов данных:
../job_workdir/task_1/datafile.dat -> ../datadir/dataset/task_1/datafile.dat
Когда задача выполняется, платформа разделения сделала свое задание, но иногда расширение (.dat или подобный) символьной ссылки не принято исполняемым файлом, как это требует, например, .txt файлы. Поэтому прогоны задания обертка, что символьные ссылки символьная ссылка на имя, которое принято, после которого обертка в значительной степени сразу называет исполняемый файл.
../job_workdir/task_1/datafile.dat -> ../datadir/dataset1234/task_1/datafile.dat
../job_workdir/task_1/datafile.txt -> ../job_workdir/task_1/datafile.dat
Иногда, исполняемый файл необъяснимо выходит с 'файлом, не существует' для символьной ссылки на обработку. Я не могу воспроизвести это для определенных задач, это обычно работает, но не всегда.
Таким образом, мой вопрос, там некоторая проблема с синхронизацией создания символьной ссылки на NFS? Сервер NFS является старой i3 машиной с двумя HDs, действующими как логический том, и переключатель 3com гигабит 8 переключателей ('для малых офисов').
Ответов нет, так что я опишу, что я сделал. Не уверен, была ли в этом основная проблема, но я обнаружил, что между разными компьютерами была разница в часах. Рабочие узлы и файловый сервер не подключены к интернету, поэтому я установил ntp сервер на главный узел, а клиенты на рабочие и файловый сервер. Затем клиенты синхронизировались с главным узлом. С тех пор не видел проблем.