Я только что начал использовать GCS в качестве резервного копирования для моих веб-серверов. Один сервер имеет 1,2 миллиона JPEGS (3.5 ТБ) и этот весь rsynced безупречно более чем 10 часов или около этого.
Другой имеет 2,5 миллиона JPEGS (просто миниатюры/предварительные просмотры хотя - общее количество на 300 ГБ). В первый раз, когда я сделал это, "синхронизация здания указывает", прошел все 2,5 миллиона вполне быстро. Несколько минут. Моя сессия была прервана хотя (Wi-Fi отбросил), и когда я SSHed в попытаться выполнить его снова "В источнике, перечисляющем" подсказку быстро, кусаюсь до 10 000, 20000, 30000. Затем стачивается к близкому останову. Полчаса спустя это - только до 300 000. Я знаю, что это должно разработать, какие файлы место назначения имеет также, но я не чувствую, что это должно значительно замедлиться "В источнике, перечисляющем..." эхо?
Это предлагает проблему с моей файловой системой, и раз так что я должен проверить?
Или это - ожидаемое поведение по какой-либо причине?
Попытка состоит в том, чтобы использовать gsutil rsync с 2 миллионами файлов к одному блоку плохая идея? Я не мог найти инструкции от Google на том, сколько файлов может находиться в блоке, таким образом, я предполагаю, что это - миллиарды / неограниченный?
FWIW файлы являются всеми во вложенных подкаталогах больше чем без 2 000 файлов в любом каталоге.
Спасибо
править: точная команда, которую я использую:
gsutil -m rsync -r /var/www/ gs://mybucketname/var/www
Я обнаружил, что изменение
output_chunk.writelines(unicode(''.join(current_chunk)))
на
output_chunk.write(unicode(''.join(current_chunk)))
в /gsutil/gslib/commands/rsync.py имеет большое значение. Спасибо Майку из команды GS за помощь - это простое изменение уже выложено на github:
https://github.com/GoogleCloudPlatform/gsutil/commit/a6dcc7aa7706bf9deea3b1d243ecf048a06a64f2