Загрузить большие онлайн-файлы в облако Google

Я хотел бы загрузить большие файлы изображений в облако Google для целей машинного обучения на RStudio.

Размер каждого ZIP-файла составляет около 4,7 ГБ, и его разархивирование занимает больше времени, чем загрузка. или https://www.kaggle.com/c/avito-duplicate-ads-detection/data и быстро извлечь их на VM RStudio для анализа данных?

1
задан 11 April 2018 в 15:17
1 ответ

Вы установили RStudio на виртуальную машину Linux? Если это так, вы можете подключиться к своему экземпляру по ssh с помощью команды sudo gcloud compute ssh --zone , а затем использовать wget изнутри вашего экземпляр для загрузки файла:

wget https://www.kaggle.com/c/5174/download/Images_1.zip

wget может отключиться во время загрузки, но вы можете использовать параметры, описанные выше в ссылке , которые помогут вам выполнить загрузку успешно, например параметры -t и -c для попытки загрузите несколько раз или продолжите получение частично загруженного файла соответственно.

После загрузки файла вы можете использовать 7ZIP , чтобы распаковать файл в каталог, куда он был загружен, с помощью команды: 7z e Images_1.zip
Вы можете скопировать файл в корзину GCP с помощью команды:
gsutil cp Images_1 gs: //

If wget и 7zip не установлены на виртуальной машине, вы можете установить их в соответствии с инструкциями wget и 7zip , как показано ниже. Эти примеры предназначены для виртуальных машин Ubuntu или Debian Linux:

sudo apt-get update
sudo apt-get install wget
sudo apt-get install p7zip-full

Просто следуйте инструкциям по установке.

3
ответ дан 3 December 2019 в 18:28

Теги

Похожие вопросы