Я хотел бы загрузить большие файлы изображений в облако Google для целей машинного обучения на RStudio.
Размер каждого ZIP-файла составляет около 4,7 ГБ, и его разархивирование занимает больше времени, чем загрузка.
или https://www.kaggle.com/c/avito-duplicate-ads-detection/data
и быстро извлечь их на VM RStudio для анализа данных?
Вы установили RStudio на виртуальную машину Linux? Если это так, вы можете подключиться к своему экземпляру по ssh с помощью команды sudo gcloud compute ssh
, а затем использовать wget изнутри вашего экземпляр для загрузки файла:
wget https://www.kaggle.com/c/5174/download/Images_1.zip
wget может отключиться во время загрузки, но вы можете использовать параметры, описанные выше в ссылке , которые помогут вам выполнить загрузку успешно, например параметры -t и -c для попытки загрузите несколько раз или продолжите получение частично загруженного файла соответственно.
После загрузки файла вы можете использовать 7ZIP , чтобы распаковать файл в каталог, куда он был загружен, с помощью команды: 7z e Images_1.zip
Вы можете скопировать файл в корзину GCP с помощью команды:
gsutil cp Images_1 gs: //
If wget и 7zip не установлены на виртуальной машине, вы можете установить их в соответствии с инструкциями wget и 7zip , как показано ниже. Эти примеры предназначены для виртуальных машин Ubuntu или Debian Linux:
sudo apt-get update
sudo apt-get install wget
sudo apt-get install p7zip-full
Просто следуйте инструкциям по установке.