Я только что переместил свой кластер с AWS EC2 на Google Compute, и, глядя на журналы, кажется, что существуют постоянные проблемы с сетью.
Это происходит с двумя конкретными узлами, несколько раз в день.
Он начинается с ошибки:
master left (reason = failed to ping, tried [3] times, each with maximum [30s] timeout), current nodes: nodes:
При проверке журналов не похоже, что они перезагружаются (работают с докером), просто отключаются и снова подключаются.
Вкладка сети в Подробная информация об экземпляре виртуальной машины
не очень полезна.
На случай, если кто-то столкнется с этим, мы в конце концов решили эту проблему.
(1) По-видимому, в Google Compute соединения отключаются через 10 минут, что довольно мало (по умолчанию для ubuntu остается 2 часа живыми пингами). Источник для этого здесь . Они даже рекомендуют в этой ссылке, какие значения фактически использовать, которые ниже, чем наша первоначальная попытка.
(2) Другая проблема, с которой мы столкнулись, заключается в том, что докеру требуется собственное определение sysctl, поэтому изменение конфигурации ubuntu на самом деле не помогло ничего.
У нас не было ни одного отключения за 5 дней.