После дополнительного исследования я обнаружил, что на первичном узле был процесс зомбирования квм:
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
17520 root 20 0 0 0 0 Z 613 0.0 13922:24 kvm <defunct>
я не знал, как от него правильно избавиться.
Я попытался переместить все первичные экземпляры (у меня их было всего 2) из этого узла, но это не удалось (ошибка, связанная с bdrm). Я перезагрузил узел. При выключении машины она застряла из-за drbd. Сообщение было что-то вроде:
No response from the DRBD driver! Is the module loaded?
Поэтому я нажал на кнопку, чтобы выключить машину. Машина перезагрузилась (без ошибок) и через несколько минут экземпляры Ganeti автоматически запустились.
На главном узле я запустил:
$ gnt-instance info myinstance
...
on primary: /dev/drbd4 (147:4) *RECOVERING* 12.80%, ETA 288s, status *DEGRADED*
on secondary: /dev/drbd4 (147:4) *RECOVERING* 12.80%, ETA 275s, status *DEGRADED* *UNCERTAIN STATE*
....
После нескольких минут ожидания восстановление было завершено и теперь все синхронизировано.
Вывод: теперь все в порядке, но я бы хотел, чтобы мне не пришлось перезагружать узел.
Спасибо gf_ за помощь.