Как установить STONITH в активном/пассивном Linux с 2 узлами кластер кардиостимулятора HA?

Question

Как установить STONITH в активном/пассивном Linux с 2 узлами кластер кардиостимулятора HA?

Наконец, можно поместить шаблоны в файл и использовать флаг-f. Так grep -f patternlist.txt files. Где patternlist.txt просто:

aaa
bbb

Удостоверьтесь, что нет никаких пустых строк, все же.

- Christopher Karel

12

high-availability cluster drbd pacemaker

задан MMore 19 March 2012 в 16:24

Ссылка

4 ответа


         
            
         
            
               
                  
                      Проверьте это для кластера HA с помощью Pacemaker:  http://clusterlabs.org/doc/en-US/Pacemaker/1.1/html/Clusters_from_Scratch/index.html 
                  
                  0

                  
                  
                     ответ дан 
                     2 December 2019 в 21:32 
                  
                  Ссылка
               
                              
                  
                     
      
                                         
                  
               
            
         
         
            
         
            
               
                  
                      Вы можете попробовать добавить  auto_tie_breaker: 1  в раздел кворума /etc/corosync/corosync.conf 


  Когда ATB включен, кластер может пострадать до  50% узлов
  отказ одновременно, детерминированным образом.  Кластер
  раздел или набор узлов, которые все еще контактируют с узлом
  который имеет самый низкий nodeid, останется кворум.  Остальные узлы будут
  inquorate. 
                  
                  2

                  
                  
                     ответ дан 
                     2 December 2019 в 21:32 
                  
                  Ссылка
               
                              
                  
                     
      
                                         
                  
               
            
         
         
              



      
        Теги
        
         high-availability cluster drbd pacemaker       

        Похожие вопросы
        
          
                          78 
 Несколько дата-центров и Трафика HTTP: Циклический алгоритм DNS является ЕДИНСТВЕННЫМ способом гарантировать мгновенную обработку отказа? - 18 May 2014 17:56 
                            49 
 Подайте заявку Докера записать в stdout - 28 May 2014 17:56 
                            38 
 Windows 2008 игнорирует Бесплатные запросы ARP - 10 May 2011 20:23 
                            26 
 Альтернативы Heartbeat, кардиостимулятору и CoroSync? - 12 June 2012 10:36 
                            26 
 Альтернативы Heartbeat, кардиостимулятору и CoroSync? - 12 June 2012 10:36 
                            21 
 Двунаправленная синхронизация в реальном времени большого дерева файла между двумя удаленными серверами Linux - 7 September 2019 02:05 
                            17 
 Предотвращение тайм-аутов DNS, когда сервер DNS перестал работать - 4 January 2011 23:00 
                            17 
 Каково различие между Передачей любому из узлов и GeoDNS / GeoIP wrt HA? - 26 October 2011 22:50 
                            16 
 Когда правильное время должно представить высокую доступность для веб-сайта? - 21 November 2015 06:44 
                            16 
 Когда правильное время должно представить высокую доступность для веб-сайта? - 21 November 2015 06:44 
                            16 
 Кластерные файловые системы действительно ли ZFS возможны? - 17 February 2013 16:27 
                            15 
 Управление приложением через несколько серверов или PXE по сравнению с cfEngine/Chef/Puppet - 16 March 2010 22:25 
                            15 
 Многоузловая высокая доступность - 7 February 2012 05:01 
                            15 
 Когда мой, веб-сервер отключается, как я автоматически перенаправляю всех пользователей к своему веб-серверу B в другом городе, и наоборот? - 13 April 2017 05:33 
                            14 
 Циклический алгоритм DNS: браузеры придерживаются одного IP, пока он онлайн? - 14 January 2012 22:28

score 0 · Answer 1 · 2 December 2019 в 21:32

Попробуйте прочитать главу Кворум и двухузловые кластеры документации Pacemaker.

0

ответ дан 2 December 2019 в 21:32

Ссылка

score 21 · Answer 2 · 2 December 2019 в 21:32

Это немного более старый вопрос, но представленная здесь проблема основана на неправильном представлении о том, как и когда работает аварийное переключение в кластерах, особенно в двухузловых кластерах.

Суть такова: Вы можете не проводите тестирование переключения при отказе путем отключения связи между двумя узлами. В результате вы получите именно то, что вы видите, - сценарий расщепления мозга с дополнительным общим STONITH. Если вы хотите протестировать возможности ограждения, подойдет простая команда killall -9 corosync на активном узле. Другими способами являются crm node ограждение или stonith_admin -F .

Из не совсем полного описания вашего кластера (где вывод crm configure show и cat /etc/corosync/corosync.conf?) Кажется, что вы используете адреса 10.10.10.xx для обмена сообщениями, то есть для связи Corosync / кластера. Адреса 172.10.10.xx - это ваши обычные / служебные сетевые адреса, и вы можете получить доступ к данному узлу, например, используя SSH, по его адресу 172.10.10.xx. DNS также, кажется, разрешает имя узла узла, например node1 в 172.10.10.1.

У вас есть STONITH, настроенный на использование SSH, что само по себе не очень хорошая идея, но вы, вероятно, просто тестируете. Я сам не использовал его, но предполагаю, что агент SSH STONITH входит в другой узел и выдает команду выключения, например ssh conf ?) Кажется, вы используете адреса 10.10.10.xx для обмена сообщениями, то есть для связи Corosync / кластера. Адреса 172.10.10.xx - это ваши обычные / служебные сетевые адреса, и вы можете получить доступ к данному узлу, например, используя SSH, по его адресу 172.10.10.xx. DNS также, кажется, разрешает имя узла узла, например node1 в 172.10.10.1.

У вас есть STONITH, настроенный на использование SSH, что само по себе не очень хорошая идея, но вы, вероятно, просто тестируете. Я сам не использовал его, но предполагаю, что агент SSH STONITH входит в другой узел и выдает команду выключения, например ssh DNS также, кажется, разрешает имя узла узла, например node1 в 172.10.10.1.



 У вас есть STONITH, настроенный на использование SSH, что само по себе не очень хорошая идея, но вы, вероятно, просто тестируете. Я сам не использовал его, но предполагаю, что агент SSH STONITH входит в другой узел и выдает команду выключения, например  ssh DNS также, кажется, разрешает имя узла узла, например  node1  в 172.10.10.1. 


 У вас есть STONITH, настроенный на использование SSH, что само по себе не очень хорошая идея, но вы, вероятно, просто тестируете. Я сам не использовал его, но предполагаю, что агент SSH STONITH входит в другой узел и выдает команду выключения, например  sshкорень @ node2«shutdown -h now»  или что-то подобное. 

 Что происходит, когда вы прерываете связь кластера между узлами? Узлы больше не видят каждый узел живым и здоровым, потому что между ними больше нет связи. Таким образом, каждый узел предполагает, что он единственный оставшийся в живых после какого-то неудачного события, и пытается стать (или остаться) активным или основным узлом. Это классический и устрашающий  сценарий с разделенным мозгом . 

 Частично это делается для того, чтобы  удостовериться  в том, что другой, очевидно и предположительно отказавший узел не работает навсегда, и именно здесь STONITH Имейте в виду, что  оба  узла теперь играют в одну и ту же игру: пытаются стать (или оставаться) активными и захватить все ресурсы кластера, а также стреляют в голову другому узлу. 

 Вы, наверное, догадались, что происходит сейчас.root @ node2 "shutdown -h now"  и  node2  делает  ssh root @ node1"выключение -h сейчас" . При этом используется не сеть связи кластера 10.10.10.xx, а служебная сеть 172.10.10.xx. Поскольку оба узла фактически живы и здоровы, у них нет проблем с выдачей команд или получением SSH-соединений, поэтому оба узла стреляют друг в друга одновременно. Это убивает оба узла. 

 Если вы не используете STONITH, то разделение мозга может иметь еще худшие последствия, особенно в случае DRBD, когда оба узла могут стать первичными. Вероятно, что произойдет повреждение данных, и разделение мозга придется решать вручную. 

 Я рекомендую прочитать материал на  http://www.hastexo.com/resources/hints-and-kinks , который является написан и поддерживается ребятами, которые внесли (и до сих пор вносят свой вклад) большую часть того, что мы сегодня называем «стеком высокой доступности Linux». 

 TL; DR : Если вы прерываете кластерную связь между узлами, чтобы проверить настройку ограждения,  вы делаете это неправильно . Используйте взамен  killall -9 corosync ,  crm node ограждение  или  stonith_admin -F . Прерывание связи кластера приведет только к сценарию разделения мозга, который может и приведет к повреждению данных.

score 0 · Answer 3 · 2 December 2019 в 21:32

Проверьте это для кластера HA с помощью Pacemaker: http://clusterlabs.org/doc/en-US/Pacemaker/1.1/html/Clusters_from_Scratch/index.html

score 2 · Answer 4 · 2 December 2019 в 21:32

Вы можете попробовать добавить auto_tie_breaker: 1 в раздел кворума /etc/corosync/corosync.conf

Когда ATB включен, кластер может пострадать до 50% узлов отказ одновременно, детерминированным образом. Кластер раздел или набор узлов, которые все еще контактируют с узлом который имеет самый низкий nodeid, останется кворум. Остальные узлы будут inquorate.