Как может отдельный диск в аппаратном SATA RAID-10 массиве приносить целый массив к визжащему останову?

Один способ сделать это должно составить новую таблицу с индексным набором и скопировать данные в новую таблицу.

Кроме того, удостоверьтесь, что у Вас есть достаточно временного пространства.

103
задан 13 April 2017 в 15:14
8 ответов

Мне неприятно говорить «не используйте SATA» в критических производственных средах, но я видел эту ситуацию довольно часто. Накопители SATA обычно не предназначены для описываемого вами рабочего цикла, хотя в вашей настройке вы указали диски , рассчитанные на работу в режиме 24x7 . По моему опыту, диски SATA могут выходить из строя непредсказуемым образом, часто затрагивая весь массив хранения, даже при использовании RAID 1 + 0, как вы это сделали. Иногда диски выходят из строя, что может привести к остановке всей шины. Следует отметить, используете ли вы в своей установке расширители SAS. Это может повлиять на то, как сбой диска повлияет на оставшиеся диски.

Но, возможно, имело больше смысла использовать диски SAS midline / nearline (7200 об / мин) вместо SATA. Там' это небольшая надбавка к цене по сравнению с SATA, но диски будут работать / отказываться более предсказуемо. Исправление ошибок и создание отчетов в интерфейсе / протоколе SAS более надежны, чем в наборе SATA. Таким образом, даже с дисками , механика которых одинакова , разница в протоколе SAS могла предотвратить боль, которую вы испытали во время сбоя диска.

48
ответ дан 28 November 2019 в 19:21

How can a single disk bring down the array? The answer is that it shouldn't, but it kind of depends on what is causing the outage. If the disk were to die in a way that behaved, it shouldn't take it down. But it's possible that it's failing in an "edge case" way that the controller can't handle.

Are you naive to think this shouldn't happen? No, I don't think so. A hardware RAID card like that should have handled most issues.

How to prevent it? You can't anticipate weird edge cases like this. This is part of being a sysadmin...but you can work on recovery procedures to keep it from impacting your business. The only way to try to fix this right now is to either try another hardware card (not probably what you'd want to do) or change your drives to SAS drives instead of SATA to see if SAS is more robust. You can also contact your vendor of the RAID card and tell them what has happened and see what they say; they are, after all, a company that is supposed to specialize in knowing the ins and outs of wonky drive electronics. They may have more technical advice on how the drives work as well as reliability...if you can get to the right people to talk to.

Have you missed something? If you want to verify that the drive is having an edge-case failure, pull it from the array. The array will be degraded but you shouldn't have more of the weird slowdowns and errors (aside from the degraded array status). You're saying that right now it seems to be working fine, but if it's having disk read errors, you should replace the drive while you can. Drives with high capacity can sometimes have URE errors (best reason not to run RAID 5, side note) that don't show up until another drive has failed. And if you're experiencing edge-case behavior from that one drive, you don't want corrupted data migrated to the other drives in the array.

17
ответ дан 28 November 2019 в 19:21

I ' Я не эксперт, но я сделаю дикий снимок в темноте, основываясь на моем опыте работы с RAID-контроллерами и массивами хранения.

Диски выходят из строя по-разному. К сожалению, диски могут выйти из строя или выйти из строя, что серьезно скажется на их производительности, но контроллер RAID не считает это отказом.

Если диск выходит из строя очевидным образом, любое программное обеспечение RAID-контроллера должно уметь обнаруживать отсутствие ответа от диска, удалять его из пула и запускать любые уведомления. Однако я предполагаю, что здесь происходит необычный сбой диска, который по какой-то причине не вызывает сбой на стороне контроллера. Поэтому, когда контроллер выполняет сброс записи или чтение с затронутого диска, требуется много времени, чтобы вернуться назад и, в свою очередь, зависает вся операция ввода-вывода и, следовательно, массив. По какой-то причине этого недостаточно, чтобы RAID-контроллер перешел в режим «ах, отказавший диск», вероятно, потому, что в конечном итоге данные возвращаются обратно.

Я бы посоветовал немедленно заменить отказавший диск. После этого я бы посмотрел на конфигурацию вашей карты RAID (это 3ware,

10
ответ дан 28 November 2019 в 19:21

Просто предположение: жесткие диски настроены на повторную попытку чтения при ошибках, а не на сообщение об ошибке. Хотя это желательное поведение в настройках рабочего стола, оно контрпродуктивно в RAID (где контроллер должен перезаписывать любой сектор, который не может считывать данные с других дисков, чтобы диск мог переназначить его).

6
ответ дан 28 November 2019 в 19:21

мой снимок в темноте:

  • диск 7 выходит из строя. у него есть окна сбоев, где он недоступен.

  • диск 8 также имеет несколько «более легких» ошибок; исправлено повторной попыткой.

  • RAID10 обычно представляет собой «RAID0 из нескольких пар RAID1», являются ли диски 7 и 8 членами одной пары?

если так, то, похоже, вы попали в случай «не должно происходить» отказ двух дисков в одной паре. почти единственное, что может убить RAID10. К сожалению, это может произойти, если все ваши диски из одной партии поставки, поэтому вероятность их одновременного выхода из строя несколько выше.

Я предполагаю, что во время сбоя диска 7 контроллер перенаправил все операции чтения на диск 8, поэтому любой error-retry вызвала большие задержки, которые вызвали лавину зависших задач, снижающих производительность на некоторое время.

you ' Мне повезло, что диск 8, похоже, еще не умер, поэтому вы сможете исправить это без потери данных.

Я бы начал с замены обоих дисков и не забыл проверить кабели. Причиной этого может быть слабое соединение, и, если оно не маршрутизируется надежно, это с большей вероятностью произойдет на соседних дисках. Кроме того, некоторые многопортовые карты имеют несколько двухпортовых разъемов, если привод 7 и диск 8 подключены к одному и тому же разъему, это может быть источником ваших проблем.

6
ответ дан 28 November 2019 в 19:21

Карты-переходники SATA - другое решение.

Недавно я испытал точно такую ​​же судьбу и нашел эту ветку. Общий тезис состоит в том, что протокол SAS лучше подходит для RAID, чем SATA, поскольку у SATA отсутствуют функции. Вот почему те же физические диски оснащены контроллерами SAS, которые затем продаются как Nearline SAS.

При дальнейшем поиске я обнаружил:

http://www.lsi.com/products/storagecomponents/Pages/LSISS9252.aspx

Я собираюсь обновить одно из своих хранилищ партией таких. Прямо сейчас разница в цене между 3 ТБ SATA и SAS составляет 400% (обычная цена, тот же бренд, спецификации и магазин, Германия). Я, конечно, не могу сказать, работает ли эта стратегия хорошо, но попробовать стоит.

Комментарии очень приветствуются: -)

3
ответ дан 28 November 2019 в 19:21

Вам нужны функции устройств хранения корпоративного класса. В частности, корпоративные диски WD RE 4 имеют две функции, необходимые для предотвращения такого поведения в массивах RAID. Первая из перечисленных ниже технологий предотвращает вращательную гармоническую вибрацию, вызывающую ненужный износ механических компонентов жесткого диска. Вторая технология - это то, что вызвало вашу проблему, протокол SATA не имеет этой функции. Чтобы получить эти функции, вам понадобится SAS, а если вы настаиваете на жестких дисках SATA, вы можете приобрести карты SAS to SATA Interposer, такие как LSISS9252.

Усовершенствованная технология RAFF Сложная электроника контролирует диск и корректирует как линейную, так и вращательную вибрацию в реальном времени. Результатом является значительное улучшение производительности в средах с высокой вибрацией по сравнению с дисками предыдущего поколения.

Ограниченное по времени восстановление после ошибок (TLER) для RAID-массива Предотвращает выпадение диска из-за расширенных процессов восстановления после ошибок жесткого диска, характерных для настольных дисков. .

http://en.wikipedia.org/wiki/Error_recovery_control#Overview

См. Также ссылку ниже:

http://en.wikipedia.org/wiki/Error_recovery_control#Raid_Controllers

Также см. документ Western Digital TLER, в котором подробно объясняется процесс восстановления после ошибок. а если вы настаиваете на дисках SATA, вы можете приобрести карты SAS to SATA Interposer, такие как LSISS9252.

Усовершенствованная технология RAFF Сложная электроника контролирует диск и корректирует как линейную, так и вращательную вибрацию в режиме реального времени. Результатом является значительное улучшение производительности в средах с высокой вибрацией по сравнению с дисками предыдущего поколения.

Ограниченное по времени восстановление после ошибок (TLER) для RAID-массива Предотвращает выпадение диска из-за расширенных процессов восстановления после ошибок жесткого диска, характерных для настольных дисков. .

http://en.wikipedia.org/wiki/Error_recovery_control#Overview

См. Также ссылку ниже:

http://en.wikipedia.org/wiki/Error_recovery_control#Raid_Controllers

Также см. Документ Western Digital TLER, в котором подробно объясняется процесс восстановления после ошибок. а если вы настаиваете на дисках SATA, вы можете приобрести карты SAS to SATA Interposer, такие как LSISS9252.

Усовершенствованная технология RAFF Сложная электроника контролирует диск и корректирует как линейную, так и вращательную вибрацию в режиме реального времени. Результатом является значительное улучшение производительности в средах с высокой вибрацией по сравнению с дисками предыдущего поколения.

Ограниченное по времени восстановление после ошибок (TLER) для RAID-массива Предотвращает выпадение диска из-за расширенных процессов восстановления после ошибок жесткого диска, характерных для настольных дисков. .

http://en.wikipedia.org/wiki/Error_recovery_control#Overview

См. Также ссылку ниже:

http://en.wikipedia.org/wiki/Error_recovery_control#Raid_Controllers

Также см. документ Western Digital TLER, в котором подробно объясняется процесс восстановления после ошибок. Восстановление после ошибок Предотвращение падения на жестких дисках WD Caviar RAID Edition Serial ATA:

http://www.3dfxzone.it/public/files/2579-001098.pdf

7
ответ дан 28 November 2019 в 19:21

Я видел SATA-диск со сломанной электроникой, который надежно блокировал инициализацию прошивки Areca 12, не было возможности получить доступ к BIOS, не говоря уже о загрузке машины с любого носителя до тех пор, пока не возникнет проблема с жестким диском. диск был найден путем извлечения дисков методом двоичного поиска.

2
ответ дан 28 November 2019 в 19:21

Теги

Похожие вопросы