Нечастая ошибка ввода/вывода - сервер Linux

Время от времени мы встречаемся с ошибками ввода/вывода на одном из наших дисков.

Наш сервер (Dell PowerEdge R720, Ubuntu 14.04) использует RAID-контроллер Perc H710, и диском, который производит ошибку, является SAS Dell 600GB 6 Гбит/с 15k 3,5-дюймовый диск.

Мы можем всегда фиксировать ошибки, с помощью fsck.ext4, но мы понятия не имеем, что могло бы заставить их происходить.

Мы обновили встроенное микропрограммное обеспечение сервера к последней версии и запустили все тесты, о которых мы могли думать.

Что еще мы могли сделать для нахождения источника проблемы?

Править:

Мы связались с DELL приблизительно неделю назад, и после того, как они сообщили мне, как запустить несколько тестов, они пришли к заключению, что сервер прекрасен, и что ничто необычное не обнаружилось в тестах.

Я не мог включить УМНУЮ поддержку устройства:

$ sudo smartctl -a /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Vendor:               DELL
Product:              PERC H710
Revision:             3.13
User Capacity:        1,199,101,181,952 bytes [1.19 TB]
Logical block size:   512 bytes
Logical Unit id:      0x6b8ca3a0f210dc0019eead8c1111fb0a
Serial number:        000afb11118cadee1900dc10f2a0a38c
Device type:          disk
Local Time is:        Wed Jul  8 10:47:35 2015 IDT
SMART support is:     Unavailable - device lacks SMART capability.

=== START OF READ SMART DATA SECTION ===

Error Counter logging not supported

Device does not support Self Test logging

и я попробовал:

$ sudo smartctl -s on /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-55-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
unable to fetch IEC (SMART) mode page [unsupported field in scsi command]
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Кроме того, я не уверен, что сделать из этого (поиск с помощью Google не помог):

$ sudo hdparm -I /dev/sda

/dev/sda:
SG_IO: bad/missing sense data, sb[]:  70 00 05 00 00 00 00 0d 00 00 00 00 20 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00

ATA device, with non-removable media
Standards:
    Likely used: 1
Configuration:
    Logical     max current
    cylinders   0   0
    heads       0   0
    sectors/track   0   0
    --
    Logical/Physical Sector size:           512 bytes
    device size with M = 1024*1024:           0 MBytes
    device size with M = 1000*1000:           0 MBytes 
    cache/buffer size  = unknown
Capabilities:
    IORDY not likely
    Cannot perform double-word IO
    R/W multiple sector transfer: not supported
    DMA: not supported
    PIO: pio0 

Любой совет больше всего одобрен!

3
задан 8 July 2015 в 12:51
3 ответа

У вас в RAID-массиве есть один диск, который неправильно работает и выдает случайные ошибки? Похоже на проблему с аппаратным обеспечением, и, скорее всего, она будет усугубляться. Вам следует подумать о замене диска. Да, это дорого, но сколько стоит ваше время, и насколько плохо было бы, если бы весь диск пошёл на юг в неподходящий момент?

.
8
ответ дан 3 December 2019 в 04:49

Вы можете просмотреть информацию SMART для отдельных дисков с помощью дисковой утилиты? Посмотрите на Pre-Fail проверки и посмотрите, не выделяется ли что-нибудь из этого. Это указывает на неисправность физического устройства.

Является ли диск, на котором происходят ошибки в группе RAID с другими дисками? Если нет, то это может быть файловая система, а не диск или, в зависимости от компоновки, контроллер (плохой кэш, несовпадение прошивки). Также я бы проверил версии прошивок на диске и контроллере, чтобы узнать, не устарели ли они.

Есть ли у вас другие диски того же типа на этом контроллере? Есть ли у них такие же прошивки и т.д.?

3
ответ дан 3 December 2019 в 04:49

Какие именно ошибки вы получаете?

Я бы порекомендовал попробовать получить дополнительную информацию от контроллера PERC. С помощью Ubuntu вы, возможно, не сможете установить Dell's OMSA для мониторинга и управления.

Скорее всего, вы можете установить MegaCLI и использовать его для экспорта журнала контроллера, чтобы получить больше информации о происходящих событиях.

Есть ли причина, по которой вы не связались со службой поддержки Dell? Эта серверная модель кажется достаточно новой, я ожидаю, что она все еще находится на гарантии...

.
0
ответ дан 3 December 2019 в 04:49

Теги

Похожие вопросы