В чем разница между ANAME и A?

Новая революция DNS-записей они говорят, но что?

Аппаратное обеспечение

  • Жесткие диски 4x WD RED 3 ТБ WDC WD30EFRX-68EUZN0 as / dev / sd [efgh]
  • sde и sdf подключаются через контроллер A по каналу SATA 3 Гбит / с (хотя 6 Гбит / с были бы доступны)
  • SDG и SDH подключаются через контроллер B по каналу SATA 6 Гбит / с

Производительность одного диска

Тест записи 4 раза для каждого диска (все, как я ожидал)

# dd if=/dev/zero of=/dev/sd[efgh] bs=2G count=1 oflag=dsync
sde: 2147479552 bytes (2.1 GB) copied, xxx s, [127, 123, 132, 127] MB/s
sdf: 2147479552 bytes (2.1 GB) copied, xxx s, [131, 130, 118, 137] MB/s
sdg: 2147479552 bytes (2.1 GB) copied, xxx s, [145, 145, 145, 144] MB/s
sdh: 2147479552 bytes (2.1 GB) copied, xxx s, [126, 132, 132, 132] MB/s

Чтение тест с использованием hdparm и dd (все, как я ожидал)

# hdparm -tT /dev/sd[efgh]
# echo 3 | tee /proc/sys/vm/drop_caches; dd of=/dev/null if=/dev/sd[efgh] bs=2G count=1 iflag=fullblock

(sde)
Timing cached reads:   xxx MB in  2.00 seconds = [13983.68, 14136.87] MB/sec
Timing buffered disk reads: xxx MB in  3.00 seconds = [143.16, 143.14] MB/sec
2147483648 bytes (2.1 GB) copied, xxx s, [140, 141] MB/s

(sdf)
Timing cached reads:   xxx MB in  2.00 seconds = [14025.80, 13995.14] MB/sec
Timing buffered disk reads: xxx MB in  3.00 seconds = [140.31, 140.61] MB/sec
2147483648 bytes (2.1 GB) copied, xxx s, [145, 141] MB/s

(sdg)
Timing cached reads:   xxx MB in  2.00 seconds = [14005.61, 13801.93] MB/sec
Timing buffered disk reads: xxx MB in  3.00 seconds = [153.11, 151.73] MB/sec
2147483648 bytes (2.1 GB) copied, xxx s, [154, 155] MB/s

(sdh)
Timing cached reads:   xxx MB in  2.00 seconds = [13816.84, 14335.93] MB/sec
Timing buffered disk reads: xxx MB in  3.00 seconds = [142.50, 142.12] MB/sec
2147483648 bytes (2.1 GB) copied, xxx s, [140, 140] MB/s

Разделы на sd [efgh]

4x 32 ГиБ для тестирования

# gdisk -l /dev/sd[efgh]
GPT fdisk (gdisk) version 0.8.10

Partition table scan:
  MBR: protective
  BSD: not present
  APM: not present
  GPT: present

Found valid GPT with protective MBR; using GPT.
Disk /dev/sde: 5860533168 sectors, 2.7 TiB
Logical sector size: 512 bytes
Disk identifier (GUID): xxx
Partition table holds up to 128 entries
First usable sector is 34, last usable sector is 5860533134
Partitions will be aligned on 2048-sector boundaries
Total free space is 5793424237 sectors (2.7 TiB)

Number  Start (sector)    End (sector)  Size       Code  Name
   1            2048        67110911   32.0 GiB    FD00  Linux RAID

Raid array

# mdadm --create --verbose /dev/md0 --level=5 --raid-devices=4 --chunk=256K /dev/sd[efgh]1
(some tests later ...)
# mdadm --grow --verbose /dev/md0 --layout=right-asymmetric
# mdadm --detail /dev/md0
/dev/md0:
    Version : 1.2
  Creation Time : Sat Dec 10 03:07:56 2016
     Raid Level : raid5
     Array Size : 100561920 (95.90 GiB 102.98 GB)
  Used Dev Size : 33520640 (31.97 GiB 34.33 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

    Update Time : Sat Dec 10 23:56:53 2016
          State : clean
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : right-asymmetric
     Chunk Size : 256K

           Name : vm:0  (local to host vm)
           UUID : 80d0f886:dc380755:5387f78c:1fac60da
         Events : 158

    Number   Major   Minor   RaidDevice State
       0       8       65        0      active sync   /dev/sde1
       1       8       81        1      active sync   /dev/sdf1
       2       8       97        2      active sync   /dev/sdg1
       4       8      113        3      active sync   /dev/sdh1

Текущая ситуация

Я ожидал, что массив будет работать примерно между 350 - 400 МБ / с для непрерывного чтения и записи. Чтение или запись всего тома на самом деле дает результаты в пределах этого диапазона:

# echo 3 | tee /proc/sys/vm/drop_caches; dd of=/dev/null if=/dev/md0 bs=256K
102975406080 bytes (103 GB) copied, 261.373 s, 394 MB/s

# dd if=/dev/zero of=/dev/md0 bs=256K conv=fdatasync
102975406080 bytes (103 GB) copied, 275.562 s, 374 MB/s

Однако производительность записи в значительной степени зависит от объема записанных данных. Как и ожидалось, скорость передачи увеличивается с увеличением объема данных, но падает до нуля при достижении 2 ГиБ и медленно восстанавливается только при дальнейшем увеличении размера:

# dd if=/dev/zero of=/dev/md0 bs=256K conv=fdatasync count=x
count=1: 262144 bytes (262 kB) copied, xxx s, [3.6, 7.6, 8.9, 8.9] MB/s
count=2: 524288 bytes (524 kB) copied, xxx s, [3.1, 17.7, 15.3, 15.7] MB/s
count=4: 1048576 bytes (1.0 MB) copied, xxx s, [13.2, 23.9, 26.9, 25.4] MB/s
count=8: 2097152 bytes (2.1 MB) copied, xxx s, [24.3, 46.7, 45.9, 42.8] MB/s
count=16: 4194304 bytes (4.2 MB) copied, xxx s, [5.1, 77.3, 42.6, 73.2, 79.8] MB/s
count=32: 8388608 bytes (8.4 MB) copied, xxx s, [68.6, 101, 99.7, 101] MB/s
count=64: 16777216 bytes (17 MB) copied, xxx s, [52.5, 136, 159, 159] MB/s
count=128: 33554432 bytes (34 MB) copied, xxx s, [38.5, 175, 185, 189, 176] MB/s
count=256: 67108864 bytes (67 MB) copied, xxx s, [53.5, 244, 229, 238] MB/s
count=512: 134217728 bytes (134 MB) copied, xxx s, [111, 288, 292, 288] MB/s
count=1K: 268435456 bytes (268 MB) copied, xxx s, [171, 328, 319, 322] MB/s
count=2K: 536870912 bytes (537 MB) copied, xxx s, [228, 337, 330, 334] MB/s
count=4K: 1073741824 bytes (1.1 GB) copied, xxx s, [338, 348, 348, 343] MB/s <-- ok!
count=8K: 2147483648 bytes (2.1 GB) copied, xxx s, [168, 147, 138, 139] MB/s <-- bad!
count=16K: 4294967296 bytes (4.3 GB) copied, xxx s, [155, 160, 178, 144] MB/s
count=32K: 8589934592 bytes (8.6 GB) copied, xxx s, [256, 238, 264, 246] MB/s
count=64K: 17179869184 bytes (17 GB) copied, xxx s, [298, 285] MB/s
count=128K: 34359738368 bytes (34 GB) copied, xxx s, [347, 336] MB/s
count=256K: 68719476736 bytes (69 GB) copied, xxx s, [363, 356] MB/s <-- getting better

(ниже 2 ГиБ первое измерение, похоже, указывает на использование некоторого кеша чтения)

При передаче 2 ГиБ или более я заметил что-то странное в iotop :

  • Фаза 1: вначале «Общая ЗАПИСЬ НА ДИСК» и «Фактическая ЗАПИСЬ НА ДИСК» равны примерно 400 МБ / s ". dd имеет значения ввода-вывода около 85%, в то время как все остальные равны 0%. Эта фаза длится дольше при больших передачах.
  • Фаза 2: за несколько секунд (~ 16 с) до завершения передачи kworker прыгает и / крадет / 30-50 процентных пунктов ввода-вывода из dd . Распределение колеблется от 30:50% до 50:30%. В то же время «Total DISK WRITE» падает до 0 B / s, а «Actual DISK WRITE» перескакивает между 20 - 70 MB / s. Эта фаза, кажется, длится постоянное время.
  • Фаза 3: В течение последних 3 секунд «Фактическая ЗАПИСЬ НА ДИСК» увеличивается до> 400 МБ / с, а «Общая ЗАПИСЬ НА ДИСК» остается на уровне 0 Б / с. dd и kworker указаны со значением ввода-вывода 0%
  • Фаза 4: значение ввода-вывода dd подскакивает до 5% для одна секунда. В то же время перенос завершается.

Еще несколько тестов

# dd if=/dev/zero of=/dev/md0 bs=256K count=32K oflag=direct
8589934592 bytes (8.6 GB) copied, 173.083 s, 49.6 MB/s

# dd if=/dev/zero of=/dev/md0 bs=256M count=64 oflag=direct
17179869184 bytes (17 GB) copied, 47.792 s, 359 MB/s

# dd if=/dev/zero of=/dev/md0 bs=768M count=16K oflag=direct
50734301184 bytes (51 GB) copied, 136.347 s, 372 MB/s <-- peak performance

# dd if=/dev/zero of=/dev/md0 bs=1G count=16K oflag=direct
41875931136 bytes (42 GB) copied, 112.518 s, 372 MB/s <-- peak performance

# dd if=/dev/zero of=/dev/md0 bs=2G count=16 oflag=direct
34359672832 bytes (34 GB) copied, 103.355 s, 332 MB/s

# dd if=/dev/zero of=/dev/md0 bs=256K count=32K oflag=dsync
8589934592 bytes (8.6 GB) copied, 498.77 s, 17.2 MB/s

# dd if=/dev/zero of=/dev/md0 bs=256M count=64 oflag=dsync
17179869184 bytes (17 GB) copied, 58.384 s, 294 MB/s

# dd if=/dev/zero of=/dev/md0 bs=1G count=8 oflag=dsync
8589934592 bytes (8.6 GB) copied, 26.4799 s, 324 MB/s

# dd if=/dev/zero of=/dev/md0 bs=2G count=8 oflag=dsync
17179836416 bytes (17 GB) copied, 192.327 s, 89.3 MB/s

# dd if=/dev/zero of=/dev/md0 bs=256K; echo "sync"; sync
102975406080 bytes (103 GB) copied, 275.378 s, 374 MB/s
sync
  • bs = 256K oflag = direct -> 100% IO, нет kworker присутствует, низкая производительность
  • bs = 1G oflag = direct -> <5% IO, нет kworker присутствует, производительность нормальная
  • bs = 2G oflag = direct -> 80% IO, kworker то и дело прыгает, хорошо, производительность
  • oflag = dsync -> <5% IO, kworker то и дело прыгает; требуются блоки огромного размера для получения приемлемой скорости, но> 2G приводит к значительному падению производительности
  • echo "sync"; sync -> то же, что и conv = fdatasync ; sync немедленно возвращает

Вопросы

Что это за таинственная фаза 2, где оба процесса, кажется, борются за ввод-вывод?

Кто передает данные на оборудование на этапе 3?

И самое главное : Как я могу минимизировать странный эффект, чтобы получить полные 400 МБ / с, которые, кажется, может обеспечить массив? (Или я даже задаю XY-проблему?)

Бонус

Текущее состояние предшествует долгой истории проб и ошибок. Я переключил планировщик с cfq на noop и уменьшил размер блока RAID с 512k до 256k, что привело к немного лучшим результатам. Переход на - layout = right-asymmetric ничего не изменил. Временная деактивация кеша записи жесткого диска работает хуже.

Уровень криптографии, упомянутый в первом предложении, в настоящее время полностью отсутствует и будет повторно представлен позже.

# uname -a
Linux vm 3.16.0-4-amd64 #1 SMP Debian 3.16.36-1+deb8u2 (2016-10-19) x86_64 GNU/Linux
1
задан 13 December 2016 в 22:43
1 ответ

То, что вы видите, является артефактом вашей командной строки dd , в частности, из параметра conv = fdatasync . На странице руководства :

Каждый символ CONV может быть:
...
fdatasync: физически записывать данные выходного файла перед завершением
...

conv = fdatasync в основном инструктирует dd выполнить одиночный, последний системный вызов fdatasync перед возвратом. Однако записи кэшируются во время работы dd. Фазы ввода-вывода можно объяснить следующим образом:

  1. dd быстро записывает в кэш страниц, фактически не касаясь диска
  2. кэш страниц почти заполнен, и ядро ​​ kworker начинает его сбрасывать сделать диск. Во время очистки кэша страниц, dd ненадолго приостанавливается (что приводит к высокому iowait ); после освобождения некоторого кэша страниц, dd может восстановить операцию
  3. разница между ВСЕГО и ФАКТИЧЕСКИМ записью на диск в iotop зависит от того, как кэш страниц, соответственно, заполняется и сбрасывается
  4. цикл продолжить

Короче говоря, здесь нет проблемы. Если вы хотите наблюдать некэшированное поведение, замените conv = fdatasync на oflag = direct : с помощью этого флага вы можете полностью обойти кеш страницы.

Для наблюдения за кешем, но синхронизированного поведения, замените conv = fdatasync на oflag = sync : с этим флагом dd вызывает fdatasync при записи каждого блока в disk.

Дальнейшая оптимизация может быть получена путем точной настройки вашего стека ввода-вывода (например: планировщик ввода-вывода, поведение слияния, полосовой кэш и т. д.), но это совершенно другой вопрос.

1
ответ дан 3 December 2019 в 23:37

Теги

Похожие вопросы