Infiniband настроен и подключен, но индикаторы не горят на HBA и не работают в ОС

Я установил два двухпортовых HBA-адаптера FDR Infiniband VPI, по одному на каждом из двух серверов под управлением CentOS 6.9,

server1>lspci
03:00.0 Network controller: Mellanox Technologies MT27500 Family [ConnectX-3]

server2>lspci
81:00.0 Network controller: Mellanox Technologies MT27500 Family [ConnectX-3]

Я хочу использовать они предназначены для высокоскоростной связи NFSv4 (возможно, через RDMA) между этими двумя машинами, напрямую подключенными друг к другу через Infiniband (2-метровый пассивный кабель QSFP + 56 Гбит / с). Я сделал следующее на обоих (подставив правильный адрес PCI ниже).

yum -y install rdma infiniband-diags
chkconfig rdma on
service rdma start
printf "0000:XX:00.0 eth eth\n" >> /etc/rdma/mlx4.conf
echo eth > /sys/bus/pci/devices/0000:XX:00.0/mlx4_port1
echo eth > /sys/bus/pci/devices/0000:XX:00.0/mlx4_port2
modprobe -r mlx4_core
modprobe mlx4_core
modprobe ib_umad
cp -f ifcfg-eth4 /etc/sysconfig/network-scripts/ifcfg-eth4
cp -f ifcfg-eth5 /etc/sysconfig/network-scripts/ifcfg-eth5
chmod 644 /etc/sysconfig/network-scripts/ifcfg-*
chcon system_u:object_r:net_conf_t:s0 /etc/sysconfig/network-scripts/ifcfg-*
ifup eth4
ifup eth5

Пример файла конфигурации сети (например, ifcfg-eth4) выглядит таким образом, заменяя соответствующие MAC и IP-адрес для каждого порта:

DEVICE=eth4
HWADDR=XX:XX:XX:XX:XX:XX
TYPE=Ethernet
ONBOOT=yes
NM_CONTROLLED=no
BOOTPROTO=none
USERCTL=no
NETWORK=10.72.1.0
NETMASK=255.255.255.0
IPADDR=XXX.XXX.XXX.XXX

Есть три другие похожие файлы, по два на каждой машине, и ifup и ifdown работают для обоих интерфейсов на обеих машинах. Кроме того, существуют маршруты.

server1>ip route show
10.72.1.0/24 dev eth4  proto kernel  scope link  src 10.72.1.3
10.72.1.0/24 dev eth5  proto kernel  scope link  src 10.72.1.4
...

Здесь дела начинают идти плохо.

CA 'mlx4_0'
        CA type: MT4099
        Number of ports: 2
        Firmware version: 2.11.500
        Hardware version: 0
        Node GUID: 0xf45...
        System image GUID: 0xf45...
        Port 1:
                State: Down
                Physical state: Disabled
                Rate: 10
                Base lid: 0
                LMC: 0
                SM lid: 0
                Capability mask: 0x04010000
                Port GUID: 0xf6...
                Link layer: Ethernet
        Port 2:
                State: Down
                Physical state: Disabled
                Rate: 40
                Base lid: 0
                LMC: 0
                SM lid: 0
                Capability mask: 0x04010000
                Port GUID: 0xf6...
                Link layer: Ethernet

Обе машины показывают одно и то же: «Состояние: потому что в настоящее время это невозможно, но я подумал, что modprobe -r; Последовательность modprobe будет эквивалентной, и все аспекты конфигурации, связанные с установкой модуля, похоже, работают правильно.

Буду признателен за любые мысли!

1
задан 21 May 2018 в 05:17
1 ответ

קודם כל, opensm משמש רק עבור אינפיניבנד (IB). הגדרת את הכרטיסים שלך למצב אתרנט, כך ש- openm אינו נדרש.

התצורה הבסיסית נראית בסדר. אני מניח שכאשר הוספת mlx4_core, mlx4_en הוכנס באותו זמן? lsmod | grep mlx

עם זאת, אני חושד שהבעיה היא בכבלים. האם הם כבלים FDR או Ethernet ממותג מלאנוקס? אם לא, כנראה שהכרטיס מתעלם מכך שאינו נתמך במצב אתרנט. לך חפש את מספר הדגם של כל אחד מהחלקים כדי לוודא תאימות. כבלים עם כרטיסי VPI שאינם פועלים במצב אתרנט היו קוץ בעיני יותר מפעם אחת.

בדיקה מהירה נוספת תהיה להסיר את המודולים, לגבות את הגדרות מצב ה"את "שלך, ואז לחבר שני צמתים חזרה אל חזרה עם כבל IB בלבד, ואז הכנס מחדש את המודולים. IB בדרך כלל מצליח מאוד בקישור בתנאים לא אופטימליים. ibstat יציג מצב פיזי שאינו למטה - הוא יקשר חלקית (ללא openm), או יקשר באופן מלא; אם הכבל הוא כבל שאינו FDR, הוא עדיין יתחבר ב- QDR או DDR. אם אתה יכול לפחות לגרום ל- IB לעבוד, אתה יודע שהכרטיסים טובים. ניתן גם להשתמש ב- IPoIB (ממשקים ib0 ו- ib1 - להשתמש ב"מצב מחובר "), אם כי בלהיט ביצועים מאתרנט. אם אתה רק עושה NFS, אתה יכול גם להמשיך להשתמש במצב IB. הפעל NFS דרך RDMA (אל תשכח לשנות את תושבי הלקוח שלך כדי להשתמש בו גם כן) וליהנות מהיתרונות של NFS המהיר כמעט בחוט בקישור 56Gbps.

0
ответ дан 4 December 2019 в 03:57

Теги

Похожие вопросы