Перейти к содержимому
Калькуляторы

неприятные сообщения о падении intel x710-da2

Доброго дня. В общем какая то странная ситуация, есть 2 сервера под дебиан, связаны между собой по 10Гб карте Intel x-710 da2 Б так вот на линке между 2 я этими серверами  в логах переодически падает сообщение

[3367299.448809] i40e 0000:07:00.0 ens3f0: NIC Link is Down
[3367299.758028] i40e 0000:07:00.0 ens3f0: NIC Link is Up 10 Gbps Full Duplex, Flow Control: None
[3367321.433925] i40e 0000:07:00.0 ens3f0: NIC Link is Down
[3367321.771886] i40e 0000:07:00.0 ens3f0: NIC Link is Up 10 Gbps Full Duplex, Flow Control: None
[3367326.458393] i40e 0000:07:00.0 ens3f0: NIC Link is Down
[3367326.756207] i40e 0000:07:00.0 ens3f0: NIC Link is Up 10 Gbps Full Duplex, Flow Control: None


, остальные порты с сетевушек включеные в канал и в ядро в циску таких сообщений не выдают, , сетевушки соеденены между собой дац кабелем . Я уже грешил на сетевушку, поменял на другую, сообщения в логе остались, что можно покрутить чтоб не отваливалась.

вот еще из dmesg

[485054.603550] i40e 0000:04:00.0 ens7f0: NIC Link is Down
[485054.940851] i40e 0000:04:00.0 ens7f0: NIC Link is Up 10 Gbps Full Duplex, Flow Control: None
[485101.944579] i40e 0000:04:00.0: TX driver issue detected, PF reset issued
[485102.315491] i40e 0000:04:00.0: FCoE is supported.

 

ethtool -i ens3f0
driver: i40e
version: 1.6.16-k
firmware-version: 4.25 0x8000143f 0.0.0
expansion-rom-version:
bus-info: 0000:07:00.0
supports-statistics: yes
supports-test: yes
supports-eeprom-access: yes
supports-register-dump: yes
supports-priv-flags: yes

 

как бороться?

Изменено пользователем kid79

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

тоже за кабель. можно попробовать модули с патчкордом и на них проверить стабильность

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Были аналогичные проблемы, решилось заменой DAC-кабеля. Вообще есть мысль совсем избавиться от DAC просто понатыкать SFP+ и нормальные оптические патчкорды. Очень уж громоздкий шланг, этот DAC, и критичные требования к длине - на 3 метрах все летает, на 5 метрах при нагрузках выше пяти-шести гигабит прут ошибки, и перебирай их потом, выбирая где ошибок меньше.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

есть запасной дац, перепрошью миникбики под интел карты попробую заменить кабель, не поможет, соберу на модулях и пачкордах.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

6 часов назад, taf_321 сказал:

Были аналогичные проблемы, решилось заменой DAC-кабеля. Вообще есть мысль совсем избавиться от DAC просто понатыкать SFP+ и нормальные оптические патчкорды. Очень уж громоздкий шланг, этот DAC, и критичные требования к длине - на 3 метрах все летает, на 5 метрах при нагрузках выше пяти-шести гигабит прут ошибки, и перебирай их потом, выбирая где ошибок меньше.

Многомодовые десятки ставьте. Это самое ок в стойки.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

2 часа назад, vurd сказал:

Многомодовые десятки ставьте. Это самое ок в стойки.

это лишние деньги, если синглмод стоит, то копеечные аттенюаторы можно вставить

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

2 часа назад, ichthyandr сказал:

это лишние деньги, если синглмод стоит, то копеечные аттенюаторы можно вставить

Стоит DAC, читайте тему.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

поменял на запасной дас кабель, ошибки не ушли, поставил 2 сфп модуля  ( snr-sfp+ w37-20 10G )и соеденил их пачкордом, вроде бы все работало по началу нормально, но потом к 8 утра начала нагрузка появляться и в логе опять посыпалось

Jul 19 07:20:58 bras1 kernel: [3597087.249011] i40e 0000:07:00.0 ens3f0: NIC Link is Down
Jul 19 07:20:58 bras1 kernel: [3597087.510952] i40e 0000:07:00.0 ens3f0: NIC Link is Up 10 Gbps Full Duplex, Flow Control: None
Jul 19 07:51:58 bras1 kernel: [3598947.372555] i40e 0000:07:00.0 ens3f0: NIC Link is Down
Jul 19 07:51:58 bras1 kernel: [3598947.712138] i40e 0000:07:00.0 ens3f0: NIC Link is Up 10 Gbps Full Duplex, Flow Control: None
Jul 19 07:51:59 bras1 kernel: [3598948.360547] i40e 0000:07:00.0 ens3f0: NIC Link is Down
Jul 19 07:51:59 bras1 kernel: [3598948.750541] i40e 0000:07:00.0 ens3f0: NIC Link is Up 10 Gbps Full Duplex, Flow Control: None
Jul 19 07:56:55 bras1 kernel: [3599244.393665] i40e 0000:07:00.0 ens3f0: NIC Link is Down
Jul 19 07:56:55 bras1 kernel: [3599244.702468] i40e 0000:07:00.0 ens3f0: NIC Link is Up 10 Gbps Full Duplex, Flow Control: None
Jul 19 08:01:32 bras1 kernel: [3599521.439596] i40e 0000:07:00.0 ens3f0: NIC Link is Down
Jul 19 08:01:32 bras1 kernel: [3599521.743192] i40e 0000:07:00.0 ens3f0: NIC Link is Up 10 Gbps Full Duplex, Flow Control: None
Jul 19 08:09:54 bras1 kernel: [3600023.437864] i40e 0000:07:00.0 ens3f0: NIC Link is Down
Jul 19 08:09:54 bras1 kernel: [3600023.708849] i40e 0000:07:00.0 ens3f0: NIC Link is Up 10 Gbps Full Duplex, Flow Control: None
Jul 19 08:10:10 bras1 kernel: [3600039.438910] i40e 0000:07:00.0 ens3f0: NIC Link is Down
Jul 19 08:10:10 bras1 kernel: [3600039.804133] i40e 0000:07:00.0 ens3f0: NIC Link is Up 10 Gbps Full Duplex, Flow Control: None


 осталось серевушку попробовать заменить

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В порядке бреда, у вас обе карты не через riser-card 2-to-1 подключены, случайно?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

в общем проблема решилась отключением гро гсо на вышестоящем бордере в который был включен данный сервер, после этого тьфу тьфу, отвалов сетевушки больше не наблюдаю

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

3 часа назад, kid79 сказал:

в общем проблема решилась отключением гро гсо на вышестоящем бордере в который был включен данный сервер, после этого тьфу тьфу, отвалов сетевушки больше не наблюдаю

скорее совпадение. как вообще отключение этих офлодов может влиять на сетевуху соседнего сервера? или падал порт на "вышестоящем" бордере?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

не могу сказать со 100% уверенностью падал порт на бордере или на нижестоящем сервере, в логах у обоих фиксировалось падение. они же не через коммутатор включены а напрямую.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.