conrad Posted March 10, 2019 (edited) · Report post Всем доброго времени суток! В связи с расширением приобрели сетевую карточку tck99 на 10Гбит с чипсетом Intel (https://www.ebay.com/itm/TCK99-0TCK99-Dell-Intel-10GBE-Dual-Port-SFP-Mezzanine-Network-Card-C6100-C6220-/253490550642?_ul=RU) для сервера dell c6100, но после ее установки при запуске системы мы видим такое сообщение от ядра: [ 2.338076] ixgbe 0000:02:00.0: PCI Express bandwidth of 16GT/s available [ 2.338079] ixgbe 0000:02:00.0: (Speed:5.0GT/s, Width: x4, Encoding Loss:20%) [ 2.338080] ixgbe 0000:02:00.0: This is not sufficient for optimal performance of this card. [ 2.338082] ixgbe 0000:02:00.0: For optimal performance, at least 20GT/s of bandwidth is required. [ 2.338084] ixgbe 0000:02:00.0: A slot with more lanes and/or higher speed is suggested. Наблюдаются потери при пингах узла с этой картой (утилизация каждого порта чуть больше гигабита), а также постоянно растут дропы на обоих портах этой карты (ifconfig ethX). Система debian jessie 8.7 Судя по спекам сервера, мезанинный слот dell c6100 является слотом pci-e x8 которого должно хватать. Пробовали менять ноды и карты (приобрели несколько одинаковых), но ничего не меняется. Подскажите пожалуйста, в чем может быть проблема? Ведь карточка выпускалась специально для этого сервера. Заранее благодарю за ответ! P.S.: Версия bios - 1.71 (пробовали и 1.81), прошивку для карты так же ставили последнюю (от 2014 года) Edited March 10, 2019 by conrad Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted March 11, 2019 · Report post lspci -vv сделайте (вывод сбросьте на pastebin или в текстовый файл-аттач). Проблема известная, сразу скажу, что вряд ли что-то удастся изменить, но хоть попробуем выяснить, в чем именно проблема. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
conrad Posted March 11, 2019 · Report post 12 minutes ago, jffulcrum said: lspci -vv сделайте (вывод сбросьте на pastebin или в текстовый файл-аттач) Пожалуйста - https://pastebin.com/sVD4PK8W Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted March 11, 2019 · Report post Весьма интересно. Обычно при проявлении косяка лимит x4 оказывался установлен на самом Root Port 3, но в данном случае он почему-то применился на устройства. Из предложений пока извлечение карты, полный сброс настроек CMOS/BIOS, запуск без карты, выключение, вставка карты снова. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
passer Posted March 11, 2019 (edited) · Report post У меня в одном сервере карта на чипе Intel 82599EB стоит в слоте x4 (чтобы переставить в x8 надо выключать сервер и заинструктировать местных не перепутать ничего ибо стоит далеко) уже который год, пропускает чуть больше 4Гбит/с и никаких дропов. Так что не туда (ширину шины PCIe) смотрите. Может сама сетевушка не совсем рабочая? Менять порты местами пробовали? ethtool -m на модулях какие уровни сигнала показывает? ethtool -S в pastebin или сюдой под спойлером еще покажите. Edited March 11, 2019 by passer Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
conrad Posted March 11, 2019 · Report post 10 hours ago, jffulcrum said: Весьма интересно. Обычно при проявлении косяка лимит x4 оказывался установлен на самом Root Port 3, но в данном случае он почему-то применился на устройства. Из предложений пока извлечение карты, полный сброс настроек CMOS/BIOS, запуск без карты, выключение, вставка карты снова. Уже пробовали, безрезультатно... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted March 11, 2019 · Report post @conrad Можете фото самой карточки с двух сторон приложить? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
conrad Posted March 11, 2019 · Report post 9 hours ago, passer said: У меня в одном сервере карта на чипе Intel 82599EB стоит в слоте x4 (чтобы переставить в x8 надо выключать сервер и заинструктировать местных не перепутать ничего ибо стоит далеко) уже который год, пропускает чуть больше 4Гбит/с и никаких дропов. Так что не туда (ширину шины PCIe) смотрите. Может сама сетевушка не совсем рабочая? Менять порты местами пробовали? ethtool -m на модулях какие уровни сигнала показывает? ethtool -S в pastebin или сюдой под спойлером еще покажите. Сетевушек пробовали несколько (чипсет один и тот же) - безрезультатно ethtool -m root@gw:~# ethtool -m eth4 Identifier : 0x03 (SFP) Extended identifier : 0x04 (GBIC/SFP defined by 2-wire interface ID) Connector : 0x21 (Copper pigtail) Transceiver codes : 0x01 0x00 0x00 0x00 0x41 0x04 0x80 0xd5 Transceiver type : Infiniband: 1X Copper Passive Transceiver type : FC: short distance (S) Transceiver type : FC: Electrical inter-enclosure (EL) Transceiver type : FC: Copper Passive Transceiver type : FC: Twin Axial Pair (TW) Transceiver type : FC: 1200 MBytes/sec Transceiver type : FC: 800 MBytes/sec Transceiver type : FC: 400 MBytes/sec Transceiver type : FC: 200 MBytes/sec Transceiver type : FC: 100 MBytes/sec Encoding : 0x00 (unspecified) BR, Nominal : 10300MBd Rate identifier : 0x00 (unspecified) Length (SMF,km) : 0km Length (SMF) : 0m Length (50um) : 0m Length (62.5um) : 0m Length (Copper) : 3m Length (OM3) : 0m Passive Cu cmplnce. : 0x01 (SFF-8431 appendix E) [SFF-8472 rev10.4 only] Vendor name : TIMEINTERCONNECT Vendor OUI : f4:b7:2a Vendor PN : D09181-4A Vendor rev : K root@gw:~# ethtool -m eth5 Identifier : 0x03 (SFP) Extended identifier : 0x04 (GBIC/SFP defined by 2-wire interface ID) Connector : 0x21 (Copper pigtail) Transceiver codes : 0x01 0x00 0x00 0x00 0x41 0x04 0x80 0xd5 Transceiver type : Infiniband: 1X Copper Passive Transceiver type : FC: short distance (S) Transceiver type : FC: Electrical inter-enclosure (EL) Transceiver type : FC: Copper Passive Transceiver type : FC: Twin Axial Pair (TW) Transceiver type : FC: 1200 MBytes/sec Transceiver type : FC: 800 MBytes/sec Transceiver type : FC: 400 MBytes/sec Transceiver type : FC: 200 MBytes/sec Transceiver type : FC: 100 MBytes/sec Encoding : 0x00 (unspecified) BR, Nominal : 10300MBd Rate identifier : 0x00 (unspecified) Length (SMF,km) : 0km Length (SMF) : 0m Length (50um) : 0m Length (62.5um) : 0m Length (Copper) : 3m Length (OM3) : 0m Passive Cu cmplnce. : 0x01 (SFF-8431 appendix E) [SFF-8472 rev10.4 only] Vendor name : TIMEINTERCONNECT Vendor OUI : f4:b7:2a Vendor PN : D09181-4A Vendor rev : K ethtool -S - https://pastebin.com/6PtriNTX 10 minutes ago, jffulcrum said: @conrad Можете фото самой карточки с двух сторон приложить? Фото сегодня постараюсь сделать и выложить, пока могу дать ссылки на то что купили... https://www.ebay.com/itm/Intel-E10G42AFDA-10-Gigabit-AF-DA-Dual-Port-Server-Adapter-New-In-Clam-Shell-/381245113969?oid=264122060112 https://www.ebay.com/itm/TCK99-0TCK99-Dell-Intel-10GBE-Dual-Port-SFP-Mezzanine-Network-Card-C6100-C6220-/253490550642?_ul=RU Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted March 11, 2019 · Report post 1 час назад, conrad сказал: https://www.ebay.com/itm/Intel-E10G42AFDA-10-Gigabit-AF-DA-Dual-Port-Server-Adapter-New-In-Clam-Shell-/381245113969?oid=264122060112 По фоткам продавца выглядит как настоящая. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
passer Posted March 12, 2019 (edited) · Report post В ethtool вижу неотключенный flow control и кучу ошибок rx_missed_errors (отсутствие no_buffer_count оставляет надежду, что кольцевые буфера сетевух увеличены) и нарыл это: https://sourceforge.net/p/e1000/bugs/383/ Edited March 12, 2019 by passer Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
taf_321 Posted March 12, 2019 · Report post 5 часов назад, conrad сказал: Connector : 0x21 (Copper pigtail) У вас соединение через DAC какой длинны? Нарывался на нестабильную работу 10G линка на 3-метровых DAC. При том проблемы вылазили совершенно произвольно - где-то работают отлично, где-то не сильно растет счетчик ошибок, а где-то при трафике более гигабита дропы и реконнекты. Проблему решили только заменив все на оптические линки. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
conrad Posted March 12, 2019 · Report post 6 hours ago, taf_321 said: У вас соединение через DAC какой длинны? Нарывался на нестабильную работу 10G линка на 3-метровых DAC. При том проблемы вылазили совершенно произвольно - где-то работают отлично, где-то не сильно растет счетчик ошибок, а где-то при трафике более гигабита дропы и реконнекты. Проблему решили только заменив все на оптические линки. у нас DAC - 2 метра Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
jffulcrum Posted March 12, 2019 · Report post Смущает еще rx_csum_offload_errors в отсутствие rx_errors (то есть пакеты целы на L2, но битые на L3), повторите ethtool -S для проверки Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
taf_321 Posted March 12, 2019 · Report post 51 минуту назад, conrad сказал: у нас DAC - 2 метра Попробуйте подобрать другой DAC или заменить его оптическим линком. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
conrad Posted March 12, 2019 · Report post 4 hours ago, jffulcrum said: Смущает еще rx_csum_offload_errors в отсутствие rx_errors (то есть пакеты целы на L2, но битые на L3), повторите ethtool -S для проверки Повторил - https://pastebin.com/kfddTh0V 17 hours ago, jffulcrum said: @conrad Можете фото самой карточки с двух сторон приложить? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
conrad Posted March 12, 2019 · Report post 4 hours ago, taf_321 said: Попробуйте подобрать другой DAC или заменить его оптическим линком. Завтра попробуем оптику... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
passer Posted March 13, 2019 (edited) · Report post На просторах инета находил упоминание, что с RSS>4 наблюдались потери пакетов. Коль трафика немного - попробуйте ограничиться RSS=4,4 и, если камней 2, прибить очереди к первому камню или снять на пробу второй камень. Хуже точно не будет. Edited March 13, 2019 by passer Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
conrad Posted March 14, 2019 · Report post 7 hours ago, passer said: На просторах инета находил упоминание, что с RSS>4 наблюдались потери пакетов. Коль трафика немного - попробуйте ограничиться RSS=4,4 и, если камней 2, прибить очереди к первому камню или снять на пробу второй камень. Хуже точно не будет. С камнями уже пробовали, прибивали очереди к одной голове, размазывали по двум - результата не дало. В данный момент очереди размазаны по двум головам. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...