kkz Posted February 19, 2015 · Report post Добрый день всем! На днях вылезла проблема: [828057.738070] ixgbe 0000:02:00.0 eth2: Received unrecoverable ECC Err,initiating reset. [828057.738093] ixgbe 0000:02:00.0 eth2: Reset adapter [828057.738602] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 0 not cleared within the polling period [828057.739125] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 1 not cleared within the polling period [828057.739632] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 2 not cleared within the polling period [828057.740122] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 3 not cleared within the polling period [828057.740593] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 4 not cleared within the polling period [828057.741067] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 5 not cleared within the polling period [828057.741547] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 6 not cleared within the polling period [828057.742042] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 7 not cleared within the polling period [828057.742512] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 8 not cleared within the polling period [828057.742972] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 9 not cleared within the polling period [828057.743429] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 10 not cleared within the polling period [828057.743884] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 11 not cleared within the polling period [828057.744345] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 12 not cleared within the polling period [828057.744775] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 13 not cleared within the polling period [828057.745202] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 14 not cleared within the polling period [828057.745620] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 15 not cleared within the polling period [828058.083650] ixgbe 0000:02:00.0 eth2: detected SFP+: 5 [828058.335551] ixgbe 0000:02:00.0 eth2: NIC Link is Up 10 Gbps, Flow Control: RX/TX Сама машина: CPU: Intel(R) Xeon(R) CPU E5-2630 v3 @ 2.40GHz Mem: 15977 Ethernet: Intel Corporation 82599EB 10-Gigabit SFI/SFP+ Network Connection.rev 01 (X520-DA2) Debian 7, 3.16.0-0.bpo.4-amd64 Крутиться на ней quagga и bind, в час пик нагрузка около 5 Gbps и ~1-1.4 Mpps. Драйвера для сетевухи - последние с офф. сайта, собранные без LRO. Очереди разбросаны по 16 ядрам, ht отключен. 126: 2343944650 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 eth2-TxRx-0 127: 3 2221663243 0 0 0 0 0 0 0 0 0 0 0 0 0 0 eth2-TxRx-1 128: 3 0 2278684388 0 0 0 0 0 0 0 0 0 0 0 0 0 eth2-TxRx-2 129: 3 0 0 2376208485 0 0 0 0 0 0 0 0 0 0 0 0 eth2-TxRx-3 130: 3 0 0 0 2275752095 0 0 0 0 0 0 0 0 0 0 0 eth2-TxRx-4 131: 3 0 0 0 0 2334233450 0 0 0 0 0 0 0 0 0 0 eth2-TxRx-5 132: 3 0 0 0 0 0 2211507255 0 0 0 0 0 0 0 0 0 eth2-TxRx-6 133: 3 0 0 0 0 0 0 2309696926 0 0 0 0 0 0 0 0 eth2-TxRx-7 134: 3 0 0 0 0 0 0 0 2490353647 0 0 0 0 0 0 0 eth2-TxRx-8 135: 3 0 0 0 0 0 0 0 0 2307734000 0 0 0 0 0 0 eth2-TxRx-9 136: 3 0 0 0 0 0 0 0 0 0 2347207242 0 0 0 0 0 eth2-TxRx-10 137: 3 0 0 0 0 0 0 0 0 0 0 2347636028 0 0 0 0 eth2-TxRx-11 138: 3 0 0 0 0 0 0 0 0 0 0 0 2322374277 0 0 0 eth2-TxRx-12 139: 3 0 0 0 0 0 0 0 0 0 0 0 0 2292948892 0 0 eth2-TxRx-13 140: 6 0 0 0 0 0 0 0 0 0 0 0 0 0 2274135933 0 eth2-TxRx-14 141: 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2288978897 eth2-TxRx-15 143: 3173771265 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 eth3-TxRx-0 144: 6 3032093901 0 0 0 0 0 0 0 0 0 0 0 0 0 0 eth3-TxRx-1 145: 6 0 3261623959 0 0 0 0 0 0 0 0 0 0 0 0 0 eth3-TxRx-2 146: 13 0 0 3280987826 0 0 0 0 0 0 0 0 0 0 0 0 eth3-TxRx-3 147: 6 0 0 0 3035500575 0 0 0 0 0 0 0 0 0 0 0 eth3-TxRx-4 148: 6 0 0 0 0 3106004962 0 0 0 0 0 0 0 0 0 0 eth3-TxRx-5 149: 6 0 0 0 0 0 3096512338 0 0 0 0 0 0 0 0 0 eth3-TxRx-6 150: 6 0 0 0 0 0 0 3215479615 0 0 0 0 0 0 0 0 eth3-TxRx-7 151: 6 0 0 0 0 0 0 0 3092134154 0 0 0 0 0 0 0 eth3-TxRx-8 152: 6 0 0 0 0 0 0 0 0 3143022384 0 0 0 0 0 0 eth3-TxRx-9 153: 6 0 0 0 0 0 0 0 0 0 3201174058 0 0 0 0 0 eth3-TxRx-10 154: 6 0 0 0 0 0 0 0 0 0 0 3251828680 0 0 0 0 eth3-TxRx-11 155: 6 0 0 0 0 0 0 0 0 0 0 0 3235153017 0 0 0 eth3-TxRx-12 156: 6 0 0 0 0 0 0 0 0 0 0 0 0 3017957310 0 0 eth3-TxRx-13 157: 6 0 0 0 0 0 0 0 0 0 0 0 0 0 3367424562 0 eth3-TxRx-14 158: 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3242362642 eth3-TxRx-15 driver: ixgbe version: 3.23.2 firmware-version: 0x2b2c0001 bus-info: 0000:02:00.0 supports-statistics: yes supports-test: yes supports-eeprom-access: yes supports-register-dump: yes supports-priv-flags: no gso off gro off tso off... Features for eth2: rx-checksumming: on tx-checksumming: on tx-checksum-ipv4: on tx-checksum-ip-generic: off [fixed] tx-checksum-ipv6: on tx-checksum-fcoe-crc: off [fixed] tx-checksum-sctp: on scatter-gather: on tx-scatter-gather: on tx-scatter-gather-fraglist: off [fixed] tcp-segmentation-offload: off tx-tcp-segmentation: off tx-tcp-ecn-segmentation: off [fixed] tx-tcp6-segmentation: off udp-fragmentation-offload: off [fixed] generic-segmentation-offload: off generic-receive-offload: off large-receive-offload: off rx-vlan-offload: on tx-vlan-offload: on ntuple-filters: on receive-hashing: on highdma: on [fixed] rx-vlan-filter: on [fixed] vlan-challenged: off [fixed] tx-lockless: off [fixed] netns-local: off [fixed] tx-gso-robust: off [fixed] tx-fcoe-segmentation: off [fixed] tx-gre-segmentation: off [fixed] tx-ipip-segmentation: off [fixed] tx-sit-segmentation: off [fixed] tx-udp_tnl-segmentation: off [fixed] tx-mpls-segmentation: off [fixed] fcoe-mtu: off [fixed] tx-nocache-copy: off loopback: off [fixed] rx-fcs: off [fixed] rx-all: off [fixed] tx-vlan-stag-hw-insert: off [fixed] rx-vlan-stag-hw-parse: off [fixed] rx-vlan-stag-filter: off [fixed] l2-fwd-offload: off [fixed] busy-poll: on [fixed] Собственно сюда пишу уже от неимения своих мыслей по решению данной проблемы, излазил поисковики в доль и поперек... Надежда осталась только на вас! Заранее спасибо. Share this post Link to post Share on other sites
nuclearcat Posted February 19, 2015 · Report post Сетевка качественная? Давно работает? Ядро не меняли? У меня сыпало ошибки, когда паста на чипе высохла, правда другие. Share this post Link to post Share on other sites
kkz Posted February 19, 2015 (edited) · Report post Сетевку менял, правда она была такойже модели. + Модули тоже. Ядро было стандартным 3.2.0-4-amd64 на нем и всплыла данная проблема, решил попробовать взять из бекпортов... Ситуацию это не изменило. Edited February 19, 2015 by kkz Share this post Link to post Share on other sites
nuclearcat Posted February 19, 2015 · Report post Данная ошибка _вроде-бы_ говорит об ошибке на PCI-Express шине. Нужно колупать в этом направлении. И убедитесь, что карте достаточно питания и охлаждения (мощность БП, продув воздухом достаточный + остальное). Share this post Link to post Share on other sites
Умник Posted February 20, 2015 · Report post [828057.738070] ixgbe 0000:02:00.0 eth2: Received unrecoverable ECC Err,initiating reset. Все что ниже этой строчки (adapter reset и далее) уже следствие, так что можно не обращать внимания. В даташите сказано: Unrecoverable ECC Error. This bit is set when an unrecoverable error is detected in one of the device memories. Software should issue a software reset following this error. Если еще не меняли трансиверы, попробуйте все же поменять. Хотя не понятно, как они могут влиять на "device memories". Share this post Link to post Share on other sites
kkz Posted February 22, 2015 (edited) · Report post Если еще не меняли трансиверы, попробуйте все же поменять. Хотя не понятно, как они могут влиять на "device memories". Менялись... Вчера собрал ядрышко по интелячиму мануалу, в этоге с дефолтыми дровами вылетел так: [121020.944170] ixgbe 0000:02:00.1 eth2: tx hang (число варьируется) detected on queue XX, resetting adapter [121020.944174] ixgbe 0000:02:00.1 eth2: initiating reset due to tx timeout [121020.944328] ixgbe 0000:02:00.1 eth2: Reset adapter Сейчас собраны последние дрова снова, пока живем (15 часов), но ощущение что сижу на пороховой бочке. P.S. Ибо и просто без вмешательств сервер жил около 1.5 недели... Edited February 22, 2015 by kkz Share this post Link to post Share on other sites
dimmons Posted June 20, 2015 (edited) · Report post Подниму тему, вылезла точь в точь таже проблема, собрал последние дрова, не помогло. Все это на Debian 8, радом второй такой же сервер, работает в боевом, конфиги один в один, но дебан 7 и дрова которые родные в системе, на нем все Ок. Куда копать? Edited June 20, 2015 by dimmons Share this post Link to post Share on other sites
pavel.odintsov Posted June 23, 2015 · Report post В коде драйверай ixgbe никаких подробностей, оно описано как "ошибка ECC". Полагаю, речь идет либо о памяти сетевой (сомнительно) либо о передачи данных по шине, но я тоже не слышал ни о каком ECC у PCI-E. Полагаю, смена сетевой/замена SFP+ модуля. Я полистал дата щит на ixgbe, и там тоже никаких подробностей про это дело. Share this post Link to post Share on other sites
Megas Posted June 23, 2015 · Report post А какая мать? Share this post Link to post Share on other sites
kkz Posted June 29, 2015 (edited) · Report post У меня, 2е сетевушки оказались бракованные (толи партия такая, толи еще что), 3 пашет с февраля и в ус не дует. Все руки не доходят их поковырять, попробуй все-таки проверить охлаждение (как писалось выше), т.е. попробовать поменять термопасту на чипе... (В момент проблемы я этого не сделал, подумал что на обеих подряд... ну не бывает:))) P.S.> Одна из сетевух (бракованных) перекочевала между 3мя нагруженными серверами и везде одно и тоже. Не думаю, что проблема в железках сервера. Edited June 29, 2015 by kkz Share this post Link to post Share on other sites