Jump to content
Калькуляторы

Intel X520-DA2 Reset adapter Received unrecoverable ECC Err,initiating reset.

Добрый день всем!

 

На днях вылезла проблема:

[828057.738070] ixgbe 0000:02:00.0 eth2: Received unrecoverable ECC Err,initiating reset.
[828057.738093] ixgbe 0000:02:00.0 eth2: Reset adapter
[828057.738602] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 0 not cleared within the polling period
[828057.739125] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 1 not cleared within the polling period
[828057.739632] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 2 not cleared within the polling period
[828057.740122] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 3 not cleared within the polling period
[828057.740593] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 4 not cleared within the polling period
[828057.741067] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 5 not cleared within the polling period
[828057.741547] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 6 not cleared within the polling period
[828057.742042] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 7 not cleared within the polling period
[828057.742512] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 8 not cleared within the polling period
[828057.742972] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 9 not cleared within the polling period
[828057.743429] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 10 not cleared within the polling period
[828057.743884] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 11 not cleared within the polling period
[828057.744345] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 12 not cleared within the polling period
[828057.744775] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 13 not cleared within the polling period
[828057.745202] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 14 not cleared within the polling period
[828057.745620] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 15 not cleared within the polling period
[828058.083650] ixgbe 0000:02:00.0 eth2: detected SFP+: 5
[828058.335551] ixgbe 0000:02:00.0 eth2: NIC Link is Up 10 Gbps, Flow Control: RX/TX

 

Сама машина:

CPU: Intel(R) Xeon(R) CPU E5-2630 v3 @ 2.40GHz
Mem: 15977
Ethernet: Intel Corporation 82599EB 10-Gigabit SFI/SFP+ Network Connection.rev 01 (X520-DA2)
Debian 7, 3.16.0-0.bpo.4-amd64

 

Крутиться на ней quagga и bind, в час пик нагрузка около 5 Gbps и ~1-1.4 Mpps.

Драйвера для сетевухи - последние с офф. сайта, собранные без LRO. Очереди разбросаны по 16 ядрам, ht отключен.

 

126: 2343944650          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0  eth2-TxRx-0
127:          3 2221663243          0          0          0          0          0          0          0          0          0          0          0          0          0          0  eth2-TxRx-1
128:          3          0 2278684388          0          0          0          0          0          0          0          0          0          0          0          0          0  eth2-TxRx-2
129:          3          0          0 2376208485          0          0          0          0          0          0          0          0          0          0          0          0  eth2-TxRx-3
130:          3          0          0          0 2275752095          0          0          0          0          0          0          0          0          0          0          0  eth2-TxRx-4
131:          3          0          0          0          0 2334233450          0          0          0          0          0          0          0          0          0          0  eth2-TxRx-5
132:          3          0          0          0          0          0 2211507255          0          0          0          0          0          0          0          0          0  eth2-TxRx-6
133:          3          0          0          0          0          0          0 2309696926          0          0          0          0          0          0          0          0  eth2-TxRx-7
134:          3          0          0          0          0          0          0          0 2490353647          0          0          0          0          0          0          0  eth2-TxRx-8
135:          3          0          0          0          0          0          0          0          0 2307734000          0          0          0          0          0          0  eth2-TxRx-9
136:          3          0          0          0          0          0          0          0          0          0 2347207242          0          0          0          0          0  eth2-TxRx-10
137:          3          0          0          0          0          0          0          0          0          0          0 2347636028          0          0          0          0  eth2-TxRx-11
138:          3          0          0          0          0          0          0          0          0          0          0          0 2322374277          0          0          0  eth2-TxRx-12
139:          3          0          0          0          0          0          0          0          0          0          0          0          0 2292948892          0          0  eth2-TxRx-13
140:          6          0          0          0          0          0          0          0          0          0          0          0          0          0 2274135933          0  eth2-TxRx-14
141:          3          0          0          0          0          0          0          0          0          0          0          0          0          0          0 2288978897  eth2-TxRx-15
143: 3173771265          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0  eth3-TxRx-0
144:          6 3032093901          0          0          0          0          0          0          0          0          0          0          0          0          0          0  eth3-TxRx-1
145:          6          0 3261623959          0          0          0          0          0          0          0          0          0          0          0          0          0  eth3-TxRx-2
146:         13          0          0 3280987826          0          0          0          0          0          0          0          0          0          0          0          0  eth3-TxRx-3
147:          6          0          0          0 3035500575          0          0          0          0          0          0          0          0          0          0          0  eth3-TxRx-4
148:          6          0          0          0          0 3106004962          0          0          0          0          0          0          0          0          0          0  eth3-TxRx-5
149:          6          0          0          0          0          0 3096512338          0          0          0          0          0          0          0          0          0  eth3-TxRx-6
150:          6          0          0          0          0          0          0 3215479615          0          0          0          0          0          0          0          0  eth3-TxRx-7
151:          6          0          0          0          0          0          0          0 3092134154          0          0          0          0          0          0          0  eth3-TxRx-8
152:          6          0          0          0          0          0          0          0          0 3143022384          0          0          0          0          0          0  eth3-TxRx-9
153:          6          0          0          0          0          0          0          0          0          0 3201174058          0          0          0          0          0  eth3-TxRx-10
154:          6          0          0          0          0          0          0          0          0          0          0 3251828680          0          0          0          0  eth3-TxRx-11
155:          6          0          0          0          0          0          0          0          0          0          0          0 3235153017          0          0          0  eth3-TxRx-12
156:          6          0          0          0          0          0          0          0          0          0          0          0          0 3017957310          0          0  eth3-TxRx-13
157:          6          0          0          0          0          0          0          0          0          0          0          0          0          0 3367424562          0  eth3-TxRx-14
158:          6          0          0          0          0          0          0          0          0          0          0          0          0          0          0 3242362642  eth3-TxRx-15

driver: ixgbe
version: 3.23.2
firmware-version: 0x2b2c0001
bus-info: 0000:02:00.0
supports-statistics: yes
supports-test: yes
supports-eeprom-access: yes
supports-register-dump: yes
supports-priv-flags: no

 

gso off gro off tso off...

Features for eth2:
rx-checksumming: on
tx-checksumming: on
       tx-checksum-ipv4: on
       tx-checksum-ip-generic: off [fixed]
       tx-checksum-ipv6: on
       tx-checksum-fcoe-crc: off [fixed]
       tx-checksum-sctp: on
scatter-gather: on
       tx-scatter-gather: on
       tx-scatter-gather-fraglist: off [fixed]
tcp-segmentation-offload: off
       tx-tcp-segmentation: off
       tx-tcp-ecn-segmentation: off [fixed]
       tx-tcp6-segmentation: off
udp-fragmentation-offload: off [fixed]
generic-segmentation-offload: off
generic-receive-offload: off
large-receive-offload: off
rx-vlan-offload: on
tx-vlan-offload: on
ntuple-filters: on
receive-hashing: on
highdma: on [fixed]
rx-vlan-filter: on [fixed]
vlan-challenged: off [fixed]
tx-lockless: off [fixed]
netns-local: off [fixed]
tx-gso-robust: off [fixed]
tx-fcoe-segmentation: off [fixed]
tx-gre-segmentation: off [fixed]
tx-ipip-segmentation: off [fixed]
tx-sit-segmentation: off [fixed]
tx-udp_tnl-segmentation: off [fixed]
tx-mpls-segmentation: off [fixed]
fcoe-mtu: off [fixed]
tx-nocache-copy: off
loopback: off [fixed]
rx-fcs: off [fixed]
rx-all: off [fixed]
tx-vlan-stag-hw-insert: off [fixed]
rx-vlan-stag-hw-parse: off [fixed]
rx-vlan-stag-filter: off [fixed]
l2-fwd-offload: off [fixed]
busy-poll: on [fixed]

 

Собственно сюда пишу уже от неимения своих мыслей по решению данной проблемы, излазил поисковики в доль и поперек... Надежда осталась только на вас!

Заранее спасибо.

Share this post


Link to post
Share on other sites

Сетевка качественная? Давно работает? Ядро не меняли?

У меня сыпало ошибки, когда паста на чипе высохла, правда другие.

Share this post


Link to post
Share on other sites

Сетевку менял, правда она была такойже модели. + Модули тоже.

Ядро было стандартным 3.2.0-4-amd64 на нем и всплыла данная проблема, решил попробовать взять из бекпортов... Ситуацию это не изменило.

Edited by kkz

Share this post


Link to post
Share on other sites

Данная ошибка _вроде-бы_ говорит об ошибке на PCI-Express шине. Нужно колупать в этом направлении.

И убедитесь, что карте достаточно питания и охлаждения (мощность БП, продув воздухом достаточный + остальное).

Share this post


Link to post
Share on other sites

[828057.738070] ixgbe 0000:02:00.0 eth2: Received unrecoverable ECC Err,initiating reset.

Все что ниже этой строчки (adapter reset и далее) уже следствие, так что можно не обращать внимания. В даташите сказано:

Unrecoverable ECC Error.

This bit is set when an unrecoverable error is detected in one of the device memories.

Software should issue a software reset following this error.

Если еще не меняли трансиверы, попробуйте все же поменять. Хотя не понятно, как они могут влиять на "device memories".

Share this post


Link to post
Share on other sites

Если еще не меняли трансиверы, попробуйте все же поменять. Хотя не понятно, как они могут влиять на "device memories".

Менялись...

 

Вчера собрал ядрышко по интелячиму мануалу, в этоге с дефолтыми дровами вылетел так:

[121020.944170] ixgbe 0000:02:00.1 eth2: tx hang (число варьируется) detected on queue XX, resetting adapter
[121020.944174] ixgbe 0000:02:00.1 eth2: initiating reset due to tx timeout
[121020.944328] ixgbe 0000:02:00.1 eth2: Reset adapter

 

Сейчас собраны последние дрова снова, пока живем (15 часов), но ощущение что сижу на пороховой бочке.

P.S. Ибо и просто без вмешательств сервер жил около 1.5 недели...

Edited by kkz

Share this post


Link to post
Share on other sites

Подниму тему, вылезла точь в точь таже проблема, собрал последние дрова, не помогло. Все это на Debian 8, радом второй такой же сервер, работает в боевом, конфиги один в один, но дебан 7 и дрова которые родные в системе, на нем все Ок. Куда копать?

Edited by dimmons

Share this post


Link to post
Share on other sites

В коде драйверай ixgbe никаких подробностей, оно описано как "ошибка ECC". Полагаю, речь идет либо о памяти сетевой (сомнительно) либо о передачи данных по шине, но я тоже не слышал ни о каком ECC у PCI-E. Полагаю, смена сетевой/замена SFP+ модуля.

 

Я полистал дата щит на ixgbe, и там тоже никаких подробностей про это дело.

Share this post


Link to post
Share on other sites

У меня, 2е сетевушки оказались бракованные (толи партия такая, толи еще что), 3 пашет с февраля и в ус не дует.

Все руки не доходят их поковырять, попробуй все-таки проверить охлаждение (как писалось выше), т.е. попробовать поменять термопасту на чипе... (В момент проблемы я этого не сделал, подумал что на обеих подряд... ну не бывает:)))

P.S.> Одна из сетевух (бракованных) перекочевала между 3мя нагруженными серверами и везде одно и тоже. Не думаю, что проблема в железках сервера.

Edited by kkz

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this