Перейти к содержимому
Калькуляторы

Intel X520-DA2 Reset adapter Received unrecoverable ECC Err,initiating reset.

Добрый день всем!

 

На днях вылезла проблема:

[828057.738070] ixgbe 0000:02:00.0 eth2: Received unrecoverable ECC Err,initiating reset.
[828057.738093] ixgbe 0000:02:00.0 eth2: Reset adapter
[828057.738602] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 0 not cleared within the polling period
[828057.739125] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 1 not cleared within the polling period
[828057.739632] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 2 not cleared within the polling period
[828057.740122] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 3 not cleared within the polling period
[828057.740593] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 4 not cleared within the polling period
[828057.741067] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 5 not cleared within the polling period
[828057.741547] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 6 not cleared within the polling period
[828057.742042] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 7 not cleared within the polling period
[828057.742512] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 8 not cleared within the polling period
[828057.742972] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 9 not cleared within the polling period
[828057.743429] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 10 not cleared within the polling period
[828057.743884] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 11 not cleared within the polling period
[828057.744345] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 12 not cleared within the polling period
[828057.744775] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 13 not cleared within the polling period
[828057.745202] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 14 not cleared within the polling period
[828057.745620] ixgbe 0000:02:00.0 eth2: RXDCTL.ENABLE on Rx queue 15 not cleared within the polling period
[828058.083650] ixgbe 0000:02:00.0 eth2: detected SFP+: 5
[828058.335551] ixgbe 0000:02:00.0 eth2: NIC Link is Up 10 Gbps, Flow Control: RX/TX

 

Сама машина:

CPU: Intel(R) Xeon(R) CPU E5-2630 v3 @ 2.40GHz
Mem: 15977
Ethernet: Intel Corporation 82599EB 10-Gigabit SFI/SFP+ Network Connection.rev 01 (X520-DA2)
Debian 7, 3.16.0-0.bpo.4-amd64

 

Крутиться на ней quagga и bind, в час пик нагрузка около 5 Gbps и ~1-1.4 Mpps.

Драйвера для сетевухи - последние с офф. сайта, собранные без LRO. Очереди разбросаны по 16 ядрам, ht отключен.

 

126: 2343944650          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0  eth2-TxRx-0
127:          3 2221663243          0          0          0          0          0          0          0          0          0          0          0          0          0          0  eth2-TxRx-1
128:          3          0 2278684388          0          0          0          0          0          0          0          0          0          0          0          0          0  eth2-TxRx-2
129:          3          0          0 2376208485          0          0          0          0          0          0          0          0          0          0          0          0  eth2-TxRx-3
130:          3          0          0          0 2275752095          0          0          0          0          0          0          0          0          0          0          0  eth2-TxRx-4
131:          3          0          0          0          0 2334233450          0          0          0          0          0          0          0          0          0          0  eth2-TxRx-5
132:          3          0          0          0          0          0 2211507255          0          0          0          0          0          0          0          0          0  eth2-TxRx-6
133:          3          0          0          0          0          0          0 2309696926          0          0          0          0          0          0          0          0  eth2-TxRx-7
134:          3          0          0          0          0          0          0          0 2490353647          0          0          0          0          0          0          0  eth2-TxRx-8
135:          3          0          0          0          0          0          0          0          0 2307734000          0          0          0          0          0          0  eth2-TxRx-9
136:          3          0          0          0          0          0          0          0          0          0 2347207242          0          0          0          0          0  eth2-TxRx-10
137:          3          0          0          0          0          0          0          0          0          0          0 2347636028          0          0          0          0  eth2-TxRx-11
138:          3          0          0          0          0          0          0          0          0          0          0          0 2322374277          0          0          0  eth2-TxRx-12
139:          3          0          0          0          0          0          0          0          0          0          0          0          0 2292948892          0          0  eth2-TxRx-13
140:          6          0          0          0          0          0          0          0          0          0          0          0          0          0 2274135933          0  eth2-TxRx-14
141:          3          0          0          0          0          0          0          0          0          0          0          0          0          0          0 2288978897  eth2-TxRx-15
143: 3173771265          0          0          0          0          0          0          0          0          0          0          0          0          0          0          0  eth3-TxRx-0
144:          6 3032093901          0          0          0          0          0          0          0          0          0          0          0          0          0          0  eth3-TxRx-1
145:          6          0 3261623959          0          0          0          0          0          0          0          0          0          0          0          0          0  eth3-TxRx-2
146:         13          0          0 3280987826          0          0          0          0          0          0          0          0          0          0          0          0  eth3-TxRx-3
147:          6          0          0          0 3035500575          0          0          0          0          0          0          0          0          0          0          0  eth3-TxRx-4
148:          6          0          0          0          0 3106004962          0          0          0          0          0          0          0          0          0          0  eth3-TxRx-5
149:          6          0          0          0          0          0 3096512338          0          0          0          0          0          0          0          0          0  eth3-TxRx-6
150:          6          0          0          0          0          0          0 3215479615          0          0          0          0          0          0          0          0  eth3-TxRx-7
151:          6          0          0          0          0          0          0          0 3092134154          0          0          0          0          0          0          0  eth3-TxRx-8
152:          6          0          0          0          0          0          0          0          0 3143022384          0          0          0          0          0          0  eth3-TxRx-9
153:          6          0          0          0          0          0          0          0          0          0 3201174058          0          0          0          0          0  eth3-TxRx-10
154:          6          0          0          0          0          0          0          0          0          0          0 3251828680          0          0          0          0  eth3-TxRx-11
155:          6          0          0          0          0          0          0          0          0          0          0          0 3235153017          0          0          0  eth3-TxRx-12
156:          6          0          0          0          0          0          0          0          0          0          0          0          0 3017957310          0          0  eth3-TxRx-13
157:          6          0          0          0          0          0          0          0          0          0          0          0          0          0 3367424562          0  eth3-TxRx-14
158:          6          0          0          0          0          0          0          0          0          0          0          0          0          0          0 3242362642  eth3-TxRx-15

driver: ixgbe
version: 3.23.2
firmware-version: 0x2b2c0001
bus-info: 0000:02:00.0
supports-statistics: yes
supports-test: yes
supports-eeprom-access: yes
supports-register-dump: yes
supports-priv-flags: no

 

gso off gro off tso off...

Features for eth2:
rx-checksumming: on
tx-checksumming: on
       tx-checksum-ipv4: on
       tx-checksum-ip-generic: off [fixed]
       tx-checksum-ipv6: on
       tx-checksum-fcoe-crc: off [fixed]
       tx-checksum-sctp: on
scatter-gather: on
       tx-scatter-gather: on
       tx-scatter-gather-fraglist: off [fixed]
tcp-segmentation-offload: off
       tx-tcp-segmentation: off
       tx-tcp-ecn-segmentation: off [fixed]
       tx-tcp6-segmentation: off
udp-fragmentation-offload: off [fixed]
generic-segmentation-offload: off
generic-receive-offload: off
large-receive-offload: off
rx-vlan-offload: on
tx-vlan-offload: on
ntuple-filters: on
receive-hashing: on
highdma: on [fixed]
rx-vlan-filter: on [fixed]
vlan-challenged: off [fixed]
tx-lockless: off [fixed]
netns-local: off [fixed]
tx-gso-robust: off [fixed]
tx-fcoe-segmentation: off [fixed]
tx-gre-segmentation: off [fixed]
tx-ipip-segmentation: off [fixed]
tx-sit-segmentation: off [fixed]
tx-udp_tnl-segmentation: off [fixed]
tx-mpls-segmentation: off [fixed]
fcoe-mtu: off [fixed]
tx-nocache-copy: off
loopback: off [fixed]
rx-fcs: off [fixed]
rx-all: off [fixed]
tx-vlan-stag-hw-insert: off [fixed]
rx-vlan-stag-hw-parse: off [fixed]
rx-vlan-stag-filter: off [fixed]
l2-fwd-offload: off [fixed]
busy-poll: on [fixed]

 

Собственно сюда пишу уже от неимения своих мыслей по решению данной проблемы, излазил поисковики в доль и поперек... Надежда осталась только на вас!

Заранее спасибо.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Сетевка качественная? Давно работает? Ядро не меняли?

У меня сыпало ошибки, когда паста на чипе высохла, правда другие.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Сетевку менял, правда она была такойже модели. + Модули тоже.

Ядро было стандартным 3.2.0-4-amd64 на нем и всплыла данная проблема, решил попробовать взять из бекпортов... Ситуацию это не изменило.

Изменено пользователем kkz

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Данная ошибка _вроде-бы_ говорит об ошибке на PCI-Express шине. Нужно колупать в этом направлении.

И убедитесь, что карте достаточно питания и охлаждения (мощность БП, продув воздухом достаточный + остальное).

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

[828057.738070] ixgbe 0000:02:00.0 eth2: Received unrecoverable ECC Err,initiating reset.

Все что ниже этой строчки (adapter reset и далее) уже следствие, так что можно не обращать внимания. В даташите сказано:

Unrecoverable ECC Error.

This bit is set when an unrecoverable error is detected in one of the device memories.

Software should issue a software reset following this error.

Если еще не меняли трансиверы, попробуйте все же поменять. Хотя не понятно, как они могут влиять на "device memories".

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Если еще не меняли трансиверы, попробуйте все же поменять. Хотя не понятно, как они могут влиять на "device memories".

Менялись...

 

Вчера собрал ядрышко по интелячиму мануалу, в этоге с дефолтыми дровами вылетел так:

[121020.944170] ixgbe 0000:02:00.1 eth2: tx hang (число варьируется) detected on queue XX, resetting adapter
[121020.944174] ixgbe 0000:02:00.1 eth2: initiating reset due to tx timeout
[121020.944328] ixgbe 0000:02:00.1 eth2: Reset adapter

 

Сейчас собраны последние дрова снова, пока живем (15 часов), но ощущение что сижу на пороховой бочке.

P.S. Ибо и просто без вмешательств сервер жил около 1.5 недели...

Изменено пользователем kkz

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Подниму тему, вылезла точь в точь таже проблема, собрал последние дрова, не помогло. Все это на Debian 8, радом второй такой же сервер, работает в боевом, конфиги один в один, но дебан 7 и дрова которые родные в системе, на нем все Ок. Куда копать?

Изменено пользователем dimmons

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В коде драйверай ixgbe никаких подробностей, оно описано как "ошибка ECC". Полагаю, речь идет либо о памяти сетевой (сомнительно) либо о передачи данных по шине, но я тоже не слышал ни о каком ECC у PCI-E. Полагаю, смена сетевой/замена SFP+ модуля.

 

Я полистал дата щит на ixgbe, и там тоже никаких подробностей про это дело.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

У меня, 2е сетевушки оказались бракованные (толи партия такая, толи еще что), 3 пашет с февраля и в ус не дует.

Все руки не доходят их поковырять, попробуй все-таки проверить охлаждение (как писалось выше), т.е. попробовать поменять термопасту на чипе... (В момент проблемы я этого не сделал, подумал что на обеих подряд... ну не бывает:)))

P.S.> Одна из сетевух (бракованных) перекочевала между 3мя нагруженными серверами и везде одно и тоже. Не думаю, что проблема в железках сервера.

Изменено пользователем kkz

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.