Jump to content
Калькуляторы

Nexus 3064 E-версия - проблемы с 40гб гнездами. "засыпают" до перезагрузки.

Доброго дня, коллеги.

 

Наткнулся на какой-то лютый косяк у nexus N3K-C3064PQ-10GE (на 4 шт точно), может кто-то сталкивался - побеждал/как именно ?

 

При втыкании/извлечении (бывает сразу, бывает с 2-3 цикла) модуля QSFP гнездо на шасси "засыпает", далее при втыкании модуля перестает работать (что опт. трансивер, что медный кабель). Когда гнездо "заснуло" светодиод занятости горит или в оранжевом (мол гнездо пустое) или не горит вообще - мол модуль есть, но линк не поднимается. Лечится только перезагрузкой. Никакие shut/no shut не помогают.

После перезагрузки гнезда работают нормально до след. цикла извлечения по какой-либо надобности. Хорошо их там 4, уже пара штук в работе, у которых по 2-3 гнезда "уснули", но линк на 40 работает в последнем гнезде.

 

При этом 10Гб гнезда работают без нареканий.

Share this post


Link to post
Share on other sites

Доброго дня, коллеги.

 

Наткнулся на какой-то лютый косяк у nexus N3K-C3064PQ-10GE (на 4 шт точно), может кто-то сталкивался - побеждал/как именно ?

 

При втыкании/извлечении (бывает сразу, бывает с 2-3 цикла) модуля QSFP гнездо на шасси "засыпает", далее при втыкании модуля перестает работать (что опт. трансивер, что медный кабель). Когда гнездо "заснуло" светодиод занятости горит или в оранжевом (мол гнездо пустое) или не горит вообще - мол модуль есть, но линк не поднимается. Лечится только перезагрузкой. Никакие shut/no shut не помогают.

После перезагрузки гнезда работают нормально до след. цикла извлечения по какой-либо надобности. Хорошо их там 4, уже пара штук в работе, у которых по 2-3 гнезда "уснули", но линк на 40 работает в последнем гнезде.

 

При этом 10Гб гнезда работают без нареканий.

Есть такой косяк на некоторых девайсах. Причем таким образом, что серийник отличается на 1-2 единицы: в одном есть косяк, в другом нет.

Скорее всего хардверный, так как и ап- и даунгрейдили.

 

 

методом тыка определили, что пихать в слот медленно надо, вытаскивать после того как сообщения в консоли перестают сыпаться.

Share this post


Link to post
Share on other sites

у нас 4 шт, на всех такой косяк. Может быть вы кол-во циклов туда/сюда не набирали, чтобы на всех ваших проявился :) Видимо что то аппаратное действительно.

Share this post


Link to post
Share on other sites

Сегодня на живом 40 гб линке между двумя Нексусами 3064 словили какой-то жуткий косяк:

 

вдруг на хорошей линии (по отп. показателям с модулей)начал мигать оранж/зеленый светодиод qsfp порта. На порту начали быстро расти input ошибки и что самое прикольное, одновременно начали падать/подниматься еще 4 гнезда по 10Гбит/с. Примерно раз в минуту, а то и чаще. Но, сам линк 40 гиг в логах не отражался как down/up. И показатель last flap по нему был порядка 4 недель.

 

2017 Aug 14 22:07:43 nex3064-mainpop.1 %ETHPORT-5-IF_DOWN_LINK_FAILURE: Interface Ethernet1/2 is down (Link failure)

2017 Aug 14 22:07:43 nex3064-mainpop.1 %ETHPORT-5-IF_DOWN_LINK_FAILURE: Interface Ethernet1/48 is down (Link failure)

2017 Aug 14 22:08:02 nex3064-mainpop.1 %ETHPORT-5-SPEED: Interface Ethernet1/2, operational speed changed to 10 Gbps

2017 Aug 14 22:08:02 nex3064-mainpop.1 %ETHPORT-5-IF_DUPLEX: Interface Ethernet1/2, operational duplex mode changed to Full

2017 Aug 14 22:08:02 nex3064-mainpop.1 %ETHPORT-5-IF_RX_FLOW_CONTROL: Interface Ethernet1/2, operational Receive Flow Control state changed to off

2017 Aug 14 22:08:02 nex3064-mainpop.1 %ETHPORT-5-IF_TX_FLOW_CONTROL: Interface Ethernet1/2, operational Transmit Flow Control state changed to off

2017 Aug 14 22:08:02 nex3064-mainpop.1 %ETHPORT-5-IF_UP: Interface Ethernet1/2 is up in mode trunk

2017 Aug 14 22:08:04 nex3064-mainpop.1 %ETHPORT-5-SPEED: Interface Ethernet1/48, operational speed changed to 10 Gbps

2017 Aug 14 22:08:04 nex3064-mainpop.1 %ETHPORT-5-IF_DUPLEX: Interface Ethernet1/48, operational duplex mode changed to Full

2017 Aug 14 22:08:04 nex3064-mainpop.1 %ETHPORT-5-IF_RX_FLOW_CONTROL: Interface Ethernet1/48, operational Receive Flow Control state changed to off

2017 Aug 14 22:08:04 nex3064-mainpop.1 %ETHPORT-5-IF_TX_FLOW_CONTROL: Interface Ethernet1/48, operational Transmit Flow Control state changed to off

2017 Aug 14 22:08:05 nex3064-mainpop.1 %ETHPORT-5-IF_UP: Interface Ethernet1/48 is up in mode trunk

2017 Aug 14 22:08:10 nex3064-mainpop.1 %ETHPORT-5-IF_DOWN_LINK_FAILURE: Interface Ethernet1/32 is down (Link failure)

2017 Aug 14 22:08:22 nex3064-mainpop.1 %ETHPORT-5-IF_DOWN_LINK_FAILURE: Interface Ethernet1/2 is down (Link failure)

2017 Aug 14 22:08:26 nex3064-mainpop.1 %ETHPORT-5-IF_DOWN_LINK_FAILURE: Interface Ethernet1/48 is down (Link failure)

2017 Aug 14 22:08:30 nex3064-mainpop.1 %ETHPORT-5-IF_DOWN_LINK_FAILURE: Interface Ethernet1/41 is down (Link failure)

2017 Aug 14 22:08:36 nex3064-mainpop.1 %ETHPORT-5-SPEED: Interface Ethernet1/2, operational speed changed to 10 Gbps

2017 Aug 14 22:08:36 nex3064-mainpop.1 %ETHPORT-5-IF_DUPLEX: Interface Ethernet1/2, operational duplex mode changed to Full

2017 Aug 14 22:08:36 nex3064-mainpop.1 %ETHPORT-5-IF_RX_FLOW_CONTROL: Interface Ethernet1/2, operational Receive Flow Control state changed to off

2017 Aug 14 22:08:36 nex3064-mainpop.1 %ETHPORT-5-IF_TX_FLOW_CONTROL: Interface Ethernet1/2, operational Transmit Flow Control state changed to off

2017 Aug 14 22:08:37 nex3064-mainpop.1 %ETHPORT-5-IF_DOWN_LINK_FAILURE: Interface Ethernet1/32 is down (Link failure)

2017 Aug 14 22:08:38 nex3064-mainpop.1 %ETHPORT-5-SPEED: Interface Ethernet1/48, operational speed changed to 10 Gbps

2017 Aug 14 22:08:38 nex3064-mainpop.1 %ETHPORT-5-IF_DUPLEX: Interface Ethernet1/48, operational duplex mode changed to Full

2017 Aug 14 22:08:38 nex3064-mainpop.1 %ETHPORT-5-IF_RX_FLOW_CONTROL: Interface Ethernet1/48, operational Receive Flow Control state changed to off

2017 Aug 14 22:08:38 nex3064-mainpop.1 %ETHPORT-5-IF_TX_FLOW_CONTROL: Interface Ethernet1/48, operational Transmit Flow Control state changed to off

2017 Aug 14 22:08:38 nex3064-mainpop.1 %ETHPORT-5-IF_UP: Interface Ethernet1/2 is up in mode trunk

2017 Aug 14 22:08:38 nex3064-mainpop.1 %ETHPORT-5-IF_UP: Interface Ethernet1/48 is up in mode trunk

2017 Aug 14 22:08:40 nex3064-mainpop.1 %ETHPORT-5-SPEED: Interface Ethernet1/41, operational speed changed to 10 Gbps

2017 Aug 14 22:08:40 nex3064-mainpop.1 %ETHPORT-5-IF_DUPLEX: Interface Ethernet1/41, operational duplex mode changed to Full

 

 

Если вытащить из гнезда модуль QSFP - остальные 4 гнезда по 10гиг перестают падать/подниматься. Вставляешь обратно QSFP - снова глюки. В конце концов разобрали линк 40 гиг на два по 10, благо хватило по полосе. И после этого снова полет нормальный.

 

Сам линк на 40 был запущен с полгода назад, все это время работал без нареканий. А сегодня прям взбесился. Мистика какая-то.

Share this post


Link to post
Share on other sites

у нас 4 шт, на всех такой косяк. Может быть вы кол-во циклов туда/сюда не набирали, чтобы на всех ваших проявился :) Видимо что то аппаратное действительно.

На 3548 точно такой косяк был, но не по циклам, а скорости туда/сюда :)

 

https://bst.cloudapps.cisco.com/bugsearch/bug/CSCuj69010

 

Вот в релиз нотах:

https://www.cisco.com/c/en/us/td/docs/switches/datacenter/nexus3548/sw/release_notes/602_A1_1/n3k_rel_notes_6_0_2_a1_1c.html#wp486397

Limitations

 

Cisco NX-OS Release 6.0(2)A1(1c) has the following limitation:

If you insert an SFP module and remove it immediately (under three seconds), there is a high chance that the SFP module will not get detected correctly by the system. To ensure that SFP modules are correctly detected, ensure that you allow at least three seconds between SFP insertion and removal operations. See CSCuc86978 for more details.

 

Другое дело что 3064 это совсем другая платформа. У вас какая версия софта?

Share this post


Link to post
Share on other sites

Тоже вылезла проблема с 40G портами на N3K-C3064PQ-10GE.

Сегодня стал подымать 4-ый 40G линк. Возникли проблемы с CRC ошибками. Начали менять оптику, патчи, модули. В итоге со стороны N3k  в порту, когда модуль извлечен следующая ситуация:

 

D-2# sh interface ethernet 1/52 transceiver
Ethernet1/52
    transceiver is present
    type is 40Gbase-SR
    name is CISCO-AVAGO
    part number is AFBR-79E4Z-CS1
    revision is 02
    serial number is AVP1525S301
    nominal bitrate is 10300 MBit/sec
    Link length supported for 50/125um OM3 fiber is 100 m
    Link length supported for 50/125um OM2 fiber is 30 m
    cisco id is --
    cisco extended id number is 16
 

Подключаешь другой модуль - коммутатор показывает, что модуля в порту нету. Версия софта version 6.0(2)U3(9). Кто нибудь сталкивался с подобной проблемой?

 

Share this post


Link to post
Share on other sites

Проблема-то есть, решения нету. В вашем случае только релоад похоже, причем нужный модуль уже должен быть в гнезде в момент релоада.

Share this post


Link to post
Share on other sites

On 8/14/2017 at 10:34 PM, Azamat said:

Сегодня на живом 40 гб линке между двумя Нексусами 3064 словили какой-то жуткий косяк:

 

вдруг на хорошей линии (по отп. показателям с модулей)начал мигать оранж/зеленый светодиод qsfp порта. На порту начали быстро расти input ошибки и что самое прикольное, одновременно начали падать/подниматься еще 4 гнезда по 10Гбит/с. Примерно раз в минуту, а то и чаще. Но, сам линк 40 гиг в логах не отражался как down/up. И показатель last flap по нему был порядка 4 недель.

...

 

Если вытащить из гнезда модуль QSFP - остальные 4 гнезда по 10гиг перестают падать/подниматься. Вставляешь обратно QSFP - снова глюки. В конце концов разобрали линк 40 гиг на два по 10, благо хватило по полосе. И после этого снова полет нормальный.

 

Сам линк на 40 был запущен с полгода назад, все это время работал без нареканий. А сегодня прям взбесился. Мистика какая-то.

Словили почти то же самое.

Один медный qsfp работает несколько месяцев, ещё стопку dropout, проработавших пару лет - разобрали.

Включили вместо них AOC.

Начали флапать все QSFP, с теми же симптомами.

Причём вместе с ними флапал и медный, который не трогали.

 

Никто решения не находил?

Edited by atdp03

Share this post


Link to post
Share on other sites

Мы подобрали производителя QSFP модулей, которые не убивают порты на Е модели нексуса. Изначально были Fiberstore - половина из 8 пар оказалась косячными.

 

Ethernet1/49
    transceiver is present
    type is 40Gbase-LR
    name is OEM
    part number is QSFP-40G-LR4
    revision is 1B
    serial number is CSQLRI10002
    nominal bitrate is 10300 MBit/sec
    Link length supported for SMF fiber is 10 km
    cisco id is --
    cisco extended id number is 192
 

 Last link flapped 8week(s) 0day(s)
 

У нас есть еще такой вопрос - можно ли прошивку из модулей нового производителя как то перелить в модули от Fiberstore ? Раз 15-20 перетыкали модули - ни разу порты не зависли. Модули FS убивали порт на 1-2 раз.

 

Share this post


Link to post
Share on other sites

В 23.04.2018 в 19:09, Azamat сказал:

Мы подобрали производителя QSFP модулей, которые не убивают порты на Е модели нексуса. Изначально были Fiberstore - половина из 8 пар оказалась косячными.

 

Ethernet1/49
    transceiver is present
    type is 40Gbase-LR
    name is OEM
    part number is QSFP-40G-LR4
    revision is 1B
    serial number is CSQLRI10002
    nominal bitrate is 10300 MBit/sec
    Link length supported for SMF fiber is 10 km
    cisco id is --
    cisco extended id number is 192
 

 Last link flapped 8week(s) 0day(s)
 

У нас есть еще такой вопрос - можно ли прошивку из модулей нового производителя как то перелить в модули от Fiberstore ? Раз 15-20 перетыкали модули - ни разу порты не зависли. Модули FS убивали порт на 1-2 раз.

 

Не подскажите, какого именно производителя подобрали? Раз словив такой глюк стараемся 40Г порты не трогать совсем, и больше года всё работает, но хотелось бы решить проблему.

Share this post


Link to post
Share on other sites

В 27.01.2019 в 18:52, Sergey R. сказал:

Не подскажите, какого именно производителя подобрали? Раз словив такой глюк стараемся 40Г порты не трогать совсем, и больше года всё работает, но хотелось бы решить проблему.

+1

Присоединяюсь к вопросу.

Share this post


Link to post
Share on other sites

Сейчас взял два нексуса и подёргал медные линки 40G. Выянилось вот что. При быстром вставлении и выдергивании модуля порт не успевает обработать событие и при воткнутом модуле думает, что его нет и наоборот - если модуль выдергиваешь, думает что он есть.

 

Лечится повторным передергиванием) После этого порт поднимается и всё работает. Без ребута. 

 

Проверял китайской медью прошитой под джун.

    type is QSFP-40G-CR4(Passive)
    name is OEM             
    part number is EX-QSFP-40GE-DAC

Софт 6.0(2)U6(8)

Share this post


Link to post
Share on other sites

У меня иногда подобные проблемы встречаются, но лечится все примерно так

enable
conf t
int eth1/10
shutdown
no shutdown

 

Share this post


Link to post
Share on other sites

1 час назад, FATHER_FBI сказал:

У меня иногда подобные проблемы встречаются, но лечится все примерно так


enable
conf t
int eth1/10
shutdown
no shutdown

Судя из вашего примера у вас проблема с 10G портами?

Share this post


Link to post
Share on other sites

С медными проблем совсем не замечали. Проблема именно с оптическими QSFP+

и если оптический модуль завесил порт, то выкл/вкл порта уже не поможет, только ждать ребута.

Share this post


Link to post
Share on other sites

В 14.08.2017 в 12:02, Azamat сказал:

Доброго дня, коллеги.

 

Наткнулся на какой-то лютый косяк у nexus N3K-C3064PQ-10GE (на 4 шт точно), может кто-то сталкивался - побеждал/как именно ?

 

При втыкании/извлечении (бывает сразу, бывает с 2-3 цикла) модуля QSFP гнездо на шасси "засыпает", далее при втыкании модуля перестает работать (что опт. трансивер, что медный кабель). Когда гнездо "заснуло" светодиод занятости горит или в оранжевом (мол гнездо пустое) или не горит вообще - мол модуль есть, но линк не поднимается. Лечится только перезагрузкой. Никакие shut/no shut не помогают.

После перезагрузки гнезда работают нормально до след. цикла извлечения по какой-либо надобности. Хорошо их там 4, уже пара штук в работе, у которых по 2-3 гнезда "уснули", но линк на 40 работает в последнем гнезде.

 

При этом 10Гб гнезда работают без нареканий.

 

Добрый день!

 

При использовании модулей SNR QSFP данной проблемы не наблюдается.

Предлагаем Вам попробовать себя в роли покупателя модулей SNR QSFP.

:)

Share this post


Link to post
Share on other sites

35 минут назад, Nikita Devyatyarov сказал:

При использовании модулей SNR QSFP данной проблемы не наблюдается.

Предлагаем Вам попробовать себя в роли покупателя модулей SNR QSFP.

Это троллинг такой? Проблема есть на всех модулях. Это даже сам вендор признал.

Share this post


Link to post
Share on other sites

В 23.04.2018 в 21:09, Azamat сказал:

Мы подобрали производителя QSFP модулей, которые не убивают порты на Е модели нексуса. Изначально были Fiberstore - половина из 8 пар оказалась косячными.

 

Ethernet1/49
    transceiver is present
    type is 40Gbase-LR
    name is OEM
    part number is QSFP-40G-LR4
    revision is 1B
    serial number is CSQLRI10002
    nominal bitrate is 10300 MBit/sec
    Link length supported for SMF fiber is 10 km
    cisco id is --
    cisco extended id number is 192
 

 Last link flapped 8week(s) 0day(s)
 

У нас есть еще такой вопрос - можно ли прошивку из модулей нового производителя как то перелить в модули от Fiberstore ? Раз 15-20 перетыкали модули - ни разу порты не зависли. Модули FS убивали порт на 1-2 раз.

 

3 часа назад, Azamat сказал:

С медными проблем совсем не замечали. Проблема именно с оптическими QSFP+

и если оптический модуль завесил порт, то выкл/вкл порта уже не поможет, только ждать ребута.

 

41 минуту назад, crank сказал:

Это троллинг такой? Проблема есть на всех модулях. Это даже сам вендор признал.

 

Можно уточнить, что именно признал вендор?

 

Share this post


Link to post
Share on other sites

Вот такие модули не капризничают

Ethernet1/15
    transceiver is present
    type is QSFP-40G-LR4
    name is OEM
    part number is QSFP-40G-LR4
    revision is 1B
    serial number is CSQLRI30006
    nominal bitrate is 10300 MBit/sec
    Link length supported for SMF fiber is 10 km
    cisco id is --
    cisco extended id number is 192
 

Кто производитель - хз. Но порты выдерживают по 6-8 перетыкиваний без зависания. Нам этого хватает.

Зато есть один зависший порт, воткнули/вынули модуль от FS, ждем нового года для плановой перезагрузки

 

Eth1/13       eth    40G     BAD PORT Reboot at NewYer

 

На медных кабелях ни разу не замечали подвисаний, как то раз 10-15 втыкали/вынимали.

 

Edited by Azamat

Share this post


Link to post
Share on other sites

В 12.07.2019 в 00:11, crank сказал:

Судя из вашего примера у вас проблема с 10G портами?

Откуда такие выводы?

image.thumb.png.ae7d310b545d70d0a20e243da1b28559.png

Share this post


Link to post
Share on other sites

4 часа назад, FATHER_FBI сказал:

Откуда такие выводы?

У вас номер порта был 1/10. Судя по последнему посту у вас не Cisco Nexus N3K-C3064PQ-10GE. В таком случае порты у вас как видно 40-ки

Share this post


Link to post
Share on other sites

Коллеги, просьба

 

кто с полей может подтвердить что озвученный Нагом workaround работает?

 

у кого есть SNR (или свои) трансиверы QSFP прошитые под медь которые адекватно работают в 3064?

Edited by bratan2

Share this post


Link to post
Share on other sites

ну имею в эксплуатации некоторое количество (больше двух десятков на текущий момент):

Cisco NEXUS N3K-C3064PQ-10GX
Cisco NEXUS N3K-C3064PQ-10GE

с данной проблемной не столкнулся пока НИ РАЗУ, правда есть пару НО (которые по моему мнению наверное с этим связаны):
1) используем коммутаторы на NX-OS v9.x(x), на текущий момент все работают на версии nxos.9.2.3.bin

 

2) все коммутаторы используются в режиме 48x10G+4x40G (принудительно задавали в конфигах).

3) есть как "пустые без лицензий", так и с полными Enterprise лицензиями.

4) у меня НЕ было возможности протестировать данные девайсы с QSFP модулями от NAG под нагрузкой, т.к. мы используем "китайские" модули QSFP или медные DAC-кабеля QSFP (если что торговая марка 10GTek)

 

P.S.

если нужна помощь по данным коммутаторам, обращайтесь с ними давно уже работаем и в целом как устройства на уровне "доступа" - очень даже довольны.

Share this post


Link to post
Share on other sites

On 8/5/2019 at 6:53 PM, AAS said:

ну имею в эксплуатации некоторое количество (больше двух десятков на текущий момент):

Cisco NEXUS N3K-C3064PQ-10GX
Cisco NEXUS N3K-C3064PQ-10GE

с данной проблемной не столкнулся пока НИ РАЗУ, правда есть пару НО (которые по моему мнению наверное с этим связаны):
1) используем коммутаторы на NX-OS v9.x(x), на текущий момент все работают на версии nxos.9.2.3.bin

 

2) все коммутаторы используются в режиме 48x10G+4x40G (принудительно задавали в конфигах).

3) есть как "пустые без лицензий", так и с полными Enterprise лицензиями.

4) у меня НЕ было возможности протестировать данные девайсы с QSFP модулями от NAG под нагрузкой, т.к. мы используем "китайские" модули QSFP или медные DAC-кабеля QSFP (если что торговая марка 10GTek)

  

P.S.

если нужна помощь по данным коммутаторам, обращайтесь с ними давно уже работаем и в целом как устройства на уровне "доступа" - очень даже довольны.

Есть мнение что подвисание портов с оптическими трансиверами происходят из-за не корректной работы DOM/DDM в этой модели нексусов.

У вас в оптике от 10GTek - есть поддержка DOM/DDM?

Если не сложно - выложите , пожалуйста, сюда информацию о трансиверах, которую выдает коммутатор?

 

Edited by bratan2

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.