Jump to content
Калькуляторы

EIGRP Holding time expired Cisco 3750

Коллеги, иногда Cisco 3750 теряет всех своих EIGRP соседей. Причем даже тех, которые находятся в одной с ней стойке. Интерфейсы при этом не падали. В логах:

 

001693: May 18 09:24:34 MSK: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1: Neighbor 10.100.20.41 (Vlan734) is down: holding time expired

001694: May 18 09:24:36 MSK: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1: Neighbor 10.100.33.153 (Vlan868) is down: holding time expired

001695: May 18 09:24:37 MSK: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1: Neighbor 10.100.6.205 (Vlan634) is down: holding time expired

001696: May 18 09:24:52 MSK: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1: Neighbor 10.100.32.153 (Vlan768) is down: holding time expired

001697: May 18 09:24:57 MSK: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1: Neighbor 10.100.33.157 (Vlan869) is down: holding time expired

001698: May 18 09:25:07 MSK: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1: Neighbor 10.100.32.157 (Vlan769) is down: holding time expired

001699: May 18 09:25:22 MSK: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1: Neighbor 10.100.33.153 (Vlan868) is up: new adjacency

001700: May 18 09:25:23 MSK: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1: Neighbor 10.100.20.41 (Vlan734) is up: new adjacency

001701: May 18 09:25:33 MSK: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1: Neighbor 10.100.6.205 (Vlan634) is up: new adjacency

 

router eigrp 1
!
address-family ipv4 vrf MGMT 
 network 10.100.5.20 0.0.0.0
 network 10.100.6.0 0.0.0.255
 network 10.100.13.0 0.0.0.255
 network 10.100.32.0 0.0.0.255
 autonomous-system 1
 eigrp router-id 10.100.5.20
exit-address-family
network 10.8.0.0 0.0.255.255
network 10.14.0.0 0.0.0.3
network 10.50.152.0 0.0.0.255
network 10.100.0.0 0.0.255.255
network 10.100.4.8 0.0.0.0
network 10.100.10.0 0.0.0.255
network 10.100.20.0 0.0.0.255
network 10.100.27.120 0.0.0.3
network 10.100.33.0 0.0.0.255
network 10.141.9.0 0.0.0.255
network 10.234.234.0 0.0.0.255
network 10.236.34.78 0.0.0.1
network 10.255.0.80 0.0.0.7
redistribute static
redistribute bgp 42XXX metric 1000000 2 255 1 1500 route-map BGP-TO-EIGRP
passive-interface Vlan180
passive-interface Vlan182
passive-interface Vlan183
passive-interface Vlan234
passive-interface Vlan538
passive-interface Vlan1870

К циске подключены несколько клиентов. Сейчас заметил, что не все клиентские интерфейсы помечены как passive. Могло это как-то повлиять?

 

Еще сейчас заметил, что был всплеск по ЦП до 100%, примерно в то время, когда пропадали соседи:

 

    1211111241111111112111112112112112111112112112119991111111
   5005746067654557762679540354832748616642761435668974753659
100                                                 *#*       
90                                                 *#*       
80                                                 *#*       
70                                                 *#*       
60                                                 *#*       
50         *                                       *#*       
40         *                                       ##*       
30         *                        *           *  ###       
20 ** ** ****** ********** * *** ** ** ** ****  ***### ** ***
10 ##########################################################
  0....5....1....1....2....2....3....3....4....4....5....5....
            0    5    0    5    0    5    0    5    0    5    
              CPU% per minute (last 60 minutes)
             * = maximum CPU%   # = average CPU%

Edited by fox_m

Share this post


Link to post
Share on other sites

ЦП=100% -> всё что обрабатывается процем упало.

Недавно снова повторилось, правда в меньших масштабах. Вот узнать бы, кто так проц нагрузил. Интервал времени, когда падение происходит, небольшой. Пока все клиентские интерфейсы перевел в passive и временно отключил опрос по SNMP.

Share this post


Link to post
Share on other sites

А шторм контрол точно настроен?

 

Нет, как раз не настроен. На клиентских портах мультикаст бегает (в нашу сторону). Имеет смысл шторм контроль настроить на них?

Share this post


Link to post
Share on other sites

Я бы настроил. Во-первых, как защита, ну и плюс мониторинг

Edited by VolanD666

Share this post


Link to post
Share on other sites

Я бы настроил. Во-первых, как защита, ну и плюс мониторинг

 

Попробую сделать. Жаль она не поддерживает CoPP

Share this post


Link to post
Share on other sites

Нет, как раз не настроен. На клиентских портах мультикаст бегает (в нашу сторону). Имеет смысл шторм контроль настроить на них?

Конечно имеет смысл, при "петлях" проблема чаще всего с броадкастом, его для начала и ограничьте.

Share this post


Link to post
Share on other sites

Не помешало бы еще писать графики по интерфейсам, на разные типы пакетов разные графики.

Share this post


Link to post
Share on other sites

Не помешало бы еще писать графики по интерфейсам, на разные типы пакетов разные графики.

 

Графики пишу (cacti), но обычные.

Share this post


Link to post
Share on other sites

удалось ли решить как-то проблему?

 

Просто на двух 3850 в стеке возникла подобная проблема.

 

Aug  9 15:36:53.496: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.9 (Vlan170) is up: new adjacency
Aug  9 15:37:26.836: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.9 (Vlan170) is down: holding time expired
Aug  9 15:37:32.998: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.9 (Vlan170) is up: new adjacency
Aug  9 15:37:48.434: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.12 (Vlan170) is down: holding time expired
Aug  9 15:38:02.257: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.12 (Vlan170) is up: new adjacency
Aug  9 15:38:03.056: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.9 (Vlan170) is down: holding time expired
Aug  9 15:38:12.288: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.9 (Vlan170) is up: new adjacency
Aug  9 15:38:27.826: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.12 (Vlan170) is down: holding time expired
Aug  9 15:38:32.118: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.9 (Vlan170) is down: holding time expired

 

 

про нагрузку проца

 

c3850-l0#sh proc cpu | ex 0.00
Core 0: CPU utilization for five seconds: 49%; one minute: 49%; five minutes: 49%
Core 1: CPU utilization for five seconds: 35%; one minute: 38%; five minutes: 38%
Core 2: CPU utilization for five seconds: 29%; one minute: 28%; five minutes: 28%
Core 3: CPU utilization for five seconds: 26%; one minute: 27%; five minutes: 26%
PID     Runtime(ms) Invoked   uSecs  5Sec 1Min 5Min TTY   Process
5332    7360        94254     78     0.04 0.02 0.04 0     system_mgr
5637    529835      71136886  128    14.3 14.3 14.3 1088  fed
5639    78330       3463115   22     0.41 0.40 0.36 0     stack-mgr
6279    4100        100223    40     0.04 0.01 0.03 0     console_relay
6284    1266860     13520552  93     2.04 2.04 2.02 0     pdsd
6292    156480      503033    311    0.45 0.64 0.63 0     ffm
6295    97210       110314    881    0.18 0.14 0.14 0     cpumemd
9265    98180       4182015   23     0.09 0.09 0.11 0     wcm
9269    211285      19328836  455    17.4 17.3 17.3 0     iosd

c3850-l0#

 

 

Share this post


Link to post
Share on other sites

Catalyst L3 Switch Software (CAT3K_CAA-UNIVERSALK9-M), Version 03.02.03.SE RELEASE SOFTWARE (fc2)

 

Switch Ports Model              SW Version        SW Image              Mode
------ ----- -----              ----------        ----------            ----
     1 56    WS-C3850-48P       03.02.03.SE       cat3k_caa-universalk9 INSTALL
     2 56    WS-C3850-48P       03.02.03.SE       cat3k_caa-universalk9 INSTALL

 

 

Share this post


Link to post
Share on other sites

Ну вероятно, как у топикстартера. Из-за загрузки CPU - падает контрол план. Поэтому те же самые вопросы: шторм контрол?, график ЦПУ в момент падения? Что мониторинг говорит? Можно мирроринг настроить, чтобы уже совсем глубоко копать. Не помню только, можно ли там настроть порт ЦПУ на мирроринг.... если да- тогда совсем все прекрасно.

Share this post


Link to post
Share on other sites

Этот стек - коммутатор ядра в одном из офисов.

Да, на коммутаторах пользователей шторм контрол включен, все нормально. Есть подозрения на сдыхающий проц или память. Но один хороший человек, посоветовал смотреть в сторону обновления софта.

Share this post


Link to post
Share on other sites
В 09.08.2018 в 15:52, kapydan сказал:

удалось ли решить как-то проблему?

 

Просто на двух 3850 в стеке возникла подобная проблема.

 

Aug  9 15:36:53.496: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.9 (Vlan170) is up: new adjacency
Aug  9 15:37:26.836: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.9 (Vlan170) is down: holding time expired
Aug  9 15:37:32.998: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.9 (Vlan170) is up: new adjacency
Aug  9 15:37:48.434: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.12 (Vlan170) is down: holding time expired
Aug  9 15:38:02.257: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.12 (Vlan170) is up: new adjacency
Aug  9 15:38:03.056: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.9 (Vlan170) is down: holding time expired
Aug  9 15:38:12.288: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.9 (Vlan170) is up: new adjacency
Aug  9 15:38:27.826: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.12 (Vlan170) is down: holding time expired
Aug  9 15:38:32.118: %DUAL-5-NBRCHANGE: EIGRP-IPv4 1008: Neighbor 172.16.8.9 (Vlan170) is down: holding time expired

 

 

про нагрузку проца

 

c3850-l0#sh proc cpu | ex 0.00
Core 0: CPU utilization for five seconds: 49%; one minute: 49%; five minutes: 49%
Core 1: CPU utilization for five seconds: 35%; one minute: 38%; five minutes: 38%
Core 2: CPU utilization for five seconds: 29%; one minute: 28%; five minutes: 28%
Core 3: CPU utilization for five seconds: 26%; one minute: 27%; five minutes: 26%
PID     Runtime(ms) Invoked   uSecs  5Sec 1Min 5Min TTY   Process
5332    7360        94254     78     0.04 0.02 0.04 0     system_mgr
5637    529835      71136886  128    14.3 14.3 14.3 1088  fed
5639    78330       3463115   22     0.41 0.40 0.36 0     stack-mgr
6279    4100        100223    40     0.04 0.01 0.03 0     console_relay
6284    1266860     13520552  93     2.04 2.04 2.02 0     pdsd
6292    156480      503033    311    0.45 0.64 0.63 0     ffm
6295    97210       110314    881    0.18 0.14 0.14 0     cpumemd
9265    98180       4182015   23     0.09 0.09 0.11 0     wcm
9269    211285      19328836  455    17.4 17.3 17.3 0     iosd

c3850-l0#

 

 

Повесил на все порты, которые уходят к партнерам storm-control, spanning-tree bpdu guard. Не знаю, это помогло или нет, но больше ситуация не повторялась.

Share this post


Link to post
Share on other sites

обновили софт  + заново пересобрали стек

 

Switch Ports Model              SW Version        SW Image              Mode
------ ----- -----              ----------        ----------            ----
*    1 56    WS-C3850-48P       16.6.4            CAT3K_CAA-UNIVERSALK9 BUNDLE
     2 56    WS-C3850-48P       16.6.4            CAT3K_CAA-UNIVERSALK9 BUNDLE

 

 

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this