Jump to content
Калькуляторы

Странный глюк на Cisco

Случилось у меня аварийное отключение стойки.

После включения возник какой-то сбой, но не могу понять откуда.

 

Ксть коммутатор Cisco Catalyst 3750G-12S, который выполняет всякие сервисные функции — сеть управления, внутренняя (локальная) сеть и т.п.

Конфигурация примерно такая:

ip subnet-zero
ip routing
vlan 10
name MGMT !управление
vlan 20
name SRV !внутренние сервера
vlan 60
name IPTV !мультикастовое IPTV
vlan 100
name EXTERNAL !публичные сервера, терминируются на другой железке
interface Loopback0
ip address 10.1.255.0 255.255.255.255
interface Vlan10
ip address 10.1.10.250 255.255.255.0
interface Vlan20
ip address 10.1.128.250 255.255.255.0
ip classless
ip route 0.0.0.0 0.0.0.0 10.1.255.250
ip route 10.0.0.0 255.0.0.0 Null0
ip route 10.0.0.0 255.255.0.0 10.1.255.250
ip route 10.1.144.0 255.255.255.0 10.1.255.100
ip route 10.1.255.1 255.255.255.255 10.1.255.255
ip route 10.1.255.2 255.255.255.255 10.1.255.255
ip route 10.1.255.3 255.255.255.255 10.1.255.255
ip route 10.1.255.100 255.255.255.255 10.1.10.254
ip route 10.1.255.250 255.255.255.255 10.1.3.250
ip route 10.1.255.251 255.255.255.255 10.1.3.254
ip route 10.1.255.255 255.255.255.255 10.1.3.1

 

Есть три коммутатора Cisco Catalyst 3750-24TS, соединенные в стек. Раньше он выполнял функции C3750G-12S, сейчас каких-то особых задач на нем нет, но кое-что осталось (igmp-querier и офисная сеть):

ip subnet-zero
ip routing
ip igmp snooping last-member-query-interval 30000
ip igmp snooping querier query-interval 50
ip igmp snooping querier max-response-time 25
ip igmp snooping querier
vlan 10
name MGMT !управление
vlan 20
name SRV !внутренние сервера
vlan 30
name OFFICE !офисная сеть организации
vlan 60
name IPTV !мультикастовое IPTV
vlan 100
name EXTERNAL !публичные сервера, терминируются на другой железке
interface Loopback0
ip address 10.1.255.100 255.255.255.255
interface Vlan10
ip address 10.1.10.254 255.255.255.0
interface Vlan20
ip address 10.1.128.1 255.255.255.0
interface Vlan30
ip address 10.1.144.1 255.255.255.0
ip classless
ip route 0.0.0.0 0.0.0.0 10.1.255.250
ip route 10.0.0.0 255.0.0.0 Null0
ip route 10.1.0.0 255.255.0.0 10.1.255.0
ip route 10.1.255.0 255.255.255.255 10.1.10.250

 

Офисная сеть (vlan 30) включается в порты C3750-24TS (100 Мбит/с).

Гигабитный портов у него нет, поэтому к нему еще подключен гигабитный L2-коммутатор, в который подключены сервера и сервисы (vlan 20 и vlan 100).

vlan 10, 20, 30 терминируются на C3750G-12S, vlan 100 терминируется выше, на Cisco 7201.

 

Суть глюка.

С офисной сети (10.1.144.0/24) не пинговался 10.1.144.1.

На C3750-24TS была почти 100% утилизация CPU (в топе был ARP-Input).

Время от времени 10.1.144.1 начинал пинговаться, также пинговался 10.1.255.100. Но 10.1.255.0 или другой IP с C3750G-12S не пинговался.

На C3750G-12S также была почти 100% утилизация CPU, также в топе был ARP-Input.

 

Отключил аплинк, перегрузил оба каталиста.

После перезагрузки стало чуть лучше, но CPU на обоих каталистах по прежнему чем-то загружен на 70-90% (временами до 95%). При этом в sh proc cpu sorted каких-либо подозреваемых нет — в топе IGMP Snooping (около 15%), затем ARP Input (5-10%), затем еще несколько процессов по проценту и далее доли процента и нули. Если просуммировать, будет максимум 50%, а не 80.

Также после перезагрузки начал наконец ходить трафик, но как-то странно. С офисной сети на сервера я захожу, но они не пингуются. То есть либо что-то блокирует ICMP, либо ICMP дропается циской из-за большой загрузки.

Share this post


Link to post
Share on other sites

Как можно просмотреть, чем загружен коробок?

CPU utilization for five seconds: 99%/95%; one minute: 99%; five minutes: 90%
PID Runtime(ms)   Invoked      uSecs   5Sec   1Min   5Min TTY Process 
 71      453980     45757       9921  3.35%  3.26%  3.02%   0 IP Input         
116       14240      2210       6443  0.31%  0.16%  0.10%   0 DHCPD Receive    
 26       57700     37104       1555  0.23%  0.25%  0.29%   0 ARP Input        
105        3392      1554       2182  0.07%  0.03%  0.01%   0 CEF: IPv4 proces 
169       29664     68746        431  0.07%  0.08%  0.11%   0 Net Input        
 70        1888       359       5259  0.07%  0.01%  0.00%   0 IP ARP Adjacency 
  6           0         2          0  0.00%  0.00%  0.00%   0 Timers           
  7           0         2          0  0.00%  0.00%  0.00%   0 Serial Backgroun 
  5          88       125        704  0.00%  0.00%  0.00%   0 Pool Manager     
 10           0         2          0  0.00%  0.00%  0.00%   0 ATM VC Auto Crea 
  8           0         2          0  0.00%  0.00%  0.00%   0 ATM Idle Timer   
  9           0         2          0  0.00%  0.00%  0.00%   0 ATM AutoVC Perio 
 11          12       192         62  0.00%  0.00%  0.00%   0 ALARM_TRIGGER_SC 
 14           0         1          0  0.00%  0.00%  0.00%   0 Policy Manager   
 15           0         1          0  0.00%  0.00%  0.00%   0 Crash writer     
 16        1856     11719        158  0.00%  0.00%  0.00%   0 EnvMon           
 12           0         1          0  0.00%  0.00%  0.00%   0 AAA_SERVER_DEADT 
  4        3404       176      19340  0.00%  0.01%  0.00%   0 Check heaps      
 19           0         1          0  0.00%  0.00%  0.00%   0 IPC Zone Manager 
 13           0         2          0  0.00%  0.00%  0.00%   0 AAA high-capacit

 End = e   Freeze = f   

Share this post


Link to post
Share on other sites

У вас 95% загрузки - софтсвитчинг.

 

Либо TCAM кончился, либо PBR с Deny, либо что еще из этого списка

 

Если с TCAM все в порядке и PBR не используете - можно посмотреть какой трафик валит на CPU

show controllers cpu-interface

Share this post


Link to post
Share on other sites

ip route 10.0.0.0 255.0.0.0 Null0

 

1. Может ошибаюсь но вроде как где то встречал что такой маршрут скидывает трафик на CPU.

2. proxy-arp вам действительно нужен на всех интерфейсах?

3. dhcp server выключен?

Share this post


Link to post
Share on other sites

Вообщем проблемы разрешил радикально, обнулил настройки и настроил заново.

Видимо с конфигурацией где-то накосячил, сейчас проблем нет.

 

Такой вопрос.

Есть ядро и несколько железок, подключенных к нему транспортными L3-интерфейсами, примерно так:

vlan 201,202,203,...
int vlan 201
ip address 10.0.0.1 255.255.255.252
int vlan 202
ip address 10.0.0.5 255.255.255.252
int vlan 203
ip address 10.0.0.9 255.255.255.252

Младщий адрес PE, старший адрес CE (задан на другой стороне).

Также на подключенных устройствах созданы петлевые интерфейсы с маской /32, а на ядре созданы маршруты на них:

ip route 10.0.255.1 255.255.255.255 10.0.0.2
ip route 10.0.255.2 255.255.255.255 10.0.0.6
ip route 10.0.255.3 255.255.255.255 10.0.0.10

Каждая железка обслуживает свою подсеть (первая 10.1.0.0/16, вторая 10.2.0.0/16 и т.д.).

Задаю маршруты статикой, используя в качестве next-hop не линковый интерфейс, а петлевой:

ip route 10.1.0.0 255.255.0.0 10.0.255.1
ip route 10.2.0.0 255.255.0.0 10.0.255.2
ip route 10.3.0.0 255.255.0.0 10.0.255.3

Так и выглядит красивее, и менять адресацию проще.

Но я подумал, что может быть из-за этого и были проблемы?

Сейчас перестраховался и переписал так:

ip route 10.1.0.0 255.255.0.0 10.0.0.2
ip route 10.2.0.0 255.255.0.0 10.0.0.6
ip route 10.3.0.0 255.255.0.0 10.0.0.10

 

Работают оба варианта, но если возможно, я бы хотел использовать первый.

Есть ли разница?

 

1. Может ошибаюсь но вроде как где то встречал что такой маршрут скидывает трафик на CPU.

2. proxy-arp вам действительно нужен на всех интерфейсах?

3. dhcp server выключен?

1. У меня дефолтный маршрут прописан и IP-адресация разрежена. Если не отправлять в null несуществующие хосты/подсети, то начнется пинг-понг.

2. Поясните? Обмена трафиком по L2 там не будет, трафик в основном идет наверх, а если и будет межпортовый трафик, то он будет по L3.

3. На Cisco 7201 включен. На каталистах выключен, был включен dhcp-snooping, его выключал — не помогло.

Share this post


Link to post
Share on other sites

Работают оба варианта, но если возможно, я бы хотел использовать первый.

Есть ли разница?

А использовать лучше второй.

Есть целая статья на этот счет http://habrahabr.ru/post/174167/

Share this post


Link to post
Share on other sites

Понятно.

Возможно у меня как раз логическая петля и arp-шторм случились.

Share this post


Link to post
Share on other sites

2. Поясните? Обмена трафиком по L2 там не будет, трафик в основном идет наверх, а если и будет межпортовый трафик, то он будет по L3.

Если вкратце - для обычной локалки proxy-arp не нужен а нужен если используется ip-unnambered или supervlan.

Share this post


Link to post
Share on other sites

Если вкратце - для обычной локалки proxy-arp не нужен а нужен если используется ip-unnambered или supervlan.

Так я его и не включал.

Или он включен по умолчанию и его нужно отключать?

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this