Jump to content
Калькуляторы

Аномалия с IGMP snooping на каталистах, высокая загрузка CPU, танцы с бубном не помогают. Сон потерян. А когда есть снится IGMP Snooping

Всем привет. По причине потерянного сна пишу на форум, т.к. логика уже не поможет. Надеюсь, что кто-то сталкивался с подобным и знает как решить вопрос.

Итак, имеем сеть с IPTV, около 2500 абонентов с приставками. Приставки MAG250 и GDC-201.

Сеть L2 плоская, построена звездой. С головной станции, в которой Teleste Luminato и SM EMR отдельным гигабитом в отдельном VLAN весь Multicast приходит на Catalyst 6506e SUP720-3B, на котором работает PIM-SM и рутит этот мультикаст в VLAN домашних сетей. VLAN Range 96-110. Все сконфигурены идентично.

interface Vlan107

description *** homenet 13 mkr ***

ip address 10.0.40.1 255.255.252.0

no ip redirects

no ip unreachables

no ip proxy-arp

ip pim sparse-mode

ip igmp access-group igmp-filter

ip igmp query-interval 125

ip igmp snooping querier

ip igmp snooping access-group igmp-filter

ip igmp snooping limit 200

end

 

Далее трафик бежит к районному коммутатору распределения.

cat-18m#sh version

Model revision number : B0

Motherboard revision number : A0

Top Assembly Revision Number : A0

Version ID : V02

Daughterboard revision number : A0

 

Switch Ports Model SW Version SW Image

------ ----- ----- ---------- ----------

* 1 52 WS-C2960S-48TS-L 15.0(1)SE2 C2960S-UNIVERSALK9-M

 

cat-18m#sh ip igmp snooping vlan 107 detail

Global IGMP Snooping configuration:

-------------------------------------------

IGMP snooping : Enabled

IGMPv3 snooping (minimal) : Enabled

Report suppression : Enabled

TCN solicit query : Disabled

TCN flood query count : 2

Robustness variable : 2

Last member query count : 2

Last member query interval : 1000

 

Vlan 107:

--------

IGMP snooping : Enabled

CAPWAP enabled : Disabled

IGMPv2 immediate leave : Disabled

Multicast router learning mode : pim-dvmrp

CGMP interoperability mode : IGMP_ONLY

Robustness variable : 2

Last member query count : 2

Last member query interval : 1000Topology change : No

 

cat-18m#sh run | beg igmp

ip igmp profile 1

permit

range 239.10.1.0 239.10.2.255

 

interface GigabitEthernet1/0/23

description *** 13 MKRN ***

switchport trunk native vlan 997

switchport trunk allowed vlan 71,80,105,107,110,225,312

switchport mode trunk

switchport nonegotiate

srr-queue bandwidth share 45 40 8 7

srr-queue bandwidth shape 0 2 0 0

priority-queue out

mls qos cos override

mac access-group PPPoE_filter in

storm-control broadcast level 20.00

storm-control action shutdown

storm-control action trap

no cdp enable

spanning-tree guard root

no ip igmp snooping tcn flood

ip igmp filter 1

ip dhcp snooping limit rate 150

 

За этим коммутатором находится около 600 абонентов IPTV, сеть к ним расходится звездой до коммутаторов микрорайона.

 

С указанного выше порта, как и со всех 46 трафик идет к проблемному микрорайону и приходит гигабитным медяком на коммутатор распределения микрорайона Catalyst 2970G.

 

TKD15:0#sh ver

Model revision number : E0

Motherboard revision number : A0

Top Assembly Revision Number : H0

 

Switch Ports Model SW Version SW Image

------ ----- ----- ---------- ----------

* 1 24 WS-C2970G-24T-E 12.2(44)SE6 C2970-LANBASEK9-M

 

TKD15:0#sh run | beg igmp

ip igmp snooping vlan 105 mrouter interface Gi0/24

ip igmp snooping vlan 107 mrouter interface Gi0/24

ip igmp snooping vlan 110 mrouter interface Gi0/24

ip igmp profile 1

permit

range 239.10.1.0 239.10.2.255

 

TKD15:0#sh ip igmp snooping vlan 107 detail

Global IGMP Snooping configuration:

-------------------------------------------

IGMP snooping : Enabled

IGMPv3 snooping (minimal) : Enabled

Report suppression : Enabled

TCN solicit query : Disabled

TCN flood query count : 2

Robustness variable : 2

Last member query count : 2

Last member query interval : 1000

 

Vlan 107:

--------

IGMP snooping : Enabled

IGMPv2 immediate leave : Disabled

Multicast router learning mode : pim-dvmrp

CGMP interoperability mode : IGMP_ONLY

Robustness variable : 2

Last member query count : 2

Last member query interval : 1000

Topology change : No

 

interface GigabitEthernet0/11

description *** TKD15:10 Lipov, 9 7 pod ***

switchport trunk encapsulation dot1q

switchport trunk allowed vlan 71,107,312

switchport mode trunk

switchport protected

srr-queue bandwidth share 45 40 8 7

srr-queue bandwidth shape 0 2 0 0

priority-queue out

mls qos cos override

storm-control broadcast level 20.00

storm-control action shutdown

storm-control action trap

mac access-group PPPoE_filter in

no cdp enable

spanning-tree mst pre-standard

spanning-tree guard root

no ip igmp snooping tcn flood

ip igmp filter 1

 

От него идет соточными медками (пока, т.к. там по 1-3 абонента) на подъездные коммутаторы доступа catalyst 2950T-24

 

c2950-TKD15:10#sh version

Cisco Internetwork Operating System Software

IOS ™ C2950 Software (C2950-I6Q4L2-M), Version 12.1(22)EA14, RELEASE SOFTWARE (fc1)

cisco WS-C2950T-24 (RC32300) processor (revision R0) with 20956K bytes of memory.

Model revision number: R0

Motherboard revision number: A0

Model number: WS-C2950T-24

 

c2950-TKD15:10#sh run | beg igmp

ip igmp snooping vlan 105 mrouter interface Gi0/2

ip igmp snooping vlan 105 immediate-leave

ip igmp snooping vlan 107 mrouter interface Gi0/2

ip igmp snooping vlan 107 immediate-leave

ip igmp profile 1

permit

range 239.10.1.0 239.10.2.255

 

c2950-TKD15:10#sh ip igmp snooping vlan 107

Global IGMP Snooping configuration:

-----------------------------------

IGMP snooping : Enabled

IGMPv3 snooping (minimal) : Enabled

Report suppression : Enabled

TCN solicit query : Disabled

TCN flood query count : 2

Last member query interval : 1000

 

Vlan 107:

--------

IGMP snooping : Enabled

Immediate leave : Enabled

Multicast router learning mode : pim-dvmrp

Source only learning age timer : 10

Last member query interval : 1000

CGMP interoperability mode : IGMP_ONLY

 

 

Абонентский порт:

interface FastEthernet0/1

description *** HOME-NET USER ***

switchport access vlan 107

switchport mode access

switchport nonegotiate

switchport protected

switchport port-security

switchport port-security maximum 15

switchport port-security aging time 15

switchport port-security violation restrict

switchport port-security aging type inactivity

mls qos cos override

storm-control broadcast level 20.00

storm-control multicast level 50.00

storm-control action shutdown

storm-control action trap

no cdp enable

spanning-tree guard root

no ip igmp snooping tcn flood

ip igmp max-groups 5

ip igmp max-groups action replace

ip dhcp snooping limit rate 150

 

Собственно проблема в этом микрорайоне, в этом VLAN.

Как я говорил выше, за районным Catalyst 2960S около 600 абоноф, около 5 таких catalyst 2970G и наверное около 70 таких 2950T-24, Конфиги везде идентичные. В этот район идет 4 VLAN. Vlan 107 есть только на проблемном районе. В нем всего 10 коммутаторов доступа и 15 абонентов.

В VLAN кроме IGMP snooping и мультикаста, работают DHCP для абоноф и приставок и PPPoE для абонов. У самого абонента стоит либо wifi TPLink, c поддержкой igmp snooping и бриджеванием езернет порта для iptv приставки, либо Zyxel Keenetic lite с тем же функционалом.

 

И так везде, у всех 2500 тысяч абонентов в городе.

 

Итак проблема.

 

4d7c7259d16ct.jpg

 

http://s001.radikal.ru/i194/1206/91/4d7c7259d16c.jpg

 

Заражается весь сегмент, в том числе коммутатор распределения во всем районе catalyst 2960S, (левый верхний угол на скрине).

 

Итак, что я успел выяснить. Когда на некоторых из подъездных коммутаторов, абонент включает телевизор возникает загрузка CPU, как на скриншоте. Как результат полная деградация сервиса, картинка встает россыпью квадратов. Отправил людей, поменяли у всех абонов приставки и вайфайки. Не помогло. Отправил людей в подвалы к шкафам. Человек с приставкой включается напрямую в каталист 2950. Следим за группами с CPU, на некоторых цисках ничего, на некоторых ситуация начинается при быстром переключении каналов, но сразу спадает после того как переключение закончено, это ситуация №1. Но на паре адресов шторм не заканчивается пока не включишь абонентский порт, это ситуация №2. Иногда бывает поймал эту ситуацию, зашутдаунил порт, вроде загрузка упала, но через минуту опять началась видимо из-за других абонов. Рандомно шутдаунишь абонентов пока не найдешь того, из-за кого опять это происходит. В итоге набралось 3 циски 2950, с которых происходит ситуация №2, ситуация №1 происходит практически на всех цисках. На этих 3 узлах люди включались напрямую в медиаконвертор, т.е. по сути к напрямую к 2970G, в этом случае вообще все нормально. Заменили эти циски на такие же. Заменили соточные медяки. Толку нет.

Обратил внимание на то, что объединяет эти циски. Нашел, что они имеют одни аппаратные id:

 

Model revision number: R0

Motherboard revision number: A0

 

На других цисках на сегменте другие буквы, но это похоже на бред, т.к. каталисты с такими id прекрасно работают у меня в других местах сети.

 

К сожалению на складе только такие id остались, т.к. временный перебой с поставками.

Исключил петли, в логах на сегменте нету ничего, ни каких MAC флаппов. Spanning Tree в норме, TCN не часты.

 

Пытался дебажить igmp snooping, но понять там что-то довольно тяжело, т.к. и в нормальной ситуации, там валится довольно много всего. Но по ощущениям валится очень много QUERY от рутера. И иногда очень много REPORT-ов, но репорты по идее повредить не могут, т.к. как вы могли видеть из приведённых конфигов все порты в сегменте, включая распределительные порты на 2970G изолированы switchport protected. А на самом центральном коммутаторе 2960S 107 vlan есть только на одном порту.

 

В итоге, спокойствия я добился, только тогда, когда перевел абонентов с проблемных цисок в vlan в котором нет мультикаста и IGMP. Но это не выход!

 

В итоге сон пропал. Как быть не знаю, где-то явно косяк, но где непонятно. Если кто-то сумеет дочитать это галиматью до конца, вникнуть и что-то посоветовать. Буду очень благодарен. Как выловить? Как избавиться? Как предотвратить это в будущем?

 

Заранее спасибо.

Share this post


Link to post
Share on other sites

В общем проблему решили так:

 

На Syslog ни каких интересных сообщений зафиксировано не было.

Если включить debug ip igmp snooping, то в целом тоже ничего не понятно. Просто видно, что аномально много query и report.

А почему так много, не видно.

 

Проблему решали плясками с бубном. Решилась она когда мы заменили гигабитный медяк (комплект) и медные патчкорды :))), между районным распределением и микрорайонным распределением. Вопрос сразу же снялся.

Как медяк мог создавать аномальное количество IGMP флуда до сей поры тайна.

 

Всем спасибо за внимание.

Share this post


Link to post
Share on other sites
Guest martini

у медяков есть такое свойство - то МТУ больше определенного не прпускают, то хосты некоторые не пропускают.. вот нашелся еще один прикол - плодят левые igmp.

В основном такое после грозы или жары сильной.

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this