Jump to content

Recommended Posts

Posted (edited)

Добрый день.

 

Имеется Cisco ASR 1002, asr1000rp1-advipservices.03.01.02.S.150-1.S2.bin

Работал почти пол-года, без нареканий.

 

Две недели назад перестал подавать признаки жизни и перезагрузился:

Last reload reason: Critical software exception, check bootflash:crashinfo_RP_00_00_20111114-083947-MSK

В логах

%SYS-3-OVERRUN: Block overrun at 38D7E7B4 (red zone 304C4E20)
%SYS-6-MTRACE: mallocfree: addr, pc

 

На первый взгляд - проблемы с памятью, бывает, ставим себе задачу обновить IOS, подбираем подходящий.

 

Однако, неделю назад все повторилось.

В это же время, +- 5 минут, ASR опять перестал подавать признаки жизни.

Сам перезагрузиться не успел, коллеги перезагрузили по питанию.

Однако тоже начал делать crashinfo_RP_00_00_20111121-084500-MSK

 

В нем, в принципе, тоже ничего нового.

%SYS-3-OVERRUN:
%SYS-6-MTRACE:

+ отключился cef.

 

Кажется странным, что Cisco работала пол-года, а потом 2 недели подряд перезагружалась раз в неделю в одно и то же время.

Возможно, это просто совпадение.

Подскажите, как это дело грамотно локализовать, понять в чем причина и предотвратить возможный ребут в ближайшую неделю.

Сisco используется как BRAS, 2 full-wiew, NAT-a нет.

 

IOS не покупали, case открыть нет возможности.

Edited by n.lobanov
Posted (edited)

Тюнинга control-plane нет.

Сейчас читаю статью про это на cisco.com

http://www.cisco.com/web/about/security/intelligence/coppwp_gs.html

 

В итоге будет что-то похожее на:

policy-map control-plane-in
 class cp-critical-in
    police 128000 24000 48000 conform-action transmit exceed-action drop

class-map match-all cp-critical-in
 match protocol pppoe-discovery
 match protocol arp

control-plane
service-policy input control-plane-in

 

Пока, в качестве траблшутинга приходит только такая идея:

поскольку время предполагаемого ближайшего зависания/ребута системы известно,

подключиться в это время консолью(через COM-порт) и мониторить процессы, чтоб выяснить, что приводит к краху RP1.

Edited by n.lobanov
Posted

Cisco.com на мою попытку воспользоваться вашим советом отвечает

 

"The Output Interpreter is only available to registered Cisco.com users with a Cisco service contract."

 

Неделя прошла, сегодня перезагрузки не было.

Заметил, что какой-то broadcast трафик сильно грузит RP.

Заметил постфактум, на графиках mrtg.

При ближайшем подобном инциденте посмотрю процессы и возьму пробу трафика.

 

Не ясно, почему на DLink не отрабатывает механизм "traffic control"

Posted

Да прошу прошения, думал что там достаточно регистрированного акаунта бесплатного. Вывод sh align пустой? Крешинфо можете кинуть в личку попробую декодировать, если есть желание.

Posted

Кинул файлы в личку:

Crashinfo от 14 и от 21. за 21-е файл не до конца сформировался, вероятно, с ним ничего не выйдет.

 

Тут нет полезной информации.

#sh alignment
No alignment data recorded
No spurious memory references have been recorded

 

Кроме -Traceback=, было еще в огромном количестве:

Nov 21 07:45:47 asr-1000-01 260: Nov 21 08:45:46: rn_delete: null node
Nov 21 07:45:47 asr-1000-01 261: Nov 21 08:45:46: rn_delete: null node
Nov 21 07:45:47 asr-1000-01 262: Nov 21 08:45:46: rn_delete: null node
Nov 21 07:45:47 asr-1000-01 263: Nov 21 08:45:46: rn_delete: null node

Posted

Заметил, что какой-то broadcast трафик сильно грузит RP.

 

 

10 deny udp any host 255.255.255.255 (297624442 matches)

 

Такая штука от пользователей сильно грузит RP

Posted

Вот что удалось выяснить:

Загрузка CPU связана с наличием входящего бродкаст-трафика (Верхний график - загрузка RP, нижний - загрузка порта, pps broadcast):

post-80317-066731500 1322552974_thumb.png

В дампе видно, что это куча ARP-запросов + Gratuitous ARP

 

1859	0.139572	AsustekC_b6:0f:be	Broadcast	ARP	Who has 10.1.2.3?  Tell 169.254.158.195
1923	0.144200	f4:ec:38:9c:ec:13	Broadcast	ARP	Gratuitous ARP for 10.1.2.3 (Request)
1979	0.147581	AsustekC_b6:0f:be	Broadcast	ARP	Who has 10.1.2.3?  Tell 169.254.158.195
2063	0.154654	Tp-LinkT_de:d6:0f	Broadcast	ARP	Gratuitous ARP for 10.1.2.3 (Request) (duplicate use of 10.1.2.3 detected!)
1979	0.147581	AsustekC_b6:0f:be	Broadcast	ARP	Who has 10.1.2.3?  Tell 169.254.158.195
2078	0.156246	AsustekC_b6:0f:be	Broadcast	ARP	Who has 10.1.2.3?  Tell 169.254.158.195
2086	0.156246	AsustekC_b6:0f:be	Broadcast	ARP	Who has 10.1.2.3?  Tell 169.254.158.195

 

Alx65, подскажи, у тебя ACL приделан к Virtual-Template или к control-plane?

Где лучше такой трафик блокировать?

Posted

CoPP надо типа такого:

 

class-map match-all ARP
 match protocol arp
class-map match-all PPPOE-DISCOVERY
 match protocol pppoe-discovery
policy-map CONTROL-PLANE-POLICY
class ARP
  police rate 500 pps burst 100 packets
    conform-action transmit
    exceed-action drop
class PPPOE-DISCOVERY
  police rate 500 pps burst 100 packets
    conform-action transmit
    exceed-action drop
!
control-plane
service-policy input CONTROL-PLANE-POLICY

 

Если используется PPPoE то дополнительно:

 

call admission new-model
call admission limit 800
call admission cpu-limit 80
call admission pppoe 10 1

bba-group pppoe *
sessions per-vlan throttle 1000 10 60

 

Но даже при таких настройках флуд pppoe-discovery пакетами как минимум приведет к отказу в обслуживании, как максимум к забиванию буферов в ESP и полной потере коннективити на некоторое время.

Причем это может быть и уникаст трафик, например глюкнувшая CPE, генерящая уникастовые PADT может запросто уложить ASR.

Частично проблему можно сгладить загнав трафик с абонентских сабинтерфейсов в низкоприоритетную очередь, а с аплинков в высокоприоритетную.

 

interface TenGigabitEthernet0/0/0.xx
description PPPoE
[...]
plim qos input map cos  0 - 7 queue 0
!
interface TenGigabitEthernet0/0/0.yy
description Core
[...]
plim qos input map cos  0 - 7 queue strict-priority

 

Но от отказа в обслуживании это не спасет. per сабинтерфейс полисинг пока на стадии фичареквеста в BU.

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...
На сайте используются файлы cookie и сервисы аналитики для корректной работы форума и улучшения качества обслуживания. Продолжая использовать сайт, вы соглашаетесь с использованием файлов cookie и с Политикой конфиденциальности.