n.lobanov Posted November 22, 2011 Posted November 22, 2011 (edited) Добрый день. Имеется Cisco ASR 1002, asr1000rp1-advipservices.03.01.02.S.150-1.S2.bin Работал почти пол-года, без нареканий. Две недели назад перестал подавать признаки жизни и перезагрузился: Last reload reason: Critical software exception, check bootflash:crashinfo_RP_00_00_20111114-083947-MSK В логах %SYS-3-OVERRUN: Block overrun at 38D7E7B4 (red zone 304C4E20) %SYS-6-MTRACE: mallocfree: addr, pc На первый взгляд - проблемы с памятью, бывает, ставим себе задачу обновить IOS, подбираем подходящий. Однако, неделю назад все повторилось. В это же время, +- 5 минут, ASR опять перестал подавать признаки жизни. Сам перезагрузиться не успел, коллеги перезагрузили по питанию. Однако тоже начал делать crashinfo_RP_00_00_20111121-084500-MSK В нем, в принципе, тоже ничего нового. %SYS-3-OVERRUN: %SYS-6-MTRACE: + отключился cef. Кажется странным, что Cisco работала пол-года, а потом 2 недели подряд перезагружалась раз в неделю в одно и то же время. Возможно, это просто совпадение. Подскажите, как это дело грамотно локализовать, понять в чем причина и предотвратить возможный ребут в ближайшую неделю. Сisco используется как BRAS, 2 full-wiew, NAT-a нет. IOS не покупали, case открыть нет возможности. Edited November 22, 2011 by n.lobanov Вставить ник Quote
Bambuk Posted November 22, 2011 Posted November 22, 2011 CoPP для pppoe-discovery и arp настроен? Вставить ник Quote
n.lobanov Posted November 23, 2011 Author Posted November 23, 2011 (edited) Тюнинга control-plane нет. Сейчас читаю статью про это на cisco.com http://www.cisco.com/web/about/security/intelligence/coppwp_gs.html В итоге будет что-то похожее на: policy-map control-plane-in class cp-critical-in police 128000 24000 48000 conform-action transmit exceed-action drop class-map match-all cp-critical-in match protocol pppoe-discovery match protocol arp control-plane service-policy input control-plane-in Пока, в качестве траблшутинга приходит только такая идея: поскольку время предполагаемого ближайшего зависания/ребута системы известно, подключиться в это время консолью(через COM-порт) и мониторить процессы, чтоб выяснить, что приводит к краху RP1. Edited November 23, 2011 by n.lobanov Вставить ник Quote
SLon26 Posted November 28, 2011 Posted November 28, 2011 Подсуньте ваш crashinfo в Output Interpreter, возможно тот сможет декодировать коды и выдаст вам bugid, по вашему крешу. Вставить ник Quote
n.lobanov Posted November 28, 2011 Author Posted November 28, 2011 Cisco.com на мою попытку воспользоваться вашим советом отвечает "The Output Interpreter is only available to registered Cisco.com users with a Cisco service contract." Неделя прошла, сегодня перезагрузки не было. Заметил, что какой-то broadcast трафик сильно грузит RP. Заметил постфактум, на графиках mrtg. При ближайшем подобном инциденте посмотрю процессы и возьму пробу трафика. Не ясно, почему на DLink не отрабатывает механизм "traffic control" Вставить ник Quote
SLon26 Posted November 28, 2011 Posted November 28, 2011 Да прошу прошения, думал что там достаточно регистрированного акаунта бесплатного. Вывод sh align пустой? Крешинфо можете кинуть в личку попробую декодировать, если есть желание. Вставить ник Quote
n.lobanov Posted November 28, 2011 Author Posted November 28, 2011 Кинул файлы в личку: Crashinfo от 14 и от 21. за 21-е файл не до конца сформировался, вероятно, с ним ничего не выйдет. Тут нет полезной информации. #sh alignment No alignment data recorded No spurious memory references have been recorded Кроме -Traceback=, было еще в огромном количестве: Nov 21 07:45:47 asr-1000-01 260: Nov 21 08:45:46: rn_delete: null node Nov 21 07:45:47 asr-1000-01 261: Nov 21 08:45:46: rn_delete: null node Nov 21 07:45:47 asr-1000-01 262: Nov 21 08:45:46: rn_delete: null node Nov 21 07:45:47 asr-1000-01 263: Nov 21 08:45:46: rn_delete: null node Вставить ник Quote
Alx65 Posted November 29, 2011 Posted November 29, 2011 Заметил, что какой-то broadcast трафик сильно грузит RP. 10 deny udp any host 255.255.255.255 (297624442 matches) Такая штука от пользователей сильно грузит RP Вставить ник Quote
n.lobanov Posted November 29, 2011 Author Posted November 29, 2011 Вот что удалось выяснить: Загрузка CPU связана с наличием входящего бродкаст-трафика (Верхний график - загрузка RP, нижний - загрузка порта, pps broadcast): В дампе видно, что это куча ARP-запросов + Gratuitous ARP 1859 0.139572 AsustekC_b6:0f:be Broadcast ARP Who has 10.1.2.3? Tell 169.254.158.195 1923 0.144200 f4:ec:38:9c:ec:13 Broadcast ARP Gratuitous ARP for 10.1.2.3 (Request) 1979 0.147581 AsustekC_b6:0f:be Broadcast ARP Who has 10.1.2.3? Tell 169.254.158.195 2063 0.154654 Tp-LinkT_de:d6:0f Broadcast ARP Gratuitous ARP for 10.1.2.3 (Request) (duplicate use of 10.1.2.3 detected!) 1979 0.147581 AsustekC_b6:0f:be Broadcast ARP Who has 10.1.2.3? Tell 169.254.158.195 2078 0.156246 AsustekC_b6:0f:be Broadcast ARP Who has 10.1.2.3? Tell 169.254.158.195 2086 0.156246 AsustekC_b6:0f:be Broadcast ARP Who has 10.1.2.3? Tell 169.254.158.195 Alx65, подскажи, у тебя ACL приделан к Virtual-Template или к control-plane? Где лучше такой трафик блокировать? Вставить ник Quote
Bambuk Posted November 29, 2011 Posted November 29, 2011 CoPP надо типа такого: class-map match-all ARP match protocol arp class-map match-all PPPOE-DISCOVERY match protocol pppoe-discovery policy-map CONTROL-PLANE-POLICY class ARP police rate 500 pps burst 100 packets conform-action transmit exceed-action drop class PPPOE-DISCOVERY police rate 500 pps burst 100 packets conform-action transmit exceed-action drop ! control-plane service-policy input CONTROL-PLANE-POLICY Если используется PPPoE то дополнительно: call admission new-model call admission limit 800 call admission cpu-limit 80 call admission pppoe 10 1 bba-group pppoe * sessions per-vlan throttle 1000 10 60 Но даже при таких настройках флуд pppoe-discovery пакетами как минимум приведет к отказу в обслуживании, как максимум к забиванию буферов в ESP и полной потере коннективити на некоторое время. Причем это может быть и уникаст трафик, например глюкнувшая CPE, генерящая уникастовые PADT может запросто уложить ASR. Частично проблему можно сгладить загнав трафик с абонентских сабинтерфейсов в низкоприоритетную очередь, а с аплинков в высокоприоритетную. interface TenGigabitEthernet0/0/0.xx description PPPoE [...] plim qos input map cos 0 - 7 queue 0 ! interface TenGigabitEthernet0/0/0.yy description Core [...] plim qos input map cos 0 - 7 queue strict-priority Но от отказа в обслуживании это не спасет. per сабинтерфейс полисинг пока на стадии фичареквеста в BU. Вставить ник Quote
n.lobanov Posted November 30, 2011 Author Posted November 30, 2011 Bambuk, спасибо за развернутый ответ. Вставить ник Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.