itt1b Posted May 12, 2015 Posted May 12, 2015 Имеется ASR1004 (RP10+ESP10). Рулит 2 BGP (не FV), ~1700 pppoe сессий, NAT выключен. Трафик смешной - ~1.8Gbps. Вчера два раза был краш ядра (я так понимаю), без перезагрузки шасси. Т.е. упало, само поднялось. На harddrive: появились файлы: crashinfo_RP_00_00_20150511-174711-EET xxxx_RP_0_linux_iosd-imag_20088.core.gz В tracelog видно такое: (ERR): %PMAN-3-RPSWITCH: RP switch initiated. Critical process linux_iosd-image has failed (rc 0) Конфигурация не менялась, нагрузка стандартная, железо тоже не менялось. До этого работало без крашей. sh environment - все статусы normal. Что это такое и как лечить в случае повторения? Вставить ник Quote
drovorub Posted May 12, 2015 Posted May 12, 2015 попробуйте посмотреть more harddrive:crashinfo_RP_00_00_20150511-174711-EET Вставить ник Quote
itt1b Posted May 12, 2015 Author Posted May 12, 2015 (edited) В crashinfo нашел такую запись: UNIX-EXT-SIGNAL: Segmentation fault(11), Process = DHCPD Receive Где-то как раз во время краша. В это же время лог на сервер (туда циска валит логи): %IOSXE-4-PLATFORM: R0/0: kernel: Process : linux_iosd-imag (12902) encountered fatal signal 11 Edited May 12, 2015 by itt1b Вставить ник Quote
itt1b Posted May 14, 2015 Author Posted May 14, 2015 Опять краш. Сейчас видно такое: May 14 18:35:20.692: %SYS-3-CPUHOG: Task is running for (2622)msecs, more than (2000)msecs (43/43),process = DHCPD Receive. Похоже, что виноват DHCPD. На циско пишут об этом так: https://tools.cisco.com/quickview/bug/CSCsz09924 Вставить ник Quote
alks Posted May 14, 2015 Posted May 14, 2015 Known Affected Releases 12.2(33)XN 12.2(33)XND какой-то странный релиз для ASR указан в баге покажите вашу версию ios XE Вставить ник Quote
itt1b Posted May 15, 2015 Author Posted May 15, 2015 Known Affected Releases 12.2(33)XN 12.2(33)XND какой-то странный релиз для ASR указан в баге покажите вашу версию ios XE #sh ver Cisco IOS Software, IOS-XE Software (PPC_LINUX_IOSD-ADVENTERPRISEK9-M), Version 15.1(2)S, RELEASE SOFTWARE (fc1) Подумываю вынести DHCP на сервер, а на циске настроить просто relay. Вставить ник Quote
alks Posted May 15, 2015 Posted May 15, 2015 ну попробуйте по свежее софт скажем 3.13 Вставить ник Quote
itt1b Posted May 15, 2015 Author Posted May 15, 2015 Теперь краш по памяти: May 15 11:58:21 xxxx 169: May 15 12:58:18.564: %SYS-2-MALLOCFAIL: Memory allocation of 32768 bytes failed from 0x124EEF90, alignment 0 May 15 11:58:21 xxxx 170: Pool: Processor Free: 941644 Cause: Memory fragmentation May 15 11:58:21 xxxx 171: Alternate Pool: None Free: 0 Cause: No Alternate pool May 15 11:58:21 xxxx 172: -Process= "BGP Router", ipl= 0, pid= 420 May 15 11:58:21 xxxx 173: -Traceback= 1#2f5bae8cef2209604dae63aec37a209a :10000000+D00584 :10000000+D00908 :10000000+24AE2C8 :10000000+24CEB64 :10000000+24EE F94 :10000000+16E7200 :10000000+16EAD54 :10000000+17B247C :10000000+17B5080 :10000000+3EBE10 :10000000+3EC5F0 :10000000+3EC8E8 :10000000+5530A68 :10000000+3EC A1C :10000000+38950C :10000000+39974C Сделали холодный рестарт. Это может быть взаимосвязано? Вставить ник Quote
s.lobanov Posted May 15, 2015 Posted May 15, 2015 памяти 4Гб? Пришло время резать fv? Вставить ник Quote
itt1b Posted May 15, 2015 Author Posted May 15, 2015 памяти 4Гб? Пришло время резать fv? Да, 4Гб. FV не принимаю, всего около 350к префиксов сейчас. Все дело в том, что работало нормально (долго), до того как DHCPD стал падать. Никаких глобальных реконфигураций. Попутный вопрос: как лучше порезать входящие префиксы, чтобы уж точно ничего от аплинков не прилетело лишнего? Вставить ник Quote
zhenya` Posted May 16, 2015 Posted May 16, 2015 Isg? Память на мониторинг добавьте. Два Иоса на одном рп? Если не нужно, то выключите.. Вставить ник Quote
itt1b Posted May 16, 2015 Author Posted May 16, 2015 Isg? Память на мониторинг добавьте. Два Иоса на одном рп? Если не нужно, то выключите.. ISG включен, да. Включен sso. Я так понимаю, что если выключить sso, то при краше ядра из-за DHCPD (с чего все и началось) циску надо ребутить вручную? Или таки вынести dhcp на сервер и отключить sso для экономии памяти? Просто прецедент уже есть, четкого понимания из-за чего - нет, а избежать повторения нужно. Для пиров я maximum-prefix включу, не вопрос, тогда даже если 2 FV выльют случайно - не упадет. Вставить ник Quote
zhenya` Posted May 16, 2015 Posted May 16, 2015 Если не будет второго иоса коробка уйдет в ребут.. Самопроизвольно Вставить ник Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.