itt1b Posted May 12, 2015 · Report post Имеется ASR1004 (RP10+ESP10). Рулит 2 BGP (не FV), ~1700 pppoe сессий, NAT выключен. Трафик смешной - ~1.8Gbps. Вчера два раза был краш ядра (я так понимаю), без перезагрузки шасси. Т.е. упало, само поднялось. На harddrive: появились файлы: crashinfo_RP_00_00_20150511-174711-EET xxxx_RP_0_linux_iosd-imag_20088.core.gz В tracelog видно такое: (ERR): %PMAN-3-RPSWITCH: RP switch initiated. Critical process linux_iosd-image has failed (rc 0) Конфигурация не менялась, нагрузка стандартная, железо тоже не менялось. До этого работало без крашей. sh environment - все статусы normal. Что это такое и как лечить в случае повторения? Share this post Link to post Share on other sites
drovorub Posted May 12, 2015 · Report post попробуйте посмотреть more harddrive:crashinfo_RP_00_00_20150511-174711-EET Share this post Link to post Share on other sites
itt1b Posted May 12, 2015 (edited) · Report post В crashinfo нашел такую запись: UNIX-EXT-SIGNAL: Segmentation fault(11), Process = DHCPD Receive Где-то как раз во время краша. В это же время лог на сервер (туда циска валит логи): %IOSXE-4-PLATFORM: R0/0: kernel: Process : linux_iosd-imag (12902) encountered fatal signal 11 Edited May 12, 2015 by itt1b Share this post Link to post Share on other sites
itt1b Posted May 14, 2015 · Report post Опять краш. Сейчас видно такое: May 14 18:35:20.692: %SYS-3-CPUHOG: Task is running for (2622)msecs, more than (2000)msecs (43/43),process = DHCPD Receive. Похоже, что виноват DHCPD. На циско пишут об этом так: https://tools.cisco.com/quickview/bug/CSCsz09924 Share this post Link to post Share on other sites
alks Posted May 14, 2015 · Report post Known Affected Releases 12.2(33)XN 12.2(33)XND какой-то странный релиз для ASR указан в баге покажите вашу версию ios XE Share this post Link to post Share on other sites
itt1b Posted May 15, 2015 · Report post Known Affected Releases 12.2(33)XN 12.2(33)XND какой-то странный релиз для ASR указан в баге покажите вашу версию ios XE #sh ver Cisco IOS Software, IOS-XE Software (PPC_LINUX_IOSD-ADVENTERPRISEK9-M), Version 15.1(2)S, RELEASE SOFTWARE (fc1) Подумываю вынести DHCP на сервер, а на циске настроить просто relay. Share this post Link to post Share on other sites
alks Posted May 15, 2015 · Report post ну попробуйте по свежее софт скажем 3.13 Share this post Link to post Share on other sites
itt1b Posted May 15, 2015 · Report post Теперь краш по памяти: May 15 11:58:21 xxxx 169: May 15 12:58:18.564: %SYS-2-MALLOCFAIL: Memory allocation of 32768 bytes failed from 0x124EEF90, alignment 0 May 15 11:58:21 xxxx 170: Pool: Processor Free: 941644 Cause: Memory fragmentation May 15 11:58:21 xxxx 171: Alternate Pool: None Free: 0 Cause: No Alternate pool May 15 11:58:21 xxxx 172: -Process= "BGP Router", ipl= 0, pid= 420 May 15 11:58:21 xxxx 173: -Traceback= 1#2f5bae8cef2209604dae63aec37a209a :10000000+D00584 :10000000+D00908 :10000000+24AE2C8 :10000000+24CEB64 :10000000+24EE F94 :10000000+16E7200 :10000000+16EAD54 :10000000+17B247C :10000000+17B5080 :10000000+3EBE10 :10000000+3EC5F0 :10000000+3EC8E8 :10000000+5530A68 :10000000+3EC A1C :10000000+38950C :10000000+39974C Сделали холодный рестарт. Это может быть взаимосвязано? Share this post Link to post Share on other sites
s.lobanov Posted May 15, 2015 · Report post памяти 4Гб? Пришло время резать fv? Share this post Link to post Share on other sites
itt1b Posted May 15, 2015 · Report post памяти 4Гб? Пришло время резать fv? Да, 4Гб. FV не принимаю, всего около 350к префиксов сейчас. Все дело в том, что работало нормально (долго), до того как DHCPD стал падать. Никаких глобальных реконфигураций. Попутный вопрос: как лучше порезать входящие префиксы, чтобы уж точно ничего от аплинков не прилетело лишнего? Share this post Link to post Share on other sites
zhenya` Posted May 16, 2015 · Report post Isg? Память на мониторинг добавьте. Два Иоса на одном рп? Если не нужно, то выключите.. Share this post Link to post Share on other sites
itt1b Posted May 16, 2015 · Report post Isg? Память на мониторинг добавьте. Два Иоса на одном рп? Если не нужно, то выключите.. ISG включен, да. Включен sso. Я так понимаю, что если выключить sso, то при краше ядра из-за DHCPD (с чего все и началось) циску надо ребутить вручную? Или таки вынести dhcp на сервер и отключить sso для экономии памяти? Просто прецедент уже есть, четкого понимания из-за чего - нет, а избежать повторения нужно. Для пиров я maximum-prefix включу, не вопрос, тогда даже если 2 FV выльют случайно - не упадет. Share this post Link to post Share on other sites
zhenya` Posted May 16, 2015 · Report post Если не будет второго иоса коробка уйдет в ребут.. Самопроизвольно Share this post Link to post Share on other sites