itt1b Опубликовано 12 мая, 2015 Имеется ASR1004 (RP10+ESP10). Рулит 2 BGP (не FV), ~1700 pppoe сессий, NAT выключен. Трафик смешной - ~1.8Gbps. Вчера два раза был краш ядра (я так понимаю), без перезагрузки шасси. Т.е. упало, само поднялось. На harddrive: появились файлы: crashinfo_RP_00_00_20150511-174711-EET xxxx_RP_0_linux_iosd-imag_20088.core.gz В tracelog видно такое: (ERR): %PMAN-3-RPSWITCH: RP switch initiated. Critical process linux_iosd-image has failed (rc 0) Конфигурация не менялась, нагрузка стандартная, железо тоже не менялось. До этого работало без крашей. sh environment - все статусы normal. Что это такое и как лечить в случае повторения? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
drovorub Опубликовано 12 мая, 2015 попробуйте посмотреть more harddrive:crashinfo_RP_00_00_20150511-174711-EET Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
itt1b Опубликовано 12 мая, 2015 (изменено) В crashinfo нашел такую запись: UNIX-EXT-SIGNAL: Segmentation fault(11), Process = DHCPD Receive Где-то как раз во время краша. В это же время лог на сервер (туда циска валит логи): %IOSXE-4-PLATFORM: R0/0: kernel: Process : linux_iosd-imag (12902) encountered fatal signal 11 Изменено 12 мая, 2015 пользователем itt1b Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
itt1b Опубликовано 14 мая, 2015 Опять краш. Сейчас видно такое: May 14 18:35:20.692: %SYS-3-CPUHOG: Task is running for (2622)msecs, more than (2000)msecs (43/43),process = DHCPD Receive. Похоже, что виноват DHCPD. На циско пишут об этом так: https://tools.cisco.com/quickview/bug/CSCsz09924 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
alks Опубликовано 14 мая, 2015 Known Affected Releases 12.2(33)XN 12.2(33)XND какой-то странный релиз для ASR указан в баге покажите вашу версию ios XE Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
itt1b Опубликовано 15 мая, 2015 Known Affected Releases 12.2(33)XN 12.2(33)XND какой-то странный релиз для ASR указан в баге покажите вашу версию ios XE #sh ver Cisco IOS Software, IOS-XE Software (PPC_LINUX_IOSD-ADVENTERPRISEK9-M), Version 15.1(2)S, RELEASE SOFTWARE (fc1) Подумываю вынести DHCP на сервер, а на циске настроить просто relay. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
alks Опубликовано 15 мая, 2015 ну попробуйте по свежее софт скажем 3.13 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
itt1b Опубликовано 15 мая, 2015 Теперь краш по памяти: May 15 11:58:21 xxxx 169: May 15 12:58:18.564: %SYS-2-MALLOCFAIL: Memory allocation of 32768 bytes failed from 0x124EEF90, alignment 0 May 15 11:58:21 xxxx 170: Pool: Processor Free: 941644 Cause: Memory fragmentation May 15 11:58:21 xxxx 171: Alternate Pool: None Free: 0 Cause: No Alternate pool May 15 11:58:21 xxxx 172: -Process= "BGP Router", ipl= 0, pid= 420 May 15 11:58:21 xxxx 173: -Traceback= 1#2f5bae8cef2209604dae63aec37a209a :10000000+D00584 :10000000+D00908 :10000000+24AE2C8 :10000000+24CEB64 :10000000+24EE F94 :10000000+16E7200 :10000000+16EAD54 :10000000+17B247C :10000000+17B5080 :10000000+3EBE10 :10000000+3EC5F0 :10000000+3EC8E8 :10000000+5530A68 :10000000+3EC A1C :10000000+38950C :10000000+39974C Сделали холодный рестарт. Это может быть взаимосвязано? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
s.lobanov Опубликовано 15 мая, 2015 памяти 4Гб? Пришло время резать fv? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
itt1b Опубликовано 15 мая, 2015 памяти 4Гб? Пришло время резать fv? Да, 4Гб. FV не принимаю, всего около 350к префиксов сейчас. Все дело в том, что работало нормально (долго), до того как DHCPD стал падать. Никаких глобальных реконфигураций. Попутный вопрос: как лучше порезать входящие префиксы, чтобы уж точно ничего от аплинков не прилетело лишнего? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 16 мая, 2015 Isg? Память на мониторинг добавьте. Два Иоса на одном рп? Если не нужно, то выключите.. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
itt1b Опубликовано 16 мая, 2015 Isg? Память на мониторинг добавьте. Два Иоса на одном рп? Если не нужно, то выключите.. ISG включен, да. Включен sso. Я так понимаю, что если выключить sso, то при краше ядра из-за DHCPD (с чего все и началось) циску надо ребутить вручную? Или таки вынести dhcp на сервер и отключить sso для экономии памяти? Просто прецедент уже есть, четкого понимания из-за чего - нет, а избежать повторения нужно. Для пиров я maximum-prefix включу, не вопрос, тогда даже если 2 FV выльют случайно - не упадет. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 16 мая, 2015 Если не будет второго иоса коробка уйдет в ребут.. Самопроизвольно Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...