itt1b Опубликовано 12 мая, 2015 · Жалоба Имеется ASR1004 (RP10+ESP10). Рулит 2 BGP (не FV), ~1700 pppoe сессий, NAT выключен. Трафик смешной - ~1.8Gbps. Вчера два раза был краш ядра (я так понимаю), без перезагрузки шасси. Т.е. упало, само поднялось. На harddrive: появились файлы: crashinfo_RP_00_00_20150511-174711-EET xxxx_RP_0_linux_iosd-imag_20088.core.gz В tracelog видно такое: (ERR): %PMAN-3-RPSWITCH: RP switch initiated. Critical process linux_iosd-image has failed (rc 0) Конфигурация не менялась, нагрузка стандартная, железо тоже не менялось. До этого работало без крашей. sh environment - все статусы normal. Что это такое и как лечить в случае повторения? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
drovorub Опубликовано 12 мая, 2015 · Жалоба попробуйте посмотреть more harddrive:crashinfo_RP_00_00_20150511-174711-EET Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
itt1b Опубликовано 12 мая, 2015 (изменено) · Жалоба В crashinfo нашел такую запись: UNIX-EXT-SIGNAL: Segmentation fault(11), Process = DHCPD Receive Где-то как раз во время краша. В это же время лог на сервер (туда циска валит логи): %IOSXE-4-PLATFORM: R0/0: kernel: Process : linux_iosd-imag (12902) encountered fatal signal 11 Изменено 12 мая, 2015 пользователем itt1b Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
itt1b Опубликовано 14 мая, 2015 · Жалоба Опять краш. Сейчас видно такое: May 14 18:35:20.692: %SYS-3-CPUHOG: Task is running for (2622)msecs, more than (2000)msecs (43/43),process = DHCPD Receive. Похоже, что виноват DHCPD. На циско пишут об этом так: https://tools.cisco.com/quickview/bug/CSCsz09924 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
alks Опубликовано 14 мая, 2015 · Жалоба Known Affected Releases 12.2(33)XN 12.2(33)XND какой-то странный релиз для ASR указан в баге покажите вашу версию ios XE Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
itt1b Опубликовано 15 мая, 2015 · Жалоба Known Affected Releases 12.2(33)XN 12.2(33)XND какой-то странный релиз для ASR указан в баге покажите вашу версию ios XE #sh ver Cisco IOS Software, IOS-XE Software (PPC_LINUX_IOSD-ADVENTERPRISEK9-M), Version 15.1(2)S, RELEASE SOFTWARE (fc1) Подумываю вынести DHCP на сервер, а на циске настроить просто relay. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
alks Опубликовано 15 мая, 2015 · Жалоба ну попробуйте по свежее софт скажем 3.13 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
itt1b Опубликовано 15 мая, 2015 · Жалоба Теперь краш по памяти: May 15 11:58:21 xxxx 169: May 15 12:58:18.564: %SYS-2-MALLOCFAIL: Memory allocation of 32768 bytes failed from 0x124EEF90, alignment 0 May 15 11:58:21 xxxx 170: Pool: Processor Free: 941644 Cause: Memory fragmentation May 15 11:58:21 xxxx 171: Alternate Pool: None Free: 0 Cause: No Alternate pool May 15 11:58:21 xxxx 172: -Process= "BGP Router", ipl= 0, pid= 420 May 15 11:58:21 xxxx 173: -Traceback= 1#2f5bae8cef2209604dae63aec37a209a :10000000+D00584 :10000000+D00908 :10000000+24AE2C8 :10000000+24CEB64 :10000000+24EE F94 :10000000+16E7200 :10000000+16EAD54 :10000000+17B247C :10000000+17B5080 :10000000+3EBE10 :10000000+3EC5F0 :10000000+3EC8E8 :10000000+5530A68 :10000000+3EC A1C :10000000+38950C :10000000+39974C Сделали холодный рестарт. Это может быть взаимосвязано? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
s.lobanov Опубликовано 15 мая, 2015 · Жалоба памяти 4Гб? Пришло время резать fv? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
itt1b Опубликовано 15 мая, 2015 · Жалоба памяти 4Гб? Пришло время резать fv? Да, 4Гб. FV не принимаю, всего около 350к префиксов сейчас. Все дело в том, что работало нормально (долго), до того как DHCPD стал падать. Никаких глобальных реконфигураций. Попутный вопрос: как лучше порезать входящие префиксы, чтобы уж точно ничего от аплинков не прилетело лишнего? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 16 мая, 2015 · Жалоба Isg? Память на мониторинг добавьте. Два Иоса на одном рп? Если не нужно, то выключите.. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
itt1b Опубликовано 16 мая, 2015 · Жалоба Isg? Память на мониторинг добавьте. Два Иоса на одном рп? Если не нужно, то выключите.. ISG включен, да. Включен sso. Я так понимаю, что если выключить sso, то при краше ядра из-за DHCPD (с чего все и началось) циску надо ребутить вручную? Или таки вынести dhcp на сервер и отключить sso для экономии памяти? Просто прецедент уже есть, четкого понимания из-за чего - нет, а избежать повторения нужно. Для пиров я maximum-prefix включу, не вопрос, тогда даже если 2 FV выльют случайно - не упадет. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
zhenya` Опубликовано 16 мая, 2015 · Жалоба Если не будет второго иоса коробка уйдет в ребут.. Самопроизвольно Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...