Jump to content
Калькуляторы

ASR1004 crash

Имеется ASR1004 (RP10+ESP10). Рулит 2 BGP (не FV), ~1700 pppoe сессий, NAT выключен. Трафик смешной - ~1.8Gbps.

Вчера два раза был краш ядра (я так понимаю), без перезагрузки шасси. Т.е. упало, само поднялось.

 

На harddrive: появились файлы:

crashinfo_RP_00_00_20150511-174711-EET

xxxx_RP_0_linux_iosd-imag_20088.core.gz

 

В tracelog видно такое:

(ERR): %PMAN-3-RPSWITCH: RP switch initiated. Critical process linux_iosd-image has failed (rc 0)

 

Конфигурация не менялась, нагрузка стандартная, железо тоже не менялось. До этого работало без крашей.

 

sh environment - все статусы normal.

 

Что это такое и как лечить в случае повторения?

Share this post


Link to post
Share on other sites

попробуйте посмотреть

more harddrive:crashinfo_RP_00_00_20150511-174711-EET

Share this post


Link to post
Share on other sites

В crashinfo нашел такую запись:

 

UNIX-EXT-SIGNAL: Segmentation fault(11), Process = DHCPD Receive

 

Где-то как раз во время краша.

 

В это же время лог на сервер (туда циска валит логи):

%IOSXE-4-PLATFORM: R0/0: kernel: Process : linux_iosd-imag (12902) encountered fatal signal 11

Edited by itt1b

Share this post


Link to post
Share on other sites

Опять краш. Сейчас видно такое:

 

May 14 18:35:20.692: %SYS-3-CPUHOG: Task is running for (2622)msecs, more than (2000)msecs (43/43),process = DHCPD Receive.

 

Похоже, что виноват DHCPD. На циско пишут об этом так: https://tools.cisco.com/quickview/bug/CSCsz09924

Share this post


Link to post
Share on other sites

Known Affected Releases

12.2(33)XN 12.2(33)XND

 

какой-то странный релиз для ASR указан в баге

покажите вашу версию ios XE

Share this post


Link to post
Share on other sites

Known Affected Releases

12.2(33)XN 12.2(33)XND

 

какой-то странный релиз для ASR указан в баге

покажите вашу версию ios XE

 

#sh ver

Cisco IOS Software, IOS-XE Software (PPC_LINUX_IOSD-ADVENTERPRISEK9-M), Version 15.1(2)S, RELEASE SOFTWARE (fc1)

 

Подумываю вынести DHCP на сервер, а на циске настроить просто relay.

Share this post


Link to post
Share on other sites

ну попробуйте по свежее софт скажем 3.13

Share this post


Link to post
Share on other sites

Теперь краш по памяти:

 

May 15 11:58:21 xxxx 169: May 15 12:58:18.564: %SYS-2-MALLOCFAIL: Memory allocation of 32768 bytes failed from 0x124EEF90, alignment 0

May 15 11:58:21 xxxx 170: Pool: Processor Free: 941644 Cause: Memory fragmentation

May 15 11:58:21 xxxx 171: Alternate Pool: None Free: 0 Cause: No Alternate pool

May 15 11:58:21 xxxx 172: -Process= "BGP Router", ipl= 0, pid= 420

May 15 11:58:21 xxxx 173: -Traceback= 1#2f5bae8cef2209604dae63aec37a209a :10000000+D00584 :10000000+D00908 :10000000+24AE2C8 :10000000+24CEB64 :10000000+24EE

F94 :10000000+16E7200 :10000000+16EAD54 :10000000+17B247C :10000000+17B5080 :10000000+3EBE10 :10000000+3EC5F0 :10000000+3EC8E8 :10000000+5530A68 :10000000+3EC

A1C :10000000+38950C :10000000+39974C

 

Сделали холодный рестарт. Это может быть взаимосвязано?

Share this post


Link to post
Share on other sites

памяти 4Гб? Пришло время резать fv?

 

Да, 4Гб. FV не принимаю, всего около 350к префиксов сейчас. Все дело в том, что работало нормально (долго), до того как DHCPD стал падать. Никаких глобальных реконфигураций.

 

Попутный вопрос: как лучше порезать входящие префиксы, чтобы уж точно ничего от аплинков не прилетело лишнего?

Share this post


Link to post
Share on other sites

Isg? Память на мониторинг добавьте. Два Иоса на одном рп? Если не нужно, то выключите..

Share this post


Link to post
Share on other sites

Isg? Память на мониторинг добавьте. Два Иоса на одном рп? Если не нужно, то выключите..

 

ISG включен, да. Включен sso. Я так понимаю, что если выключить sso, то при краше ядра из-за DHCPD (с чего все и началось) циску надо ребутить вручную? Или таки вынести dhcp на сервер и отключить sso для экономии памяти? Просто прецедент уже есть, четкого понимания из-за чего - нет, а избежать повторения нужно.

Для пиров я maximum-prefix включу, не вопрос, тогда даже если 2 FV выльют случайно - не упадет.

Share this post


Link to post
Share on other sites

Если не будет второго иоса коробка уйдет в ребут.. Самопроизвольно

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this