Перейти к содержимому
Калькуляторы

ASR1004 crash

Имеется ASR1004 (RP10+ESP10). Рулит 2 BGP (не FV), ~1700 pppoe сессий, NAT выключен. Трафик смешной - ~1.8Gbps.

Вчера два раза был краш ядра (я так понимаю), без перезагрузки шасси. Т.е. упало, само поднялось.

 

На harddrive: появились файлы:

crashinfo_RP_00_00_20150511-174711-EET

xxxx_RP_0_linux_iosd-imag_20088.core.gz

 

В tracelog видно такое:

(ERR): %PMAN-3-RPSWITCH: RP switch initiated. Critical process linux_iosd-image has failed (rc 0)

 

Конфигурация не менялась, нагрузка стандартная, железо тоже не менялось. До этого работало без крашей.

 

sh environment - все статусы normal.

 

Что это такое и как лечить в случае повторения?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

попробуйте посмотреть

more harddrive:crashinfo_RP_00_00_20150511-174711-EET

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В crashinfo нашел такую запись:

 

UNIX-EXT-SIGNAL: Segmentation fault(11), Process = DHCPD Receive

 

Где-то как раз во время краша.

 

В это же время лог на сервер (туда циска валит логи):

%IOSXE-4-PLATFORM: R0/0: kernel: Process : linux_iosd-imag (12902) encountered fatal signal 11

Изменено пользователем itt1b

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Опять краш. Сейчас видно такое:

 

May 14 18:35:20.692: %SYS-3-CPUHOG: Task is running for (2622)msecs, more than (2000)msecs (43/43),process = DHCPD Receive.

 

Похоже, что виноват DHCPD. На циско пишут об этом так: https://tools.cisco.com/quickview/bug/CSCsz09924

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Known Affected Releases

12.2(33)XN 12.2(33)XND

 

какой-то странный релиз для ASR указан в баге

покажите вашу версию ios XE

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Known Affected Releases

12.2(33)XN 12.2(33)XND

 

какой-то странный релиз для ASR указан в баге

покажите вашу версию ios XE

 

#sh ver

Cisco IOS Software, IOS-XE Software (PPC_LINUX_IOSD-ADVENTERPRISEK9-M), Version 15.1(2)S, RELEASE SOFTWARE (fc1)

 

Подумываю вынести DHCP на сервер, а на циске настроить просто relay.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

ну попробуйте по свежее софт скажем 3.13

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Теперь краш по памяти:

 

May 15 11:58:21 xxxx 169: May 15 12:58:18.564: %SYS-2-MALLOCFAIL: Memory allocation of 32768 bytes failed from 0x124EEF90, alignment 0

May 15 11:58:21 xxxx 170: Pool: Processor Free: 941644 Cause: Memory fragmentation

May 15 11:58:21 xxxx 171: Alternate Pool: None Free: 0 Cause: No Alternate pool

May 15 11:58:21 xxxx 172: -Process= "BGP Router", ipl= 0, pid= 420

May 15 11:58:21 xxxx 173: -Traceback= 1#2f5bae8cef2209604dae63aec37a209a :10000000+D00584 :10000000+D00908 :10000000+24AE2C8 :10000000+24CEB64 :10000000+24EE

F94 :10000000+16E7200 :10000000+16EAD54 :10000000+17B247C :10000000+17B5080 :10000000+3EBE10 :10000000+3EC5F0 :10000000+3EC8E8 :10000000+5530A68 :10000000+3EC

A1C :10000000+38950C :10000000+39974C

 

Сделали холодный рестарт. Это может быть взаимосвязано?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

памяти 4Гб? Пришло время резать fv?

 

Да, 4Гб. FV не принимаю, всего около 350к префиксов сейчас. Все дело в том, что работало нормально (долго), до того как DHCPD стал падать. Никаких глобальных реконфигураций.

 

Попутный вопрос: как лучше порезать входящие префиксы, чтобы уж точно ничего от аплинков не прилетело лишнего?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Isg? Память на мониторинг добавьте. Два Иоса на одном рп? Если не нужно, то выключите..

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Isg? Память на мониторинг добавьте. Два Иоса на одном рп? Если не нужно, то выключите..

 

ISG включен, да. Включен sso. Я так понимаю, что если выключить sso, то при краше ядра из-за DHCPD (с чего все и началось) циску надо ребутить вручную? Или таки вынести dhcp на сервер и отключить sso для экономии памяти? Просто прецедент уже есть, четкого понимания из-за чего - нет, а избежать повторения нужно.

Для пиров я maximum-prefix включу, не вопрос, тогда даже если 2 FV выльют случайно - не упадет.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Если не будет второго иоса коробка уйдет в ребут.. Самопроизвольно

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.