Jump to content
Калькуляторы

Нужен совет. Начал крашиться SE 100.

SE 100 в стойке второй год, несколько дней назад стал периодически огорчать.

 

Два варианта краша:

 

1. %CSM-6-CARD: PPA crash detected on carrier card in slot 2

2. отключает порты в MIC-ах, затем срабатывает тригер и он их опять запускает.

 

Обновил SEOS на последнюю версию 12.1.1.12p12. Из соображений "чем черт не шутит" заменил CF карты.

 

Через сутки краш №1 повторился.

 

 

После восстановления аларм не горит в логах до события все чисто...

 

Выполняет функцию сервера авторизации (PPPoE), CGNAT и немного роутинга (несколько примитивных контекстов), включен и используется netflow.

В таком виде и с такой конфой работает с момента установки в стойку. Нагрузка 1000+ абонентов, агрегация немногим больше 2 Гбит.

 

Скрытый текст

Jan 10 15:29:15: %CSM-6-CARD: PPA crash detected on carrier card in slot 2
Jan 10 15:29:15: %SYSLOG-2-CRIT: /netbsd: xcrp_output() - returning ENETDOWN, fwd_cap = 2, lc_hash_fails = 0
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/1 link state DOWN service state DOWN, overall admin is UP
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/1 link state down, trigger source: Hardware removed
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/3 link state DOWN service state DOWN, overall admin is UP
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/3 link state down, trigger source: Hardware removed
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/4 link state DOWN service state DOWN, overall admin is UP
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/4 link state down, trigger source: Hardware removed
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/15 link state DOWN service state DOWN, overall admin is UP
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/15 link state down, trigger source: Hardware removed
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/16 link state DOWN service state DOWN, overall admin is UP
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/16 link state down, trigger source: Hardware removed

 

!!!!!!!!!! Тут было много ругани, что не может передать netflow и транзакции повисли, т.к. сеть в DOWN !!!!!!!!!


Jan 10 15:30:17: [0006]: [2/4:511:63:31/6/2/2043]: %AAA-6-INFO: aaa_idx 100007da: aaa_sess_dn_mgr, didn't receive stat push counters (Session:Not-Received, Service:Received), query stat inst
ead
Jan 10 15:30:17: [0006]: [2/4:511:63:31/6/2/2043]: %AAA-6-INFO: aaa_idx 100007da: aaa_sess_dn_mgr, Received queried counters from statd
Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1399]: %AAA-6-INFO: aaa_idx 10000576: aaa_sess_dn_mgr, didn't receive stat push counters (Session:Not-Received, Service:Received), query stat ins
tead
Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1399]: %AAA-6-INFO: aaa_idx 10000576: aaa_sess_dn_mgr, Received queried counters from statd
Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1409]: %AAA-6-INFO: aaa_idx 10000580: aaa_sess_dn_mgr, didn't receive stat push counters (Session:Not-Received, Service:Received), query stat ins
tead
Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1409]: %AAA-6-INFO: aaa_idx 10000580: aaa_sess_dn_mgr, Received queried counters from statd
Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1448]: %AAA-6-INFO: aaa_idx 100005a8: aaa_sess_dn_mgr, didn't receive stat push counters (Session:Not-Received, Service:Received), query stat ins
tead
Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1448]: %AAA-6-INFO: aaa_idx 100005a8: aaa_sess_dn_mgr, Received queried counters from statd
Jan 10 15:32:53: %SSHD-5-VERBOSE: Connection from 192.168.15.200 port 34832 (Это я в него полез)
Jan 10 15:32:53: %SSHD-5-VERBOSE: SSHD: child:  sshd:393
Jan 10 15:32:58: %AAA-5-NOTICE: [local] administrator: (admin) logged in via tty: /dev/ttyp0, host: 192.168.15.200 34832
Jan 10 15:32:58: %AAA-6-INFO: [local] recorded login for administrator: (admin)
Jan 10 15:32:58: %PPAINFRA-3-LOG_ERR: crashSrvr(): Slot/pfe/ppa 2/0/1869769587 Crash server data collection done
Jan 10 15:32:59: %PUBSUB-6-INF: CLI-394 [rbnl_cache_initialize]: initializing PUBSUB, pid(394)
Jan 10 15:33:03: %SYSMON-5-GEN_FTP: Core file /ata0/p01/ppa/crashSlot02Ippa.gz FTPed to /md/ successfully
Jan 10 15:33:28: %SYSMON-5-GEN_FTP: Core file /ata0/p01/ppa/crashSlot02IppaCore.gz FTPed to /md/ successfully
Jan 10 15:33:29: %CSM-6-CARD: card carrier REMOVED from slot 2
Jan 10 15:33:39: %CSM-6-CARD: card carrier INSERTED in slot 2
Jan 10 15:33:44: %CSM-6-CARD: MIC number 1 ge-2-port REMOVED from slot 2
Jan 10 15:33:46: %CSM-6-CARD: MIC number 2 ge-2-port REMOVED from slot 2
Jan 10 15:33:47: %CSM-6-CARD: MIC number 1 ge-2-port INSERTED in slot 2
Jan 10 15:33:48: %CSM-6-CARD: MIC number 2 ge-2-port INSERTED in slot 2
Jan 10 15:33:53: %QOS-6-INFO: qos info: PPA just reborn 0
Jan 10 15:33:53: %PPAINFRA-6-ISTART_INFO: 42cd65bd/0000000002/922100000:02/IPPA/EU00:Ready to receive packets
Jan 10 15:33:53: %PPAINFRA-6-ISTART_INFO: 4d413b71/0000000003/396000000:02/EPPA/EU00:Ready to receive packets
Jan 10 15:33:54: %QOS-6-INFO: qos info: iPPA reg on slot 2
Jan 10 15:33:54: %CSM-6-CARD: card carrier INSERTED in slot 2 READY
Jan 10 15:33:54: %CSM-6-PORT: ethernet 2/3 link state UP service state UP, overall admin is UP
Jan 10 15:33:54: %CSM-6-CARD: Card in slot 2 entering In Service state.
Jan 10 15:33:54: %PPAINFRA-6-IFACE_INFO: 5d865822/0000000004/133800000:02/IPPA/EU00:ROUTING_READY sent to CSM
Jan 10 15:33:54: %QOS-6-INFO: qos info: PPA just reborn 0
Jan 10 15:33:54: %CSM-6-PORT: ethernet 2/4 link state UP service state UP, overall admin is UP
Jan 10 15:33:54: %CSM-6-PORT: ethernet 2/15 link state UP service state UP, overall admin is UP
Jan 10 15:33:54: %CSM-6-PORT: ethernet 2/16 link state UP service state UP, overall admin is UP
Jan 10 15:33:54: %QOS-6-INFO: qos info: ePPA reg on slot 2
Jan 10 15:33:55: %CSM-6-PORT: ethernet 2/1 link state UP service state UP, overall admin is UP
Jan 10 15:33:56: %AAA-6-RADTHROTLE_INFO: Set throttle bit (1). Radius throttle count: (5)
Jan 10 15:34:00: [0003]: %AAA-3-ERR: rad_change_srv_state: Authentication srv (IP RADIUS)/1812 (1812) no response in 117380 sec. (user BILL0001148). Mark it dead
Jan 10 15:34:00: %SYSLOG-6-INFO: aaad: Radius Auth srv (IP RADIUS)/1812 (1812) no response in 117380 sec. (user BILL0001148).Marked dead
Jan 10 15:34:00: %SYSLOG-6-INFO: aaad: Radius Authentication srv (IP RADIUS)/1812 (1812) received response (user BILL0001148).Marked Alive
Jan 10 15:34:00: %SYSLOG-6-INFO: aaad: Radius Accounting srv (IP RADIUS)/1813 (1812) received response (user BILL0001148).Marked Alive
Jan 10 15:34:16: %AAA-6-INFO: rad_throttling clear throttle (0)
Jan 10 15:34:20: %AAA-6-RADTHROTLE_INFO: Set throttle bit (1). Radius throttle count: (6)
Jan 10 15:34:25: %AAA-6-INFO: rad_throttling clear throttle (0)
Jan 10 15:34:26: %AAA-6-RADTHROTLE_INFO: Set throttle bit (1). Radius throttle count: (7)
Jan 10 15:34:34: %AAA-6-INFO: rad_throttling clear throttle (0)
Jan 10 15:34:35: %AAA-6-RADTHROTLE_INFO: Set throttle bit (1). Radius throttle count: (8)
Jan 10 15:34:40: %AAA-6-INFO: rad_throttling clear throttle (0)

 

Подскажите, что еще можно попробовать с этим сделать...

Share this post


Link to post
Share on other sites

Вначале исключить более банальные причины — проверить свободное место на диске, убедиться в наличии строчки service upload-coredump, просмотреть существующие coredump.

Share this post


Link to post
Share on other sites

@alibek  Место проверил

Скрытый текст

Disk Info

Model Num.     : SanDisk SDCFJ-4096
Serial Num.    :  016801D1908C3335
Firmware Rev.  : HDX 4.29
PIO Mode       : 4
Mount Time     : Tue Jan  9 06:52:25 2018 GMT
Mounted in slot: 1              Status     : Operational
Soft Errors    : 0              Hard Errors: 0

Location    512-blocks     Used    Avail Capacity  Mounted on
External       6750466   486858  5926084     7%    /md

 

 

Disk status: AIM

Disk Info

Model Num.     : SMART CF
Serial Num.    : 201401200585DBDF0000
Firmware Rev.  : 20100924
PIO Mode       : 4
Mount Time     : Tue Jan  9 06:51:40 2018 GMT
Mounted in slot: 1              Status     : Operational
Soft Errors    : 0              Hard Errors: 0

Location    512-blocks     Used    Avail Capacity  Mounted on
Internal        968158   849642    70108    92%    /

 

На внутреннем накопителе как то не очень много места... в tmp вроде всего не много, что можно почистить?

 

Скрытый текст

# cd status
# ls -l
total 146
-rw-r--r--  1 root  0   192 Jan  9 06:53 SCTP
-rw-r--r--  1 root  0   576 Jan  9 06:53 aaa-helperd
-rw-r--r--  1 root  0  4416 Jan 10 15:33 aaad
-rw-r--r--  1 root  0  1600 Jan 10 15:33 arpd
-rw-r--r--  1 root  0  2240 Jan 10 15:33 atmd
-rw-r--r--  1 root  0  1024 Jan  9 06:54 bgp
-rw-r--r--  1 root  0  1152 Jan  9 06:54 bridged
-rw-r--r--  1 root  0  2432 Jan 10 15:33 cls
-rw-r--r--  1 root  0  2624 Jan 10 15:33 csm
-rw-r--r--  1 root  0   192 Jan  9 06:53 dlm
-rw-r--r--  1 root  0  1792 Jan  9 06:54 dot1q
-rw-r--r--  1 root  0  4608 Jan 10 16:50 evtmd
-rw-r--r--  1 root  0  1088 Jan 10 15:33 flowd
-rw-r--r--  1 root  0  1536 Jan  9 06:54 igmpd
-rw-r--r--  1 root  0  1024 Jan  9 06:54 ipfix
-rw-r--r--  1 root  0  5824 Jan 10 15:33 ism
-rw-r--r--  1 root  0   320 Jan  9 06:53 issu
-rw-r--r--  1 root  0  3328 Jan 10 15:33 l2tpd
-rw-r--r--  1 root  0   768 Jan 10 15:33 limmd
-rw-r--r--  1 root  0   960 Jan 10 15:33 lm
-rw-r--r--  1 root  0  1792 Jan 10 15:33 mcastmgrd
-rw-r--r--  1 root  0   256 Jan  9 06:52 metad
-rw-r--r--  1 root  0   448 Jan  9 06:53 odd
-rw-r--r--  1 root  0   832 Jan  9 06:54 pem
-rw-r--r--  1 root  0  1728 Jan  9 06:54 pimd
-rw-r--r--  1 root  0   384 Jan  9 06:52 pnsd
-rw-r--r--  1 root  0  1408 Jan 10 15:33 pppd
-rw-r--r--  1 root  0  1024 Jan  9 06:54 pppoed
-rw-r--r--  1 root  0  2112 Jan 10 15:33 qosd
-rw-r--r--  1 root  0  5504 Jan  9 06:54 rcm
-rw-r--r--  1 root  0  4096 Jan 10 15:33 ribd
-rw-r--r--  1 root  0   640 Jan  9 06:54 snmpd
-rw-r--r--  1 root  0   768 Jan  9 06:54 ssmd
 

 

содержимое корня

Скрытый текст

# cd /
# ls -l
total 560
-rw-r--r--   1 root  0       0 Jan  9 06:52 .inuse
-rw-------   1 root  0  266888 Nov 30  2016 20161130_090411_fsck_ffs_250.core
lrwxr-xr-x   1 root  0      17 Jan  9 06:51 ase-services -> /p01/ase-services
lrwxr-xr-x   1 root  0       8 Jan  9 06:51 bin -> /p01/bin
drwxrwxrwt   2 root  0    2560 Jan  9 06:52 dev
lrwxr-xr-x   1 root  0       8 Jan  9 06:51 etc -> /p01/etc
drwxr-xr-x   5 root  0     512 Jan  9 06:53 flash
lrwxr-xr-x   1 root  0       4 Jan  9 06:52 install -> /p02
drwxrwxrwx   3 root  0     512 Jan 10 15:34 md
lrwxr-xr-x   1 root  0      11 Jan  9 06:51 netbsd -> /p01/netbsd
drwxr-xr-x  14 root  0     512 Jan  9 06:50 p01
drwxr-xr-x  14 root  0     512 Jan  9 06:52 p02
lrwxr-xr-x   1 root  0      15 Jan  9 06:51 packet.inf -> /p01/packet.inf
lrwxr-xr-x   1 root  0       9 Jan  9 06:51 sbin -> /p01/sbin
drwxrwxrwt   5 root  0     512 Jan  9 18:05 tmp
lrwxr-xr-x   1 root  0       8 Jan  9 06:51 usr -> /p01/usr
lrwxr-xr-x   1 root  0       8 Jan  9 06:51 var -> /p01/var
 

 

Share this post


Link to post
Share on other sites

show crashfiles

Если файлов много и они забивают почти все место (у меня в этом случае SE100 вел себя странно), то с помощью delete поудалять файлы, а затем настроить выгрузку на внешний FTP-сервер.

Удалять что-нибудь из / или /md я бы не рискнул без консультации ТП.

Share this post


Link to post
Share on other sites

41 минуту назад, alibek сказал:

show crashfiles

Если файлов много и они забивают почти все место (у меня в этом случае SE100 вел себя странно), то с помощью delete поудалять файлы, а затем настроить выгрузку на внешний FTP-сервер.

Удалять что-нибудь из / или /md я бы не рискнул без консультации ТП.

Там сейчас всего два файла с дампами последнего краша (не считая служебных) ... дампы пишутся в /md он симлинком на внешнюю карту повешен, она у меня сейчас 4 ГБ, на ней места, хоть боком ходи... а вот внутренние карты стоят дефолтного размера. Может поставить 2ГБ карты... Хотя вытаскивать его из стойки, то еще удовольствие

 

7 минут назад, vurd сказал:

1. Уберите nat fragments.

2. Если не помогло первое, убирайте netflow.

Попробую убрать... nat fragments... самое смешное, что он крашится в любое время и это не зависит от нагрузки... хотелось бы понять логику, что ему надо. Абонентов на нем больше не стало, нагрузка неизменна (

Share this post


Link to post
Share on other sites

 А нет вывода, что всё старится и старится ? Сегодня техдир провёл камерой по немногочисленным дектопам без стенок в серверной.  Они жили в теплице, всё кондиционировано. Тем не менее - придётся выкидывать их всех, менять 5 штук на более новое. Кондеи все вспухли на мамах... Это не сервера доступа, мелкая телематика. Все на ибп, все в +18 всегда. Аптайм у всех в полтора года... Да и юх с ними, прикупили новый сервер, переедем... Кстати - директора воспринимают на ура не процесс ввода нового железа, а именно - вынос старого :)  Так что могилить старое видимо надо...

Share this post


Link to post
Share on other sites

@YuryD  Руководство считает, что срок службы сей девайс не отработал... так что ... Хотя второй день им мысль накидываю о возможных прелестях перехода на СКАТ DPI... Но так или иначе, эрика надо пнуть, чтоб пожил какое то время.

Share this post


Link to post
Share on other sites

2 часа назад, alex_u-94 сказал:

Попробую убрать... nat fragments... самое смешное, что он крашится в любое время и это не зависит от нагрузки... хотелось бы понять логику, что ему надо. Абонентов на нем больше не стало, нагрузка неизменна (

у меня крэши были даже с 1 сабом со включенным флоу. так что если флоу можно жертвовать - жертвуйте.

Share this post


Link to post
Share on other sites

1 час назад, zstas сказал:

у меня крэши были даже с 1 сабом со включенным флоу. так что если флоу можно жертвовать - жертвуйте.

У меня флоу и нат, живёт без крешей. На один эриксон в районе 2 тысяч clips абонентов получается уместить с текущими тарифными аппетитами. Однако фрагменты отключены.

 

Одна проблема только нерешаемая с ними - фантомная невозможность авторизации рандомного абонента после флапа коре-линка в близкое к чнн время.

Share this post


Link to post
Share on other sites

3 часа назад, alex_u-94 сказал:

@YuryD  Руководство считает, что срок службы сей девайс не отработал... так что ... Хотя второй день им мысль накидываю о возможных прелестях перехода на СКАТ DPI... Но так или иначе, эрика надо пнуть, чтоб пожил какое то время.

А не думаете что будет еще больше проблем?)

Share this post


Link to post
Share on other sites

57 минут назад, vurd сказал:

А не думаете что будет еще больше проблем?)

Пробую просить пробную лицензию на тест. Дадут или нет ... вопрос конечно. Сильно подкупает "продвинутая" приоретизация трафика внутри абонентской сессии... 

 

По сабжу... в одном из двух контекстов отключил фрагментацию, сейчас плавно переливаю абонов из одного в другой, пока не крашился. Увы быстро их стряхнуть нельзя, есть очень нежные клиенты, которые из-за 2 мин разрыва связи мозг ложкой выедают, тем более что из-за крашей они уже успели номер саппорта в быстрый набор поставить.

 

netflow убрать нельзя, если без фрагментации будет продолжать сыпаться, совсем печально станет.

Share this post


Link to post
Share on other sites

В тест дадут, мне даже сервер присылали - всё для клиента, по ценникам то таким)

Я к тому, что сервер это всегда проблемы несколько другого характера, процессор, диски, система, драйвера.

Share this post


Link to post
Share on other sites

13 минут назад, vurd сказал:

Я к тому, что сервер это всегда проблемы несколько другого характера, процессор, диски, система, драйвера.

Тут то никто и не спорит... особенно о программной части. Вопрос где "граблей" меньше. В эрике больше всего пугает вероятность скоропостижного отъезда в мир иной.... и возможно сейчас этот момент близок, адекватного по цене аппаратного решения в его стоимость я не вижу. Купить еще один конечно можно, но SW-СКАТ-6-COMPL + адекватный сервер, примерно тоже самое по деньгам, но с возможностью позже вырасти в агрегации путем покупки лицензии.... 

Глубоко в душе, я за аппаратные решения и совсем не в упаковке от пиццы, но даже БУ SE 600 или больше, очень кусается по цене.... 

Share this post


Link to post
Share on other sites

Ну так-то выбор очевиден, asr 1001-x

В одном юните закрывает вопрос браса целиком. Один минус конечно, тоже крешится))) И не снимает вопрос долбаных блокировок, в отличие от ската. Я вообще скатом интересуюсь только потому, что он закрывает обе задачи, но лучше конечно аср..

Share this post


Link to post
Share on other sites

2 часа назад, vurd сказал:

Ну так-то выбор очевиден, asr 1001-x

Есть у меня в зоопарке Cisco ASR 1002-F .

Раз в полтора месяца +/- крашится, давно на него забил, т.к. это лечить бесполезно и происходит не чаще не реже... в общем обычное состояние... там еще и конфа легкая, по большей части бездельничает, агрегации чуть больше 1Гб.

Share this post


Link to post
Share on other sites

У коллеги гасилась карта из-за того что монтажники на одной из аггрегаций кольцо замкнули ненастроенное. До этого так же ловили на пустом месте затупы, закономерности и инфы так и не поймали, могло проработать и год, могло и месяц. SE600.

Share this post


Link to post
Share on other sites

13 часов назад, vurd сказал:

У меня флоу и нат, живёт без крешей. На один эриксон в районе 2 тысяч clips абонентов получается уместить с текущими тарифными аппетитами. Однако фрагменты отключены.

это потому что clips. мы на pppoe )

Share this post


Link to post
Share on other sites

Пока работает без фрагментов... наблюдаю.

 

Петли отлавливаются на всех коммутаторах до браса, так что вероятность пропустить очень маленькая.

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.