Jump to content

Recommended Posts

Posted

SE 100 в стойке второй год, несколько дней назад стал периодически огорчать.

 

Два варианта краша:

 

1. %CSM-6-CARD: PPA crash detected on carrier card in slot 2

2. отключает порты в MIC-ах, затем срабатывает тригер и он их опять запускает.

 

Обновил SEOS на последнюю версию 12.1.1.12p12. Из соображений "чем черт не шутит" заменил CF карты.

 

Через сутки краш №1 повторился.

 

 

После восстановления аларм не горит в логах до события все чисто...

 

Выполняет функцию сервера авторизации (PPPoE), CGNAT и немного роутинга (несколько примитивных контекстов), включен и используется netflow.

В таком виде и с такой конфой работает с момента установки в стойку. Нагрузка 1000+ абонентов, агрегация немногим больше 2 Гбит.

 

Скрытый текст

Jan 10 15:29:15: %CSM-6-CARD: PPA crash detected on carrier card in slot 2
Jan 10 15:29:15: %SYSLOG-2-CRIT: /netbsd: xcrp_output() - returning ENETDOWN, fwd_cap = 2, lc_hash_fails = 0
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/1 link state DOWN service state DOWN, overall admin is UP
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/1 link state down, trigger source: Hardware removed
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/3 link state DOWN service state DOWN, overall admin is UP
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/3 link state down, trigger source: Hardware removed
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/4 link state DOWN service state DOWN, overall admin is UP
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/4 link state down, trigger source: Hardware removed
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/15 link state DOWN service state DOWN, overall admin is UP
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/15 link state down, trigger source: Hardware removed
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/16 link state DOWN service state DOWN, overall admin is UP
Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/16 link state down, trigger source: Hardware removed

 

!!!!!!!!!! Тут было много ругани, что не может передать netflow и транзакции повисли, т.к. сеть в DOWN !!!!!!!!!


Jan 10 15:30:17: [0006]: [2/4:511:63:31/6/2/2043]: %AAA-6-INFO: aaa_idx 100007da: aaa_sess_dn_mgr, didn't receive stat push counters (Session:Not-Received, Service:Received), query stat inst
ead
Jan 10 15:30:17: [0006]: [2/4:511:63:31/6/2/2043]: %AAA-6-INFO: aaa_idx 100007da: aaa_sess_dn_mgr, Received queried counters from statd
Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1399]: %AAA-6-INFO: aaa_idx 10000576: aaa_sess_dn_mgr, didn't receive stat push counters (Session:Not-Received, Service:Received), query stat ins
tead
Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1399]: %AAA-6-INFO: aaa_idx 10000576: aaa_sess_dn_mgr, Received queried counters from statd
Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1409]: %AAA-6-INFO: aaa_idx 10000580: aaa_sess_dn_mgr, didn't receive stat push counters (Session:Not-Received, Service:Received), query stat ins
tead
Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1409]: %AAA-6-INFO: aaa_idx 10000580: aaa_sess_dn_mgr, Received queried counters from statd
Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1448]: %AAA-6-INFO: aaa_idx 100005a8: aaa_sess_dn_mgr, didn't receive stat push counters (Session:Not-Received, Service:Received), query stat ins
tead
Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1448]: %AAA-6-INFO: aaa_idx 100005a8: aaa_sess_dn_mgr, Received queried counters from statd
Jan 10 15:32:53: %SSHD-5-VERBOSE: Connection from 192.168.15.200 port 34832 (Это я в него полез)
Jan 10 15:32:53: %SSHD-5-VERBOSE: SSHD: child:  sshd:393
Jan 10 15:32:58: %AAA-5-NOTICE: [local] administrator: (admin) logged in via tty: /dev/ttyp0, host: 192.168.15.200 34832
Jan 10 15:32:58: %AAA-6-INFO: [local] recorded login for administrator: (admin)
Jan 10 15:32:58: %PPAINFRA-3-LOG_ERR: crashSrvr(): Slot/pfe/ppa 2/0/1869769587 Crash server data collection done
Jan 10 15:32:59: %PUBSUB-6-INF: CLI-394 [rbnl_cache_initialize]: initializing PUBSUB, pid(394)
Jan 10 15:33:03: %SYSMON-5-GEN_FTP: Core file /ata0/p01/ppa/crashSlot02Ippa.gz FTPed to /md/ successfully
Jan 10 15:33:28: %SYSMON-5-GEN_FTP: Core file /ata0/p01/ppa/crashSlot02IppaCore.gz FTPed to /md/ successfully
Jan 10 15:33:29: %CSM-6-CARD: card carrier REMOVED from slot 2
Jan 10 15:33:39: %CSM-6-CARD: card carrier INSERTED in slot 2
Jan 10 15:33:44: %CSM-6-CARD: MIC number 1 ge-2-port REMOVED from slot 2
Jan 10 15:33:46: %CSM-6-CARD: MIC number 2 ge-2-port REMOVED from slot 2
Jan 10 15:33:47: %CSM-6-CARD: MIC number 1 ge-2-port INSERTED in slot 2
Jan 10 15:33:48: %CSM-6-CARD: MIC number 2 ge-2-port INSERTED in slot 2
Jan 10 15:33:53: %QOS-6-INFO: qos info: PPA just reborn 0
Jan 10 15:33:53: %PPAINFRA-6-ISTART_INFO: 42cd65bd/0000000002/922100000:02/IPPA/EU00:Ready to receive packets
Jan 10 15:33:53: %PPAINFRA-6-ISTART_INFO: 4d413b71/0000000003/396000000:02/EPPA/EU00:Ready to receive packets
Jan 10 15:33:54: %QOS-6-INFO: qos info: iPPA reg on slot 2
Jan 10 15:33:54: %CSM-6-CARD: card carrier INSERTED in slot 2 READY
Jan 10 15:33:54: %CSM-6-PORT: ethernet 2/3 link state UP service state UP, overall admin is UP
Jan 10 15:33:54: %CSM-6-CARD: Card in slot 2 entering In Service state.
Jan 10 15:33:54: %PPAINFRA-6-IFACE_INFO: 5d865822/0000000004/133800000:02/IPPA/EU00:ROUTING_READY sent to CSM
Jan 10 15:33:54: %QOS-6-INFO: qos info: PPA just reborn 0
Jan 10 15:33:54: %CSM-6-PORT: ethernet 2/4 link state UP service state UP, overall admin is UP
Jan 10 15:33:54: %CSM-6-PORT: ethernet 2/15 link state UP service state UP, overall admin is UP
Jan 10 15:33:54: %CSM-6-PORT: ethernet 2/16 link state UP service state UP, overall admin is UP
Jan 10 15:33:54: %QOS-6-INFO: qos info: ePPA reg on slot 2
Jan 10 15:33:55: %CSM-6-PORT: ethernet 2/1 link state UP service state UP, overall admin is UP
Jan 10 15:33:56: %AAA-6-RADTHROTLE_INFO: Set throttle bit (1). Radius throttle count: (5)
Jan 10 15:34:00: [0003]: %AAA-3-ERR: rad_change_srv_state: Authentication srv (IP RADIUS)/1812 (1812) no response in 117380 sec. (user BILL0001148). Mark it dead
Jan 10 15:34:00: %SYSLOG-6-INFO: aaad: Radius Auth srv (IP RADIUS)/1812 (1812) no response in 117380 sec. (user BILL0001148).Marked dead
Jan 10 15:34:00: %SYSLOG-6-INFO: aaad: Radius Authentication srv (IP RADIUS)/1812 (1812) received response (user BILL0001148).Marked Alive
Jan 10 15:34:00: %SYSLOG-6-INFO: aaad: Radius Accounting srv (IP RADIUS)/1813 (1812) received response (user BILL0001148).Marked Alive
Jan 10 15:34:16: %AAA-6-INFO: rad_throttling clear throttle (0)
Jan 10 15:34:20: %AAA-6-RADTHROTLE_INFO: Set throttle bit (1). Radius throttle count: (6)
Jan 10 15:34:25: %AAA-6-INFO: rad_throttling clear throttle (0)
Jan 10 15:34:26: %AAA-6-RADTHROTLE_INFO: Set throttle bit (1). Radius throttle count: (7)
Jan 10 15:34:34: %AAA-6-INFO: rad_throttling clear throttle (0)
Jan 10 15:34:35: %AAA-6-RADTHROTLE_INFO: Set throttle bit (1). Radius throttle count: (8)
Jan 10 15:34:40: %AAA-6-INFO: rad_throttling clear throttle (0)

 

Подскажите, что еще можно попробовать с этим сделать...

Posted

Вначале исключить более банальные причины — проверить свободное место на диске, убедиться в наличии строчки service upload-coredump, просмотреть существующие coredump.

Posted

@alibek  Место проверил

Скрытый текст

Disk Info

Model Num.     : SanDisk SDCFJ-4096
Serial Num.    :  016801D1908C3335
Firmware Rev.  : HDX 4.29
PIO Mode       : 4
Mount Time     : Tue Jan  9 06:52:25 2018 GMT
Mounted in slot: 1              Status     : Operational
Soft Errors    : 0              Hard Errors: 0

Location    512-blocks     Used    Avail Capacity  Mounted on
External       6750466   486858  5926084     7%    /md

 

 

Disk status: AIM

Disk Info

Model Num.     : SMART CF
Serial Num.    : 201401200585DBDF0000
Firmware Rev.  : 20100924
PIO Mode       : 4
Mount Time     : Tue Jan  9 06:51:40 2018 GMT
Mounted in slot: 1              Status     : Operational
Soft Errors    : 0              Hard Errors: 0

Location    512-blocks     Used    Avail Capacity  Mounted on
Internal        968158   849642    70108    92%    /

 

На внутреннем накопителе как то не очень много места... в tmp вроде всего не много, что можно почистить?

 

Скрытый текст

# cd status
# ls -l
total 146
-rw-r--r--  1 root  0   192 Jan  9 06:53 SCTP
-rw-r--r--  1 root  0   576 Jan  9 06:53 aaa-helperd
-rw-r--r--  1 root  0  4416 Jan 10 15:33 aaad
-rw-r--r--  1 root  0  1600 Jan 10 15:33 arpd
-rw-r--r--  1 root  0  2240 Jan 10 15:33 atmd
-rw-r--r--  1 root  0  1024 Jan  9 06:54 bgp
-rw-r--r--  1 root  0  1152 Jan  9 06:54 bridged
-rw-r--r--  1 root  0  2432 Jan 10 15:33 cls
-rw-r--r--  1 root  0  2624 Jan 10 15:33 csm
-rw-r--r--  1 root  0   192 Jan  9 06:53 dlm
-rw-r--r--  1 root  0  1792 Jan  9 06:54 dot1q
-rw-r--r--  1 root  0  4608 Jan 10 16:50 evtmd
-rw-r--r--  1 root  0  1088 Jan 10 15:33 flowd
-rw-r--r--  1 root  0  1536 Jan  9 06:54 igmpd
-rw-r--r--  1 root  0  1024 Jan  9 06:54 ipfix
-rw-r--r--  1 root  0  5824 Jan 10 15:33 ism
-rw-r--r--  1 root  0   320 Jan  9 06:53 issu
-rw-r--r--  1 root  0  3328 Jan 10 15:33 l2tpd
-rw-r--r--  1 root  0   768 Jan 10 15:33 limmd
-rw-r--r--  1 root  0   960 Jan 10 15:33 lm
-rw-r--r--  1 root  0  1792 Jan 10 15:33 mcastmgrd
-rw-r--r--  1 root  0   256 Jan  9 06:52 metad
-rw-r--r--  1 root  0   448 Jan  9 06:53 odd
-rw-r--r--  1 root  0   832 Jan  9 06:54 pem
-rw-r--r--  1 root  0  1728 Jan  9 06:54 pimd
-rw-r--r--  1 root  0   384 Jan  9 06:52 pnsd
-rw-r--r--  1 root  0  1408 Jan 10 15:33 pppd
-rw-r--r--  1 root  0  1024 Jan  9 06:54 pppoed
-rw-r--r--  1 root  0  2112 Jan 10 15:33 qosd
-rw-r--r--  1 root  0  5504 Jan  9 06:54 rcm
-rw-r--r--  1 root  0  4096 Jan 10 15:33 ribd
-rw-r--r--  1 root  0   640 Jan  9 06:54 snmpd
-rw-r--r--  1 root  0   768 Jan  9 06:54 ssmd
 

 

содержимое корня

Скрытый текст

# cd /
# ls -l
total 560
-rw-r--r--   1 root  0       0 Jan  9 06:52 .inuse
-rw-------   1 root  0  266888 Nov 30  2016 20161130_090411_fsck_ffs_250.core
lrwxr-xr-x   1 root  0      17 Jan  9 06:51 ase-services -> /p01/ase-services
lrwxr-xr-x   1 root  0       8 Jan  9 06:51 bin -> /p01/bin
drwxrwxrwt   2 root  0    2560 Jan  9 06:52 dev
lrwxr-xr-x   1 root  0       8 Jan  9 06:51 etc -> /p01/etc
drwxr-xr-x   5 root  0     512 Jan  9 06:53 flash
lrwxr-xr-x   1 root  0       4 Jan  9 06:52 install -> /p02
drwxrwxrwx   3 root  0     512 Jan 10 15:34 md
lrwxr-xr-x   1 root  0      11 Jan  9 06:51 netbsd -> /p01/netbsd
drwxr-xr-x  14 root  0     512 Jan  9 06:50 p01
drwxr-xr-x  14 root  0     512 Jan  9 06:52 p02
lrwxr-xr-x   1 root  0      15 Jan  9 06:51 packet.inf -> /p01/packet.inf
lrwxr-xr-x   1 root  0       9 Jan  9 06:51 sbin -> /p01/sbin
drwxrwxrwt   5 root  0     512 Jan  9 18:05 tmp
lrwxr-xr-x   1 root  0       8 Jan  9 06:51 usr -> /p01/usr
lrwxr-xr-x   1 root  0       8 Jan  9 06:51 var -> /p01/var
 

 

Posted

show crashfiles

Если файлов много и они забивают почти все место (у меня в этом случае SE100 вел себя странно), то с помощью delete поудалять файлы, а затем настроить выгрузку на внешний FTP-сервер.

Удалять что-нибудь из / или /md я бы не рискнул без консультации ТП.

Posted
41 минуту назад, alibek сказал:

show crashfiles

Если файлов много и они забивают почти все место (у меня в этом случае SE100 вел себя странно), то с помощью delete поудалять файлы, а затем настроить выгрузку на внешний FTP-сервер.

Удалять что-нибудь из / или /md я бы не рискнул без консультации ТП.

Там сейчас всего два файла с дампами последнего краша (не считая служебных) ... дампы пишутся в /md он симлинком на внешнюю карту повешен, она у меня сейчас 4 ГБ, на ней места, хоть боком ходи... а вот внутренние карты стоят дефолтного размера. Может поставить 2ГБ карты... Хотя вытаскивать его из стойки, то еще удовольствие

 

7 минут назад, vurd сказал:

1. Уберите nat fragments.

2. Если не помогло первое, убирайте netflow.

Попробую убрать... nat fragments... самое смешное, что он крашится в любое время и это не зависит от нагрузки... хотелось бы понять логику, что ему надо. Абонентов на нем больше не стало, нагрузка неизменна (

Posted

 А нет вывода, что всё старится и старится ? Сегодня техдир провёл камерой по немногочисленным дектопам без стенок в серверной.  Они жили в теплице, всё кондиционировано. Тем не менее - придётся выкидывать их всех, менять 5 штук на более новое. Кондеи все вспухли на мамах... Это не сервера доступа, мелкая телематика. Все на ибп, все в +18 всегда. Аптайм у всех в полтора года... Да и юх с ними, прикупили новый сервер, переедем... Кстати - директора воспринимают на ура не процесс ввода нового железа, а именно - вынос старого :)  Так что могилить старое видимо надо...

Posted

@YuryD  Руководство считает, что срок службы сей девайс не отработал... так что ... Хотя второй день им мысль накидываю о возможных прелестях перехода на СКАТ DPI... Но так или иначе, эрика надо пнуть, чтоб пожил какое то время.

Posted
2 часа назад, alex_u-94 сказал:

Попробую убрать... nat fragments... самое смешное, что он крашится в любое время и это не зависит от нагрузки... хотелось бы понять логику, что ему надо. Абонентов на нем больше не стало, нагрузка неизменна (

у меня крэши были даже с 1 сабом со включенным флоу. так что если флоу можно жертвовать - жертвуйте.

Posted
1 час назад, zstas сказал:

у меня крэши были даже с 1 сабом со включенным флоу. так что если флоу можно жертвовать - жертвуйте.

У меня флоу и нат, живёт без крешей. На один эриксон в районе 2 тысяч clips абонентов получается уместить с текущими тарифными аппетитами. Однако фрагменты отключены.

 

Одна проблема только нерешаемая с ними - фантомная невозможность авторизации рандомного абонента после флапа коре-линка в близкое к чнн время.

Posted
3 часа назад, alex_u-94 сказал:

@YuryD  Руководство считает, что срок службы сей девайс не отработал... так что ... Хотя второй день им мысль накидываю о возможных прелестях перехода на СКАТ DPI... Но так или иначе, эрика надо пнуть, чтоб пожил какое то время.

А не думаете что будет еще больше проблем?)

Posted
57 минут назад, vurd сказал:

А не думаете что будет еще больше проблем?)

Пробую просить пробную лицензию на тест. Дадут или нет ... вопрос конечно. Сильно подкупает "продвинутая" приоретизация трафика внутри абонентской сессии... 

 

По сабжу... в одном из двух контекстов отключил фрагментацию, сейчас плавно переливаю абонов из одного в другой, пока не крашился. Увы быстро их стряхнуть нельзя, есть очень нежные клиенты, которые из-за 2 мин разрыва связи мозг ложкой выедают, тем более что из-за крашей они уже успели номер саппорта в быстрый набор поставить.

 

netflow убрать нельзя, если без фрагментации будет продолжать сыпаться, совсем печально станет.

Posted

В тест дадут, мне даже сервер присылали - всё для клиента, по ценникам то таким)

Я к тому, что сервер это всегда проблемы несколько другого характера, процессор, диски, система, драйвера.

Posted
13 минут назад, vurd сказал:

Я к тому, что сервер это всегда проблемы несколько другого характера, процессор, диски, система, драйвера.

Тут то никто и не спорит... особенно о программной части. Вопрос где "граблей" меньше. В эрике больше всего пугает вероятность скоропостижного отъезда в мир иной.... и возможно сейчас этот момент близок, адекватного по цене аппаратного решения в его стоимость я не вижу. Купить еще один конечно можно, но SW-СКАТ-6-COMPL + адекватный сервер, примерно тоже самое по деньгам, но с возможностью позже вырасти в агрегации путем покупки лицензии.... 

Глубоко в душе, я за аппаратные решения и совсем не в упаковке от пиццы, но даже БУ SE 600 или больше, очень кусается по цене.... 

Posted

Ну так-то выбор очевиден, asr 1001-x

В одном юните закрывает вопрос браса целиком. Один минус конечно, тоже крешится))) И не снимает вопрос долбаных блокировок, в отличие от ската. Я вообще скатом интересуюсь только потому, что он закрывает обе задачи, но лучше конечно аср..

Posted
2 часа назад, vurd сказал:

Ну так-то выбор очевиден, asr 1001-x

Есть у меня в зоопарке Cisco ASR 1002-F .

Раз в полтора месяца +/- крашится, давно на него забил, т.к. это лечить бесполезно и происходит не чаще не реже... в общем обычное состояние... там еще и конфа легкая, по большей части бездельничает, агрегации чуть больше 1Гб.

Posted

У коллеги гасилась карта из-за того что монтажники на одной из аггрегаций кольцо замкнули ненастроенное. До этого так же ловили на пустом месте затупы, закономерности и инфы так и не поймали, могло проработать и год, могло и месяц. SE600.

Posted
13 часов назад, vurd сказал:

У меня флоу и нат, живёт без крешей. На один эриксон в районе 2 тысяч clips абонентов получается уместить с текущими тарифными аппетитами. Однако фрагменты отключены.

это потому что clips. мы на pppoe )

Posted

Пока работает без фрагментов... наблюдаю.

 

Петли отлавливаются на всех коммутаторах до браса, так что вероятность пропустить очень маленькая.

  • 5 years later...

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...
На сайте используются файлы cookie и сервисы аналитики для корректной работы форума и улучшения качества обслуживания. Продолжая использовать сайт, вы соглашаетесь с использованием файлов cookie и с Политикой конфиденциальности.