alex_u-94 Posted January 10, 2018 SE 100 в стойке второй год, несколько дней назад стал периодически огорчать. Два варианта краша: 1. %CSM-6-CARD: PPA crash detected on carrier card in slot 2 2. отключает порты в MIC-ах, затем срабатывает тригер и он их опять запускает. Обновил SEOS на последнюю версию 12.1.1.12p12. Из соображений "чем черт не шутит" заменил CF карты. Через сутки краш №1 повторился. После восстановления аларм не горит в логах до события все чисто... Выполняет функцию сервера авторизации (PPPoE), CGNAT и немного роутинга (несколько примитивных контекстов), включен и используется netflow. В таком виде и с такой конфой работает с момента установки в стойку. Нагрузка 1000+ абонентов, агрегация немногим больше 2 Гбит. Скрытый текст Jan 10 15:29:15: %CSM-6-CARD: PPA crash detected on carrier card in slot 2 Jan 10 15:29:15: %SYSLOG-2-CRIT: /netbsd: xcrp_output() - returning ENETDOWN, fwd_cap = 2, lc_hash_fails = 0 Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/1 link state DOWN service state DOWN, overall admin is UP Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/1 link state down, trigger source: Hardware removed Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/3 link state DOWN service state DOWN, overall admin is UP Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/3 link state down, trigger source: Hardware removed Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/4 link state DOWN service state DOWN, overall admin is UP Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/4 link state down, trigger source: Hardware removed Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/15 link state DOWN service state DOWN, overall admin is UP Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/15 link state down, trigger source: Hardware removed Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/16 link state DOWN service state DOWN, overall admin is UP Jan 10 15:29:15: %CSM-6-PORT: ethernet 2/16 link state down, trigger source: Hardware removed !!!!!!!!!! Тут было много ругани, что не может передать netflow и транзакции повисли, т.к. сеть в DOWN !!!!!!!!! Jan 10 15:30:17: [0006]: [2/4:511:63:31/6/2/2043]: %AAA-6-INFO: aaa_idx 100007da: aaa_sess_dn_mgr, didn't receive stat push counters (Session:Not-Received, Service:Received), query stat inst ead Jan 10 15:30:17: [0006]: [2/4:511:63:31/6/2/2043]: %AAA-6-INFO: aaa_idx 100007da: aaa_sess_dn_mgr, Received queried counters from statd Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1399]: %AAA-6-INFO: aaa_idx 10000576: aaa_sess_dn_mgr, didn't receive stat push counters (Session:Not-Received, Service:Received), query stat ins tead Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1399]: %AAA-6-INFO: aaa_idx 10000576: aaa_sess_dn_mgr, Received queried counters from statd Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1409]: %AAA-6-INFO: aaa_idx 10000580: aaa_sess_dn_mgr, didn't receive stat push counters (Session:Not-Received, Service:Received), query stat ins tead Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1409]: %AAA-6-INFO: aaa_idx 10000580: aaa_sess_dn_mgr, Received queried counters from statd Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1448]: %AAA-6-INFO: aaa_idx 100005a8: aaa_sess_dn_mgr, didn't receive stat push counters (Session:Not-Received, Service:Received), query stat ins tead Jan 10 15:30:18: [0003]: [2/16:511:63:31/6/2/1448]: %AAA-6-INFO: aaa_idx 100005a8: aaa_sess_dn_mgr, Received queried counters from statd Jan 10 15:32:53: %SSHD-5-VERBOSE: Connection from 192.168.15.200 port 34832 (Это я в него полез) Jan 10 15:32:53: %SSHD-5-VERBOSE: SSHD: child: sshd:393 Jan 10 15:32:58: %AAA-5-NOTICE: [local] administrator: (admin) logged in via tty: /dev/ttyp0, host: 192.168.15.200 34832 Jan 10 15:32:58: %AAA-6-INFO: [local] recorded login for administrator: (admin) Jan 10 15:32:58: %PPAINFRA-3-LOG_ERR: crashSrvr(): Slot/pfe/ppa 2/0/1869769587 Crash server data collection done Jan 10 15:32:59: %PUBSUB-6-INF: CLI-394 [rbnl_cache_initialize]: initializing PUBSUB, pid(394) Jan 10 15:33:03: %SYSMON-5-GEN_FTP: Core file /ata0/p01/ppa/crashSlot02Ippa.gz FTPed to /md/ successfully Jan 10 15:33:28: %SYSMON-5-GEN_FTP: Core file /ata0/p01/ppa/crashSlot02IppaCore.gz FTPed to /md/ successfully Jan 10 15:33:29: %CSM-6-CARD: card carrier REMOVED from slot 2 Jan 10 15:33:39: %CSM-6-CARD: card carrier INSERTED in slot 2 Jan 10 15:33:44: %CSM-6-CARD: MIC number 1 ge-2-port REMOVED from slot 2 Jan 10 15:33:46: %CSM-6-CARD: MIC number 2 ge-2-port REMOVED from slot 2 Jan 10 15:33:47: %CSM-6-CARD: MIC number 1 ge-2-port INSERTED in slot 2 Jan 10 15:33:48: %CSM-6-CARD: MIC number 2 ge-2-port INSERTED in slot 2 Jan 10 15:33:53: %QOS-6-INFO: qos info: PPA just reborn 0 Jan 10 15:33:53: %PPAINFRA-6-ISTART_INFO: 42cd65bd/0000000002/922100000:02/IPPA/EU00:Ready to receive packets Jan 10 15:33:53: %PPAINFRA-6-ISTART_INFO: 4d413b71/0000000003/396000000:02/EPPA/EU00:Ready to receive packets Jan 10 15:33:54: %QOS-6-INFO: qos info: iPPA reg on slot 2 Jan 10 15:33:54: %CSM-6-CARD: card carrier INSERTED in slot 2 READY Jan 10 15:33:54: %CSM-6-PORT: ethernet 2/3 link state UP service state UP, overall admin is UP Jan 10 15:33:54: %CSM-6-CARD: Card in slot 2 entering In Service state. Jan 10 15:33:54: %PPAINFRA-6-IFACE_INFO: 5d865822/0000000004/133800000:02/IPPA/EU00:ROUTING_READY sent to CSM Jan 10 15:33:54: %QOS-6-INFO: qos info: PPA just reborn 0 Jan 10 15:33:54: %CSM-6-PORT: ethernet 2/4 link state UP service state UP, overall admin is UP Jan 10 15:33:54: %CSM-6-PORT: ethernet 2/15 link state UP service state UP, overall admin is UP Jan 10 15:33:54: %CSM-6-PORT: ethernet 2/16 link state UP service state UP, overall admin is UP Jan 10 15:33:54: %QOS-6-INFO: qos info: ePPA reg on slot 2 Jan 10 15:33:55: %CSM-6-PORT: ethernet 2/1 link state UP service state UP, overall admin is UP Jan 10 15:33:56: %AAA-6-RADTHROTLE_INFO: Set throttle bit (1). Radius throttle count: (5) Jan 10 15:34:00: [0003]: %AAA-3-ERR: rad_change_srv_state: Authentication srv (IP RADIUS)/1812 (1812) no response in 117380 sec. (user BILL0001148). Mark it dead Jan 10 15:34:00: %SYSLOG-6-INFO: aaad: Radius Auth srv (IP RADIUS)/1812 (1812) no response in 117380 sec. (user BILL0001148).Marked dead Jan 10 15:34:00: %SYSLOG-6-INFO: aaad: Radius Authentication srv (IP RADIUS)/1812 (1812) received response (user BILL0001148).Marked Alive Jan 10 15:34:00: %SYSLOG-6-INFO: aaad: Radius Accounting srv (IP RADIUS)/1813 (1812) received response (user BILL0001148).Marked Alive Jan 10 15:34:16: %AAA-6-INFO: rad_throttling clear throttle (0) Jan 10 15:34:20: %AAA-6-RADTHROTLE_INFO: Set throttle bit (1). Radius throttle count: (6) Jan 10 15:34:25: %AAA-6-INFO: rad_throttling clear throttle (0) Jan 10 15:34:26: %AAA-6-RADTHROTLE_INFO: Set throttle bit (1). Radius throttle count: (7) Jan 10 15:34:34: %AAA-6-INFO: rad_throttling clear throttle (0) Jan 10 15:34:35: %AAA-6-RADTHROTLE_INFO: Set throttle bit (1). Radius throttle count: (8) Jan 10 15:34:40: %AAA-6-INFO: rad_throttling clear throttle (0) Подскажите, что еще можно попробовать с этим сделать... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alibek Posted January 10, 2018 Вначале исключить более банальные причины — проверить свободное место на диске, убедиться в наличии строчки service upload-coredump, просмотреть существующие coredump. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alex_u-94 Posted January 10, 2018 @alibek Место проверил Скрытый текст Disk Info Model Num. : SanDisk SDCFJ-4096 Serial Num. : 016801D1908C3335 Firmware Rev. : HDX 4.29 PIO Mode : 4 Mount Time : Tue Jan 9 06:52:25 2018 GMT Mounted in slot: 1 Status : Operational Soft Errors : 0 Hard Errors: 0 Location 512-blocks Used Avail Capacity Mounted on External 6750466 486858 5926084 7% /md Disk status: AIM Disk Info Model Num. : SMART CF Serial Num. : 201401200585DBDF0000 Firmware Rev. : 20100924 PIO Mode : 4 Mount Time : Tue Jan 9 06:51:40 2018 GMT Mounted in slot: 1 Status : Operational Soft Errors : 0 Hard Errors: 0 Location 512-blocks Used Avail Capacity Mounted on Internal 968158 849642 70108 92% / На внутреннем накопителе как то не очень много места... в tmp вроде всего не много, что можно почистить? Скрытый текст # cd status # ls -l total 146 -rw-r--r-- 1 root 0 192 Jan 9 06:53 SCTP -rw-r--r-- 1 root 0 576 Jan 9 06:53 aaa-helperd -rw-r--r-- 1 root 0 4416 Jan 10 15:33 aaad -rw-r--r-- 1 root 0 1600 Jan 10 15:33 arpd -rw-r--r-- 1 root 0 2240 Jan 10 15:33 atmd -rw-r--r-- 1 root 0 1024 Jan 9 06:54 bgp -rw-r--r-- 1 root 0 1152 Jan 9 06:54 bridged -rw-r--r-- 1 root 0 2432 Jan 10 15:33 cls -rw-r--r-- 1 root 0 2624 Jan 10 15:33 csm -rw-r--r-- 1 root 0 192 Jan 9 06:53 dlm -rw-r--r-- 1 root 0 1792 Jan 9 06:54 dot1q -rw-r--r-- 1 root 0 4608 Jan 10 16:50 evtmd -rw-r--r-- 1 root 0 1088 Jan 10 15:33 flowd -rw-r--r-- 1 root 0 1536 Jan 9 06:54 igmpd -rw-r--r-- 1 root 0 1024 Jan 9 06:54 ipfix -rw-r--r-- 1 root 0 5824 Jan 10 15:33 ism -rw-r--r-- 1 root 0 320 Jan 9 06:53 issu -rw-r--r-- 1 root 0 3328 Jan 10 15:33 l2tpd -rw-r--r-- 1 root 0 768 Jan 10 15:33 limmd -rw-r--r-- 1 root 0 960 Jan 10 15:33 lm -rw-r--r-- 1 root 0 1792 Jan 10 15:33 mcastmgrd -rw-r--r-- 1 root 0 256 Jan 9 06:52 metad -rw-r--r-- 1 root 0 448 Jan 9 06:53 odd -rw-r--r-- 1 root 0 832 Jan 9 06:54 pem -rw-r--r-- 1 root 0 1728 Jan 9 06:54 pimd -rw-r--r-- 1 root 0 384 Jan 9 06:52 pnsd -rw-r--r-- 1 root 0 1408 Jan 10 15:33 pppd -rw-r--r-- 1 root 0 1024 Jan 9 06:54 pppoed -rw-r--r-- 1 root 0 2112 Jan 10 15:33 qosd -rw-r--r-- 1 root 0 5504 Jan 9 06:54 rcm -rw-r--r-- 1 root 0 4096 Jan 10 15:33 ribd -rw-r--r-- 1 root 0 640 Jan 9 06:54 snmpd -rw-r--r-- 1 root 0 768 Jan 9 06:54 ssmd содержимое корня Скрытый текст # cd / # ls -l total 560 -rw-r--r-- 1 root 0 0 Jan 9 06:52 .inuse -rw------- 1 root 0 266888 Nov 30 2016 20161130_090411_fsck_ffs_250.core lrwxr-xr-x 1 root 0 17 Jan 9 06:51 ase-services -> /p01/ase-services lrwxr-xr-x 1 root 0 8 Jan 9 06:51 bin -> /p01/bin drwxrwxrwt 2 root 0 2560 Jan 9 06:52 dev lrwxr-xr-x 1 root 0 8 Jan 9 06:51 etc -> /p01/etc drwxr-xr-x 5 root 0 512 Jan 9 06:53 flash lrwxr-xr-x 1 root 0 4 Jan 9 06:52 install -> /p02 drwxrwxrwx 3 root 0 512 Jan 10 15:34 md lrwxr-xr-x 1 root 0 11 Jan 9 06:51 netbsd -> /p01/netbsd drwxr-xr-x 14 root 0 512 Jan 9 06:50 p01 drwxr-xr-x 14 root 0 512 Jan 9 06:52 p02 lrwxr-xr-x 1 root 0 15 Jan 9 06:51 packet.inf -> /p01/packet.inf lrwxr-xr-x 1 root 0 9 Jan 9 06:51 sbin -> /p01/sbin drwxrwxrwt 5 root 0 512 Jan 9 18:05 tmp lrwxr-xr-x 1 root 0 8 Jan 9 06:51 usr -> /p01/usr lrwxr-xr-x 1 root 0 8 Jan 9 06:51 var -> /p01/var Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alibek Posted January 10, 2018 show crashfiles Если файлов много и они забивают почти все место (у меня в этом случае SE100 вел себя странно), то с помощью delete поудалять файлы, а затем настроить выгрузку на внешний FTP-сервер. Удалять что-нибудь из / или /md я бы не рискнул без консультации ТП. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
vurd Posted January 10, 2018 1. Уберите nat fragments. 2. Если не помогло первое, убирайте netflow. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alex_u-94 Posted January 10, 2018 41 минуту назад, alibek сказал: show crashfiles Если файлов много и они забивают почти все место (у меня в этом случае SE100 вел себя странно), то с помощью delete поудалять файлы, а затем настроить выгрузку на внешний FTP-сервер. Удалять что-нибудь из / или /md я бы не рискнул без консультации ТП. Там сейчас всего два файла с дампами последнего краша (не считая служебных) ... дампы пишутся в /md он симлинком на внешнюю карту повешен, она у меня сейчас 4 ГБ, на ней места, хоть боком ходи... а вот внутренние карты стоят дефолтного размера. Может поставить 2ГБ карты... Хотя вытаскивать его из стойки, то еще удовольствие 7 минут назад, vurd сказал: 1. Уберите nat fragments. 2. Если не помогло первое, убирайте netflow. Попробую убрать... nat fragments... самое смешное, что он крашится в любое время и это не зависит от нагрузки... хотелось бы понять логику, что ему надо. Абонентов на нем больше не стало, нагрузка неизменна ( Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
YuryD Posted January 10, 2018 А нет вывода, что всё старится и старится ? Сегодня техдир провёл камерой по немногочисленным дектопам без стенок в серверной. Они жили в теплице, всё кондиционировано. Тем не менее - придётся выкидывать их всех, менять 5 штук на более новое. Кондеи все вспухли на мамах... Это не сервера доступа, мелкая телематика. Все на ибп, все в +18 всегда. Аптайм у всех в полтора года... Да и юх с ними, прикупили новый сервер, переедем... Кстати - директора воспринимают на ура не процесс ввода нового железа, а именно - вынос старого :) Так что могилить старое видимо надо... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alex_u-94 Posted January 10, 2018 @YuryD Руководство считает, что срок службы сей девайс не отработал... так что ... Хотя второй день им мысль накидываю о возможных прелестях перехода на СКАТ DPI... Но так или иначе, эрика надо пнуть, чтоб пожил какое то время. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zstas Posted January 10, 2018 2 часа назад, alex_u-94 сказал: Попробую убрать... nat fragments... самое смешное, что он крашится в любое время и это не зависит от нагрузки... хотелось бы понять логику, что ему надо. Абонентов на нем больше не стало, нагрузка неизменна ( у меня крэши были даже с 1 сабом со включенным флоу. так что если флоу можно жертвовать - жертвуйте. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
vurd Posted January 10, 2018 1 час назад, zstas сказал: у меня крэши были даже с 1 сабом со включенным флоу. так что если флоу можно жертвовать - жертвуйте. У меня флоу и нат, живёт без крешей. На один эриксон в районе 2 тысяч clips абонентов получается уместить с текущими тарифными аппетитами. Однако фрагменты отключены. Одна проблема только нерешаемая с ними - фантомная невозможность авторизации рандомного абонента после флапа коре-линка в близкое к чнн время. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
vurd Posted January 10, 2018 3 часа назад, alex_u-94 сказал: @YuryD Руководство считает, что срок службы сей девайс не отработал... так что ... Хотя второй день им мысль накидываю о возможных прелестях перехода на СКАТ DPI... Но так или иначе, эрика надо пнуть, чтоб пожил какое то время. А не думаете что будет еще больше проблем?) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alex_u-94 Posted January 10, 2018 57 минут назад, vurd сказал: А не думаете что будет еще больше проблем?) Пробую просить пробную лицензию на тест. Дадут или нет ... вопрос конечно. Сильно подкупает "продвинутая" приоретизация трафика внутри абонентской сессии... По сабжу... в одном из двух контекстов отключил фрагментацию, сейчас плавно переливаю абонов из одного в другой, пока не крашился. Увы быстро их стряхнуть нельзя, есть очень нежные клиенты, которые из-за 2 мин разрыва связи мозг ложкой выедают, тем более что из-за крашей они уже успели номер саппорта в быстрый набор поставить. netflow убрать нельзя, если без фрагментации будет продолжать сыпаться, совсем печально станет. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
vurd Posted January 10, 2018 В тест дадут, мне даже сервер присылали - всё для клиента, по ценникам то таким) Я к тому, что сервер это всегда проблемы несколько другого характера, процессор, диски, система, драйвера. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alex_u-94 Posted January 10, 2018 13 минут назад, vurd сказал: Я к тому, что сервер это всегда проблемы несколько другого характера, процессор, диски, система, драйвера. Тут то никто и не спорит... особенно о программной части. Вопрос где "граблей" меньше. В эрике больше всего пугает вероятность скоропостижного отъезда в мир иной.... и возможно сейчас этот момент близок, адекватного по цене аппаратного решения в его стоимость я не вижу. Купить еще один конечно можно, но SW-СКАТ-6-COMPL + адекватный сервер, примерно тоже самое по деньгам, но с возможностью позже вырасти в агрегации путем покупки лицензии.... Глубоко в душе, я за аппаратные решения и совсем не в упаковке от пиццы, но даже БУ SE 600 или больше, очень кусается по цене.... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
vurd Posted January 10, 2018 Ну так-то выбор очевиден, asr 1001-x В одном юните закрывает вопрос браса целиком. Один минус конечно, тоже крешится))) И не снимает вопрос долбаных блокировок, в отличие от ската. Я вообще скатом интересуюсь только потому, что он закрывает обе задачи, но лучше конечно аср.. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alex_u-94 Posted January 11, 2018 2 часа назад, vurd сказал: Ну так-то выбор очевиден, asr 1001-x Есть у меня в зоопарке Cisco ASR 1002-F . Раз в полтора месяца +/- крашится, давно на него забил, т.к. это лечить бесполезно и происходит не чаще не реже... в общем обычное состояние... там еще и конфа легкая, по большей части бездельничает, агрегации чуть больше 1Гб. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Butch3r Posted January 11, 2018 Проще разобраться с причинами краша аср, чем покупать софтовое гавно. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
korsakik Posted January 11, 2018 У коллеги гасилась карта из-за того что монтажники на одной из аггрегаций кольцо замкнули ненастроенное. До этого так же ловили на пустом месте затупы, закономерности и инфы так и не поймали, могло проработать и год, могло и месяц. SE600. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
zstas Posted January 11, 2018 13 часов назад, vurd сказал: У меня флоу и нат, живёт без крешей. На один эриксон в районе 2 тысяч clips абонентов получается уместить с текущими тарифными аппетитами. Однако фрагменты отключены. это потому что clips. мы на pppoe ) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alex_u-94 Posted January 11, 2018 Пока работает без фрагментов... наблюдаю. Петли отлавливаются на всех коммутаторах до браса, так что вероятность пропустить очень маленькая. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
alex_u-94 Posted January 18, 2018 Прошло еще 7 дней, полет нормальный. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
UN9GBJ Posted April 24, 2023 Возможно здесь подскажут. Как отформатировать CF и установить OS по новой ? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...