Jump to content
Калькуляторы

mx480 упал беда

Добрый день, коллеги!

 

Вчера примерно в 23:00 без видимых причин перестал быть доступен Juniper MX480.

Со стороны экстрима была видно, как упали 10Г порты.

По менеджмент интерфейсу(fxp0) тоже не отвечал.

 

Прибыв на место и подключившись консолью ничего вменяемого не удалось получить. Каждые секунду в лог сыпалась попытка загрузится с флешки или ссд.

 

В итоге выключили по питанию и тогда все поднялось.

 

На сислог сервер отправлялись варнинги и критикалы, перед падением ничего не приходило.

По графикам трафика, утилизации RE,PFE и памяти тоже никаких аномалий не было выявлено ( приложу в аттаче)

 

Релиз софта самый стабильный 11.4R7.5 - JTAC recommended.

 

Скачков питания тоже не было. График и логи УПСа тому подтверждение. Ну и все другие железки так-же работали.

 

На самой железке остались логи только с момента нашего ресета по питанию. Никаких core-dump и тд на ней нет.

 

В данный момент диагностика всех модулей, вентиляторов и тд говорит - ОК.

 

Под спойлером про железо.

 

show chassis hardware
Hardware inventory:
Item             Version  Part number  Serial number     Description
Chassis                                xxxxxxxxx     MX480
Midplane         REV 05   710-017414   xxxxxxxxx         MX480 Midplane
FPM Board        REV 02   710-017254   xxxxxxxx          Front Panel Display
PEM 0            Rev 03   740-022697   xxxxxxx xxxx      PS 1.2-1.7kW; 100-240V AC in
PEM 1            Rev 03   740-022697   xxxxx xxxxx  x    PS 1.2-1.7kW; 100-240V AC in
PEM 2            Rev 03   740-022697   xxxxxxxxxxx       PS 1.2-1.7kW; 100-240V AC in
Routing Engine 0 REV 08   740-031116   9xxxxxxxxx        RE-S-1800x4
CB 0             REV 15   710-021523   xxxxxxxx          MX SCB
FPC 1            REV 26   750-031089   xxxxxxxx          MPC Type 2 3D
 CPU            REV 08   711-030884   xxxxxxxx          MPC PMB 2G
 MIC 0          REV 28   750-028387   xxxxxxxx          3D 4x 10GE  XFP
   PIC 0                 BUILTIN      BUILTIN           2x 10GE  XFP
     Xcvr 0     REV 01   740-014279   xxxxxxxxxxx       XFP-10G-SR
     Xcvr 1     REV 01   740-014279   xxxxxxxxxxx       XFP-10G-SR
   PIC 1                 BUILTIN      BUILTIN           2x 10GE  XFP
     Xcvr 0     REV 01   740-014279   xxxxxxxxxxxx      XFP-10G-SR
     Xcvr 1     REV 01   740-014279   xxxxxxxxxxx       XFP-10G-SR
Fan Tray           

 

show chassis environment
Class Item                           Status     Measurement
Temp  PEM 0                          OK         30 degrees C / 86 degrees F
     PEM 1                          OK         30 degrees C / 86 degrees F
     PEM 2                          OK         30 degrees C / 86 degrees F
     PEM 3                          Absent
     Routing Engine 0               OK         34 degrees C / 93 degrees F
     Routing Engine 0 CPU           OK         29 degrees C / 84 degrees F
     Routing Engine 1               Absent
     CB 0 Intake                    OK         31 degrees C / 87 degrees F
     CB 0 Exhaust A                 OK         28 degrees C / 82 degrees F
     CB 0 Exhaust B                 OK         33 degrees C / 91 degrees F
     CB 0 ACBC                      OK         31 degrees C / 87 degrees F
     CB 0 SF A                      OK         46 degrees C / 114 degrees F
     CB 0 SF B                      OK         38 degrees C / 100 degrees F
     CB 1 Intake                    Absent
     CB 1 Exhaust A                 Absent
     CB 1 Exhaust B                 Absent
     CB 1 ACBC                      Absent
     CB 1 XF A                      Absent
     CB 1 XF B                      Absent
     FPC 1 Intake                   OK         32 degrees C / 89 degrees F
     FPC 1 Exhaust A                OK         41 degrees C / 105 degrees F
     FPC 1 Exhaust B                OK         40 degrees C / 104 degrees F
     FPC 1 LU 0 TCAM TSen           OK         47 degrees C / 116 degrees F
     FPC 1 LU 0 TCAM Chip           OK         55 degrees C / 131 degrees F
     FPC 1 LU 0 TSen                OK         47 degrees C / 116 degrees F
     FPC 1 LU 0 Chip                OK         58 degrees C / 136 degrees F
     FPC 1 MQ 0 TSen                OK         47 degrees C / 116 degrees F
     FPC 1 MQ 0 Chip                OK         53 degrees C / 127 degrees F
     FPC 1 LU 1 TCAM TSen           OK         43 degrees C / 109 degrees F
     FPC 1 LU 1 TCAM Chip           OK         48 degrees C / 118 degrees F
     FPC 1 LU 1 TSen                OK         43 degrees C / 109 degrees F
     FPC 1 LU 1 Chip                OK         48 degrees C / 118 degrees F
     FPC 1 MQ 1 TSen                OK         43 degrees C / 109 degrees F
     FPC 1 MQ 1 Chip                OK         48 degrees C / 118 degrees F
Fans  Top Rear Fan                   OK         Spinning at normal speed
     Bottom Rear Fan                OK         Spinning at normal speed
     Top Middle Fan                 OK         Spinning at normal speed
     Bottom Middle Fan              OK         Spinning at normal speed
     Top Front Fan                  OK         Spinning at normal speed
     Bottom Front Fan               OK         Spinning at normal speed

 

show chassis fan
     Item                      Status   RPM     Measurement
     Top Rear Fan              OK       3030    Spinning at normal speed
     Bottom Rear Fan           OK       3060    Spinning at normal speed
     Top Middle Fan            OK       3030    Spinning at normal speed
     Bottom Middle Fan         OK       3030    Spinning at normal speed
     Top Front Fan             OK       3000    Spinning at normal speed
     Bottom Front Fan          OK       3030    Spinning at normal speed

 

 show chassis power

PEM 0:
 State:     Online
 AC input:  OK (1 feed expected, 1 feed connected)
 Capacity:  1590 W (maximum 1590 W)
 DC output: 200 W (zone 0, 4 A at 50 V, 12% of capacity)

PEM 1:
 State:     Online
 AC input:  OK (1 feed expected, 1 feed connected)
 Capacity:  1590 W (maximum 1590 W)
 DC output: 200 W (zone 0, 4 A at 50 V, 12% of capacity)

PEM 2:
 State:     Online
 AC input:  OK (1 feed expected, 1 feed connected)
 Capacity:  1590 W (maximum 1590 W)
 DC output: 200 W (zone 0, 4 A at 50 V, 12% of capacity)

PEM 3:
 State:     Empty
 Input:     Absent

System:
 Zone 0:
     Capacity:          3180 W (maximum 3180 W)
     Allocated power:   828 W (2352 W remaining)
     Actual usage:      600 W
 Total system capacity: 3180 W (maximum 3180 W)
 Total remaining power: 2352 W

 

 

Железка используется как бордер. 1 LS, 3 routing-instance :

 

show route summary logical-system LS-BDR

exchanges.inet.0: 14901 destinations, 42028 routes (14901 active, 0 holddown, 0 hidden)
             Direct:    118 routes,    118 active
              Local:     94 routes,     94 active
                BGP:  41809 routes,  14682 active
             Static:      5 routes,      5 active
          Aggregate:      2 routes,      2 active

mix.inet.0: 480225 destinations, 494707 routes (480225 active, 0 holddown, 0 hidden)
             Direct:    118 routes,    118 active
              Local:     75 routes,     75 active
                BGP: 494509 routes, 480027 active
             Static:      5 routes,      5 active

world.inet.0: 480056 destinations, 2190689 routes (480051 active, 0 holddown, 5 hidden)
             Direct:    118 routes,    118 active
              Local:     98 routes,     98 active
                BGP: 2190466 routes, 479828 active
             Static:      5 routes,      5 active
          Aggregate:      2 routes,      2 active

 

 

Прошу помощи. Возможно, кто-то знает про какой-то баг в софте, или в железе.

 

Заранее спасибо!

 

P.S. Провалы на графике в 18:00 - нормально и не относится к жуниперу.

juniper_graph.png

Share this post


Link to post
Share on other sites

А что показывает

Sh system core-dump ?

Sh chassis routing-engine ?

Share this post


Link to post
Share on other sites

А что показывает

Sh system core-dump ?

Sh chassis routing-engine ?

 

show system core-dumps
/var/crash/*core*: No such file or directory
/var/tmp/*core*: No such file or directory
/var/tmp/pics/*core*: No such file or directory
/var/crash/kernel.*: No such file or directory
/tftpboot/corefiles/*core*: No such file or directory

show chassis routing-engine
Routing Engine status:
 Slot 0:
 nt state                  Master
   Election priority              Master (default)
   Temperature                 34 degrees C / 93 degrees F
   CPU temperature             29 degrees C / 84 degrees F
   DRAM                      17152 MB
   Memory utilization          18 percent
   CPU utilization:
     User                       0 percent
     Background                 0 percent
     Kernel                     2 percent
     Interrupt                  1 percent
     Idle                      97 percent
   Model                          RE-S-1800x4
   Serial ID                      
   Start time                     2013-11-24 00:07:31 EET
   Uptime                         13 hours, 16 minutes, 25 seconds
   Last reboot reason             0x1:power cycle/failure
   Load averages:                 1 minute   5 minute  15 minute
                                      0.00       0.00       0.00
 Curre

 

Тех. спецы селлера запросили RSI. После получения сказали, что проблема похожа на один PR. Сейчас открывают high level case и инженеры JTAC скорее всего будут по тимвьюверу что-то смотреть.

Share this post


Link to post
Share on other sites

а два RE+SCB почему не поставили ? или типа "купим железку за полтора ляма, но сэкономим" - девиз успешного бизнеса ?

Share this post


Link to post
Share on other sites

а два RE+SCB почему не поставили ? или типа "купим железку за полтора ляма, но сэкономим" - девиз успешного бизнеса ?

 

Очень ценный комментарий, спасибо!

 

По делу : JTAC скинули скриптик, будут удаленно делать лоу левел формат ссд диска. Пишут 40 минут времени на все про все и 2 ребута.

Share this post


Link to post
Share on other sites

аможете вкратце сказать что тут http://kb.juniper.ne...90&smlogin=true - а то пароль просит....

 

 

Routing Engines (RE) might reset and fail to boot due to Solid State Drive (SSD) that stops functioning

  [TSB16210] Show KB Properties

ALERT TYPE:
PSN - Product Support Notification
PRODUCT AFFECTED:
Routing Engines with the following model numbers with specified revision, and shipped between January 1st 2013 and July 15th, 2013 may be affected. 

RE-A-1800X2-16G Part Number: 740-031119 REV5 and below
RE-B-1800X1-4G Part Number: 740-039441 REV5 and below
RE-MX2000-1800X4 Part Number: 740-049603 REV3 and below
RE-S-1800X2-16G Part Number: 740-031114 REV8
RE-S-1800X2-8G Part Number: 740-031117 REV8
RE-S-1800X4-16G Part Number: 740-031116 REV8
EX9200-RE Part Number 740-049603 REV2 and below
ALERT DESCRIPTION:
Our SSD manufacturer increased the burn-in test time of our SSDs as part of their efforts to continuously improve product quality. When this change was implemented, they unintentionally omitted a critical step in the test process that returns the drive to a clean initial state. As a result of missing this step, unexpected files were left in SSD “housekeeping” memory, which prevented proper drive operation.

This issue is tracked by PR/922117.
SOLUTION:
The manufacturer has corrected its test process to properly re-initialize the SSDs before shipment to Juniper. All Juniper inventory has been purged to ensure all Routing Engines shipped are free of this issue.

A software solution has also been developed to correct the affected REs in the field.

IMPLEMENTATION:
Customers who have received REs with the suspected SSD should contact JTAC or their Service Managers to work out a mitigation plan and verify affected parts.

Share this post


Link to post
Share on other sites

Ребята уже Х лет пилят жунос поверх бсд, но все так и не ушли от ffs на винтах в пользу mfs в памяти.

Share this post


Link to post
Share on other sites

После того как в плотную столкнулся с джунипером, я понял почему все так любят циски.

 

Красиво на словах, но в деле как в том анекдоте "есть нъюансы"

Share this post


Link to post
Share on other sites

да нюансов достаточно с джунипером, но в циске тоже блох хватает

 

тот же АСР пилили-пилили и дальше пилят, уже в принципе похоже на что-то но сколько времени ушло...

Share this post


Link to post
Share on other sites
Ребята уже Х лет пилят жунос поверх бсд, но все так и не ушли от ffs на винтах в пользу mfs в памяти.
там же журнал для ffs есть. да и причем здесь ffs, когда речь о том что после изменений в ssd его производителем не внеслись соответствующие поправки в ПО
Our SSD manufacturer increased the burn-in test time of our SSDs as part of their efforts to continuously improve product quality. When this change was implemented, they unintentionally omitted a critical step in the test process that returns the drive to a clean initial state. As a result of missing this step, unexpected files were left in SSD “housekeeping” memory, which prevented proper drive operation.
в "старых" re1300 и re2000 таких проблем же нет. :)

да и с ffs особо проблем нет, сейчас у всех J дуалбут же. даже если после "горячего" ребута разнесло файлуху так тчо она не чинится всегда есть резервный образ для загрузки.

После того как в плотную столкнулся с джунипером, я понял почему все так любят циски.
ну я могу рассказать овер9к историй почему ненавижу циску, икстрим, делинк и так далее, почти про любого вендора с которым сталкивался. вобщем всё "говно", хотя бы потому что пока еще люди за всё в ответе. а люди ненадежный элемент: ошибаются, болеютя и так далее. как только изобретут роботов способных проектировать жить сразу станет легче.

 

ps: ну для J у меня меньше всего историй и они все касаются только EX.

Share this post


Link to post
Share on other sites
как только изобретут роботов способных проектировать жить сразу станет легче

а людишки тогда нахрена.. ?? подумают умные роботы )

Share this post


Link to post
Share on other sites

там же журнал для ffs есть. да и причем здесь ffs, когда речь о том что после изменений в ssd его производителем не внеслись соответствующие поправки в ПО

 

 

При том что в красивой реализации все должно после зарузки в памяти жить. У джунов это не редкость чтобы из-за ошибки на флехе/диске уже загруженная система перестала работать.

В общем тут я все же их не понимаю, подход для писюков не очень годится для железок, которым положен энтрепрайз-левел аптайма.

Share this post


Link to post
Share on other sites
При том что в красивой реализации все должно после зарузки в памяти жить.
оно и так живет там.
> show system storage

Filesystem Size Used Avail Capacity Mounted on

/dev/ad0s1a 885M 222M 592M 27% /

devfs 1.0K 1.0K 0B 100% /dev

/dev/md0 34M 34M 0B 100% /packages/mnt/jbase

/dev/md1 9.8M 9.8M 0B 100% /packages/mnt/jkernel-10.4R9.2

/dev/md2 53M 53M 0B 100% /packages/mnt/jpfe-X960-10.4R9.2

/dev/md3 5.8M 5.8M 0B 100% /packages/mnt/jdocs-10.4R9.2

/dev/md4 69M 69M 0B 100% /packages/mnt/jroute-10.4R9.2

/dev/md5 21M 21M 0B 100% /packages/mnt/jcrypto-10.4R9.2

/dev/md6 39M 39M 0B 100% /packages/mnt/jpfe-common-10.4R9.2

/dev/md7 296M 296M 0B 100% /packages/mnt/jruntime-10.4R9.2

/dev/md8 3.4G 56K 3.2G 0% /tmp

/dev/md9 3.4G 33M 3.1G 1% /mfs

/dev/ad0s1e 98M 88K 90M 0% /config

procfs 4.0K 4.0K 0B 100% /proc

/dev/ad2s1f 32G 731M 29G 2% /var

не ?

хитро бутсрапица из закопанного в глубинах iso образа. всё как ты любишь в своих ванильных мечтах о сфероконях в вакууме :)

У джунов это не редкость чтобы из-за ошибки на флехе/диске уже загруженная система перестала работать.
слова заядлого садовода можжевельника. :)

Share this post


Link to post
Share on other sites

корневушечка то на диске, никуда не смапленная. при ребуте еще ругается на not properly unmounted.

на лицо все принципы пиюска.

 

слова заядлого садовода можжевельника. :)

 

ну в интернетах писали (С) плюс у флюка же по этой причине j сдох?

 

/dev/ad0s1a on / (ufs, local, noatime, soft-updates)
devfs on /dev (devfs, local, multilabel)
/dev/md0 on /packages/mnt/jbase (cd9660, local, noatime, read-only, verified)
/dev/md1 on /packages/mnt/jkernel-12.1R1.9 (cd9660, local, noatime, read-only, verified)
/dev/md2 on /packages/mnt/jpfe-M40-12.1R1.9 (cd9660, local, noatime, read-only)
/dev/md3 on /packages/mnt/jdocs-12.1R1.9 (cd9660, local, noatime, read-only, verified)
/dev/md4 on /packages/mnt/jroute-12.1R1.9 (cd9660, local, noatime, read-only, verified)
/dev/md5 on /packages/mnt/jcrypto-12.1R1.9 (cd9660, local, noatime, read-only, verified)
/dev/md6 on /packages/mnt/jpfe-common-12.1R1.9 (cd9660, local, noatime, read-only)
/dev/md7 on /packages/mnt/jruntime-12.1R1.9 (cd9660, local, noatime, read-only, verified)
/dev/md8 on /tmp (ufs, asynchronous, local, noatime)
/dev/md9 on /mfs (ufs, asynchronous, local, noatime)
/dev/ad0s1e on /config (ufs, local, noatime, soft-updates)
procfs on /proc (procfs, local, noatime)
/dev/ad0s1f on /var (ufs, local, noatime)

 

корень даже не в р/о...

Share this post


Link to post
Share on other sites
ну в интернетах писали (С) плюс у флюка же по этой причине j сдох?
там флешка сдохла вроде :) потому что если оба раздела не доступны для бута, то они чекаются и загружаются. просто дольше грузится. у меня и фряшечка обычная грузится спокойно после хардрезета, сейчас правда с журналом оно быстрее чем с fsck :)
корень даже не в р/о...
надо срочно создать PR в jtac и доказать им что они не правы. :)

Share this post


Link to post
Share on other sites

там флешка сдохла вроде :) потому что если оба раздела не доступны для бута, то они чекаются и загружаются. просто дольше грузится. у меня и фряшечка обычная грузится спокойно после хардрезета, сейчас правда с журналом оно быстрее чем с fsck :)

 

 

Ну я все равно не понимаю почему не сделать mfs а епаца с журналом.

надо срочно создать PR в jtac и доказать им что они не правы. :)

 

 

Создавай! У тебя опыт общения с ними большой, объяснишь индусам как делать надо))

Share this post


Link to post
Share on other sites
Ну я все равно не понимаю почему не сделать mfs а епаца с журналом.
ну кроме /var'а там особо ничего не разносит при хардрезете. в /var пишутся логи. для этого журнал и запили. я щитаю удобнее иметь архив логов на коробке, тем более если есть винт под него специально, чем сношаца с mfs и перекладыванием логов, да и еще с вероятностью потерять логи.

Share this post


Link to post
Share on other sites

ну кроме /var'а там особо ничего не разносит при хардрезете. в /var пишутся логи. для этого журнал и запили. я щитаю удобнее иметь архив логов на коробке, тем более если есть винт под него специально, чем сношаца с mfs и перекладыванием логов, да и еще с вероятностью потерять логи.

 

 

/var в mfs_root не входит. Минус его только в нетривиальном апдейте самого рута из рабочей системы. Но вряд ли жунипер часто апдейтит фряшеньку в жуносе на лету)

Share this post


Link to post
Share on other sites
/var в mfs_root не входит. Минус его только в нетривиальном апдейте самого рута из рабочей системы. Но вряд ли жунипер часто апдейтит фряшеньку в жуносе на лету)
так нету же проблем с рутом на ufs'е. зачем изобретать что-то ?

Share this post


Link to post
Share on other sites

а два RE+SCB почему не поставили ? или типа "купим железку за полтора ляма, но сэкономим" - девиз успешного бизнеса ?

 

Тут ребята нашептали, что у одного крупного оператора три недели назад была аналогичная ситуация. "Упороло" сразу два RE :)

Share this post


Link to post
Share on other sites
Тут ребята нашептали, что у одного крупного оператора три недели назад была аналогичная ситуация. "Упороло" сразу два RE :)
я про то что эта операция будет более безболезненная чем с одним RE:
По делу : JTAC скинули скриптик, будут удаленно делать лоу левел формат ссд диска. Пишут 40 минут времени на все про все и 2 ребута.
видимого для кастомеров простоя можно будет избежать. а так час блэкаута :)

Share this post


Link to post
Share on other sites

Те, кто считают, что можно поставить 2 RE, несколько линейных карт(резервирую линки на разных картах) и спать спокойно, ооооочень сильно заблуждаются, потому что, переключение master<->slave происходит не всегда и баги ПО никто не отменял(ну например утечка памяти при формировании таблиц в RAM, если работает онлайн-репликация таблиц, то она будет на обоих RE). 2 управляющих модуля это возможность ISSU, уменьшение времени деградации сервисов, но не полноценное резервирование. Более-менее полноценное это 2 независимых коробки(без всяких стеков и прочих объединений их в одну виртуальную). В особо критичных случаях даже от разных вендоров(например это может быть RR, asbr), чтобы баг ПО, вызываемый внешним воздействием(например "кривой" bgp update message) не положил всё разом.

Share this post


Link to post
Share on other sites
Те, кто считают, что можно поставить 2 RE, несколько линейных карт(резервирую линки на разных картах) и спать спокойно, ооооочень сильно заблуждаются, потому что, переключение master<->slave происходит не всегда и баги ПО никто не отменял
очень легко теоритизировать о проблемах и багах, которые есть всегда и везде, но ведь никто не будет спорить с тем что фуллреданданси-конфиг коробки это гораздо лучше иконы и свечки за здравие священной коровы.
В особо критичных случаях даже от разных вендоров(например это может быть RR, asbr), чтобы баг ПО, вызываемый внешним воздействием(например "кривой" bgp update message) не положил всё разом.
это всё ванильные фантазии об идеальном сферическом коне в вакууме. дорого, глупо и неудобно. ну а так да, огонь идея.

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this