Jump to content
Калькуляторы

Непонятный reboot роутера Где искать причину?

Роутер на CentOS-5, ядро 2.6.34 x86_64.

Основная задача железки - роутинг и NAT, трафик порядка 450 Мбит/с, 60/48 kpps.

Из сетевых задач кроме NAT-a крутится iptables и quagga (RIP и Zebra).

Сетевая - Intel Corporation 82576 Gigabit Network Connection (двухпортовая), подключена к порту DGS-3100-24.

Суть проблемы - самопризвольный ребут. В логах практически ничего..(/var/log/messages

Jan  5 11:46:05 bras snmpd[4076]: Received SNMP packet(s) from UDP: [10.254.213.2]:25065
Jan  5 11:46:05 bras snmpd[4076]: Connection from UDP: [10.254.213.2]:25065
Jan  5 11:46:05 bras snmpd[4076]: Connection from UDP: [10.254.213.2]:57276
Jan  5 11:48:54 bras syslogd 1.4.1: restart.
Jan  5 11:48:54 bras kernel: klogd 1.4.1, log source = /proc/kmsg started.
... и т.д., как при обычном ребуте

Единственное, что удалось обнаружить, это совершенно непонятный громадный скачок ппс на интерфейсе, смотрящем в Интернет (см. рис). На аплинке (sfp в том же коммутаторе) рост ппс не зафиксирован, там соотв. "провал".

По-видимому, это и есть причина ребута, т.к. 100% совпадает по времени.

Собственно вопрос - что могло породить такой громадный рость ппс?

pps.JPG

Share this post


Link to post
Share on other sites

IMHO это просто глюк мониторинга в момент смерти. Ну а сама смерть из-за железа.

Share this post


Link to post
Share on other sites

Недавно одна из моиз бздей походу дела словила тоже самое - правда в ребут не ушла, а срала в консоль штормом по прерываниям (em1) (аптайм был 380 дней), запаниковала и сделала дамп мозга.

Share this post


Link to post
Share on other sites

что могло породить такой громадный рость ппс?

Если у вас есть AS, и маршрут на эту AS не вывернут в blackhole - флуд на любой из непользующихся адресов AS будет многократно усилен бордюром (ибо он по дефолту перешлет пакет на аплинк, аплинк - вернет обратно и т.д.).

Хотя ребутиться все арвно не должен. Если железо стабильное.

Share this post


Link to post
Share on other sites

AS-ки нет, аптайм мелкий совсем (в декабре 2011 ребутал).

Может это quagga куролесит? Или действительно проблема в железе?

Железка относительно новая - серверная интеловская платформа, 2 Xeon-а E5503 2 GHz.

Edited by AlKov

Share this post


Link to post
Share on other sites

Логи ядра на serial, журналирование на второй машине. И думать. По кернел паник ессно в логах на винте ничего не останется.

Share this post


Link to post
Share on other sites

rrdtool считает разницу между прошлым показанием и текущим(дельту). Поэтому для него новое показание счетчика в 0, что это был большой объем трафика, который успел скрутить счетчик полностью и заново начать.

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this