Перейти к содержимому
Калькуляторы

Спонтанное отключение всех QinQ IPoE интерфейсов

21 minutes ago, AlKov said:

я уже так не думаю (см. выше).

Куда выше-то? Зависание? Пакеты смерти, вкрячивающие интерфейс?

Quote

интерфейс выдавал аппаратную ошибку и обрывал связь, а восстановление работы было возможно только после холодной перезагрузки.

Это всё абсолютно другие ситуации относительно вашей, когда сервер жив, трафик ходит, но просто состояние фейса не UP. 

То есть если верить вашему описанию, будто просто сделали ifconfig ethX down, без каких-либо других побочных эффектов. (И восстанавливается без ребута).

Изменено пользователем rm_

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
45 минут назад, rm_ сказал:

Пакеты смерти, вкрячивающие интерфейс?

 

Именно! Это была самая первая мысль, когда ещё всё только началось. Только мысль была про "несваримость" у accel -

Цитата

Вполне возможно, что такой "кастрированный" пакет может и долетать до сервера с accel, несмотря на ACL (вырезают PPPoE, multicact и ipv6), которые вполне могут его пропустить по причине не соответствия стандарту.

И

Цитата

Происходит это в-основном в момент перевода сегмента сети с PPPoE-Dual access на IPoE, иногда - гораздо реже - уже в "только IPoE состоянии".

45 минут назад, rm_ сказал:

Это всё абсолютно другие ситуации относительно вашей, когда сервер жив, трафик ходит, но просто состояние фейса не UP. 

То есть если верить вашему описанию, будто просто сделали ifconfig ethX down, без каких-либо других побочных эффектов. (И восстанавливается без ребута).

Не "абсолютно". Плюс ко всему, I210 всё же не 100%-й 82574. И над этой проблемой работали. Т.е. глюки могут быть несколько другими. 

И на разных ОС/ядрах ситуация может проявляться "своеобразно". Например, на FreeBSD - уже писал выше - всё зависало конкретно.

И откуда Вы взяли, что "трафик ходит"? Может я не совсем понятно описал ситуацию. Трафик ходит ТОЛЬКО на eth1. 

 

P.S. Может быть я и ошибаюсь, т.к. никогда не вникал в устройство элементов "железа", но похоже на то, что это либо баг архитектуры чипа 82574, 

либо "вражеская закладка". Которые успешно мигрировали в I210.

Ну с какого перепугу пакет из "внешки" (порт сетевой карты) может проникать к управлению чипа?

 

P.P.S. Вообщем, завтра ставлю 82576. Посмотрим по-результату. На следующей неделе как раз собираюсь ещё один сегмент сети загнать в IPoE.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
42 minutes ago, AlKov said:

никогда не вникал в устройство элементов "железа"

Да вы и в устройство софта особо не вникаете, вообще-то UP/DOWN состояния интерфейсов в линуксе никак не зависят от их аппаратных подробностей, и изменить это со стороны железа не представляется возможным. Только если сетевое устройство вообще пропало и появилось заново. Но тогда об этом была бы запись в dmesg.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@rm_ , хорошо. Как всем известно - истина рождается в спорах, но - добавлю от себя - не в беспредметных.

Давайте попробуем порассуждать более предметно, нежели "такого не может быть, потому-что не может быть никогда".

Изложите пожалуйста, свою версию проблемы, но только более подробно, с приведением максимального кол-ва аргументов.

Этого утверждения - 

3 часа назад, rm_ сказал:

Но тогда об этом была бы запись в dmesg.

явно недостаточно, т.к.  оно достаточно легко опровергается.

Например - записи в dmesg/messages/etc может не быть по причине того, что перевод интерфейса в down выполняется ШТАТНО (аналогом команды ifconfig eth0 down, например).

При такой операции запись в системные логи не осуществляется.

Что собственно так и выглядит на первый взгляд, да и на второй тоже.. :)

Ну и наконец, начнём, исходя из предположения того, что в сетевую карту из сети прилетает пакет со "странным содержанием"..

 

Дальше - Ваш ход.. ;)

 

P.S. Фикс для функционала pppoe circuit id insertion D-Link сделал, прошивку на всех коммутаторах IPoE сегмента я обновил, но не полегчало..

Так-что этот момент отметаем.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
8 hours ago, AlKov said:

перевод интерфейса в down выполняется ШТАТНО (аналогом команды ifconfig eth0 down, например).

Я вам об этом же и сказал, если он выполняется штатно и со стороны софта, значит это не вызвано аппаратными проблемами конкретной модели сетевой карты.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
18 часов назад, rm_ сказал:

Я вам об этом же и сказал, если он выполняется штатно и со стороны софта, значит это не вызвано аппаратными проблемами конкретной модели сетевой карты.

Пат... :-)

 

Ну что ж, дальше продолжать не имеет смысла.

Тем более, что сегодня отключил убожество I210 и поставил свою любимую 82576, на след. неделе потестирую на переводе на IPoE ещё одного сегмента.

Посмотрим на результат. Если не забуду, отпишу..

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

И снова - здравствуйте! (с)

Как это не печально (для меня), смысл продолжить обсуждение появился - переход на 82576 проблему не решил..

@rm_ , хотя я до сих пор не согласен c

В 20.06.2018 в 22:34, rm_ сказал:

...  это не вызвано аппаратными проблемами конкретной модели сетевой карты.

- по причине того, что у сетевой карты могут иметься и софтовые проблемы (прошивка/драйвер), которые никак не "оторвать" от конкретной модели,

но в данном случае на 50% Вы правы. Да и я тоже (в начале обсуждения) :-) 

Проблема однозначно не в сетевой карте и её "обвязке".

Очередной пат... :(

В какую сторону двигаться дальше, не понятно..

Может есть смысл "пересобраться" на 4-м ядре (сейчас - 3.10.108-1.el6.elrepo.x86_64)?
Для "моего" CentOS 6.9  в elrepo есть совсем свежее (от 16.06.18) lt-ядро 4.4.138-1.el6.elrepo.x86_64, ставится без проблем yum-ом.

accel на нём собирается и работает (проверял на тестовой древней супермикре).

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

auditd не пробовали ковырять?

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
9 минут назад, ShyLion сказал:

auditd не пробовали ковырять?

 

Вообще не трогал, работает по-дефолту.

А "ковырять"  - это в каком плане? Получения подробных системных сообщений, или что-то другое?

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Ну да. Я какбы не эксперт, так, мельком видел. Там можно настроить так что на каждый чих в системе будет писаться лог в аудит.

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вообще-то ни разу не пользовался audit.. Но навскидку как-то вроде не подходит он под задачу мониторинга состояния интерфейса.

Во всяком случае, я не нашёл ничего подходящего.. Может конечно, плохо искал..

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

там можно видеть как минимум запуски утилией типа ifconfig, ip

только настраивать надо

 

ЗЫ: это просто идея которая пришла в голову

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите в него для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас