Jump to content
Калькуляторы

kernel panic в шейпере 2.6.38

TSO/GSO отключены надеюсь?

У меня шейперы много где работают, в т.ч. ingress, но такого не встречал.

Share this post


Link to post
Share on other sites

TSO/GSO отключены надеюсь?

У меня шейперы много где работают, в т.ч. ingress, но такого не встречал.

Ух ты!

В rc.local вписано кровью:

ethtool -K eth0 gro off
ethtool -K eth1 gro off

Больше ничего не менялось.

# ethtool -k eth0
Offload parameters for eth0:
rx-checksumming: on
tx-checksumming: on
scatter-gather: on
tcp-segmentation-offload: on
udp-fragmentation-offload: off
generic-segmentation-offload: on
generic-receive-offload: off
large-receive-offload: off
rx-vlan-offload: on
tx-vlan-offload: on
ntuple-filters: off
receive-hashing: off

 

А чем TSO/GSO плох? У меня вроде проблем не вызывали. Попробую отключить. Спасибо за подсказку.

Edited by Abram

Share this post


Link to post
Share on other sites

Да, забыл добавить: это igb. Драйвер интела, 3.0.22.

# cat /etc/modprobe.d/igb.conf 
options igb RSS=4,4
options igb QueuePairs=0,0

Share this post


Link to post
Share on other sites

Пару минут назад опять упал. Я уже не там, так что увижу причину падения только в понедельник.

Edited by Abram

Share this post


Link to post
Share on other sites

GSO тоже выключить

Очень интересный эффект они дают, собирают в skb пакеты по 40кб, которые шейпер не очень хорошо переваривает

Share this post


Link to post
Share on other sites

GSO тоже выключить

Очень интересный эффект они дают, собирают в skb пакеты по 40кб, которые шейпер не очень хорошо переваривает

Упало с отключенными GSO, TSO и GRO.

Может ради интереса вообще все offload-ы отключить?

Видимо, таки придется сходить опять на работу и посмотреть на kernel panic - интерес перевешивает лень. :)

Share this post


Link to post
Share on other sites

Странно. Упало вообще по-другому: http://dl.dropbox.com/u/12495607/IMG_20110521_173622.jpg .

Удалил Intel-овский igb, пока я был в серверной - опять упало, и опять по-другому: http://dl.dropbox.com/u/12495607/IMG_20110522_111832.jpg .

Запустил на всякий случай тест памяти.

 

Еще есть идеи?

Возможен ли глюк сетевой? У меня еще одна есть, могу поменять.

Edited by Abram

Share this post


Link to post
Share on other sites

Тест памяти говорит, что все оке.

Только что поменял сетевуху, запустил, только вышел из серверной - опять упал.

http://dl.dropbox.com/u/12495607/IMG_20110522_122826.jpg

Это уже с Intel-овским igb драйвером и новой сетевухой. Еще подозрения: bonding. Для эксперимента отключил один порт - то же самое.

Завтра буду пробовать вообще его убрать.

Edited by Abram

Share this post


Link to post
Share on other sites

Если все так печально, почему тогда не рассматривается вариант собрать ядро другой версии или поставить FreeBSD?

Share this post


Link to post
Share on other sites

Если все так печально, почему тогда не рассматривается вариант собрать ядро другой версии или поставить FreeBSD?

Уже рассматриваю вариант поставить 2.6.39.

А FreeBSD стоит сбоку. Сыплет время от времени ошибку 651, да и местным BSD-танцам с бубном я не обучен и как-то учиться не хочу :).

Share this post


Link to post
Share on other sites
местным BSD-танцам с бубном я не обучен и как-то учиться не хочу :)

А чего там учиться? Шейпер настраивается под Фряхой проще, чем под Линуксом. Главное с железом угадать, чтобы не напороться на неработающий драйвер сетевухи или чего-нибудь еще.

Share this post


Link to post
Share on other sites
местным BSD-танцам с бубном я не обучен и как-то учиться не хочу :)

А чего там учиться? Шейпер настраивается под Фряхой проще, чем под Линуксом. Главное с железом угадать, чтобы не напороться на неработающий драйвер сетевухи или чего-нибудь еще.

Шейпер - дело десятое. А вот крутить эти все параметры в loader.conf... Брр. Не могу.

У меня тоже 2.6.38 падало...

Поставил стоковое из дебиан. Стоит как вкопанное.

Попробую .39 и что-нибудь постарее. Спасибо.

Share this post


Link to post
Share on other sites

Если 39 будет сыпаться, можем накатать багрепорт в netdev maillist, мож пофиксят.

Share this post


Link to post
Share on other sites

Если 39 будет сыпаться, можем накатать багрепорт в netdev maillist, мож пофиксят.

В моем любимом дистрибутиве 2.6.39 уже в тестинге, набор патчей - минимальный. Так что завтра поставлю, посмотрим, что получится.

Share this post


Link to post
Share on other sites

Хм, разработчики вообще очень недолюбливают aufs2, по крайней мере пару лет назад.

Хотя на сетевую часть не должно повлиять, там ничего сетевого нет.

Share this post


Link to post
Share on other sites

На .38 ведре помогает стабилизировать работу параметр slub_nomerge=1 в загрузку.

У меня все также - 2.6.38.6, x86_64, бондинг и интеловые сетевухи. Правда не igb, а e1000.

Share this post


Link to post
Share on other sites

На .38 ведре помогает стабилизировать работу параметр slub_nomerge=1 в загрузку.

У меня все также - 2.6.38.6, x86_64, бондинг и интеловые сетевухи. Правда не igb, а e1000.

nuclearcat уже отправил багрепорт. Похоже, это sfq.

Посмотри http://marc.info/?l=linux-netdev&m=130614491524959&w=2 - похоже?

Edited by Abram

Share this post


Link to post
Share on other sites

Никто не сталкивался с подобным? http://dl.dropbox.com/u/12495607/IMG_20110520_120128.jpg

x86_64, 2.6.38, accel-ppp, тупой ingress policer.

также на 2.6.31-gentoo-r6 x86_64 Intel® Core i7 CPU 920 @ 2.67GHz

начал выдавать такие ошибки после выгорания интегрированных сетевых карт

Share this post


Link to post
Share on other sites

На .38 ведре помогает стабилизировать работу параметр slub_nomerge=1 в загрузку.

У меня все также - 2.6.38.6, x86_64, бондинг и интеловые сетевухи. Правда не igb, а e1000.

в 2.6.38 еще был баг(32772) с глубиной стека в net/ipv4/inetpeer.c, фикс-патч попал в 2.6.39 и проблема была устранена

Share this post


Link to post
Share on other sites

Никто не сталкивался с подобным? http://dl.dropbox.com/u/12495607/IMG_20110520_120128.jpg

x86_64, 2.6.38, accel-ppp, тупой ingress policer.

также на 2.6.31-gentoo-r6 x86_64 Intel® Core™ i7 CPU 920 @ 2.67GHz

начал выдавать такие ошибки после выгорания интегрированных сетевых карт

Вряд ли это то же самое.

 

На .38 ведре помогает стабилизировать работу параметр slub_nomerge=1 в загрузку.

У меня все также - 2.6.38.6, x86_64, бондинг и интеловые сетевухи. Правда не igb, а e1000.

в 2.6.38 еще был баг(32772) с глубиной стека в net/ipv4/inetpeer.c, фикс-патч попал в 2.6.39 и проблема была устранена

Проверили на 2.6.39, падает. Отправили баг-репорт.

Share this post


Link to post
Share on other sites

у меня падал шейпер на 37-м и стабилизировалось на

Linux sirmax 2.6.38.2-sirmax1 #1 SMP PREEMPT Sat Apr 9 16:26:46 EEST 2011 x86_64 AMD Athlon(tm) 64 X2 Dual Core Processor 4400+ AuthenticAMD GNU/Linux

Ванильное, без патчей

 

Шейпер простейший, ifb+sfq, причем падал от траффика. В тесте по вай-фаю все в норме, в том же влане первый ще тест по кабелю - и паника.

Share this post


Link to post
Share on other sites

Увы, разобраться, что к чему, так и не получилось. Откатился на 2.6.35, все работает. Сервер уже в продакшене (нужно было срочно поставить), дальше разбираться возможности нет.

Точно стало известно:

 

* sfq тут ни при чем. Как и вообще что-либо другое в шейпере - отключил шейпер полностью, все равно упало.

* igb ни при чем. Падает как с родным, так и с интеловским драйвером.

* slub_nomerge тоже ни при чем.

* Баг 32772 на мое ядро не влиял. Хотя вполне возможно, что истина где-то рядом - валится вроде бы в том же районе.

* Железо у меня тоже нормальное, на совсем другой машине точно так же валится.

* tso/gso/gro ни при чем (хотя gro все равно лучше отключить ;) ).

 

Что я не проверял - это модуль pptp. В .38/.39 использовал ядерный. Хотя вроде xeb говорил, что в ядре он стабильный.

 

Вот такая вот фигня.

Edited by Abram

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this