Abram Опубликовано 20 мая, 2011 · Жалоба Всем доброго времени суток. Никто не сталкивался с подобным? http://dl.dropbox.com/u/12495607/IMG_20110520_120128.jpg x86_64, 2.6.38, accel-ppp, тупой ingress policer. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
nuclearcat Опубликовано 20 мая, 2011 · Жалоба TSO/GSO отключены надеюсь? У меня шейперы много где работают, в т.ч. ingress, но такого не встречал. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 20 мая, 2011 (изменено) · Жалоба TSO/GSO отключены надеюсь? У меня шейперы много где работают, в т.ч. ingress, но такого не встречал. Ух ты! В rc.local вписано кровью: ethtool -K eth0 gro off ethtool -K eth1 gro off Больше ничего не менялось. # ethtool -k eth0 Offload parameters for eth0: rx-checksumming: on tx-checksumming: on scatter-gather: on tcp-segmentation-offload: on udp-fragmentation-offload: off generic-segmentation-offload: on generic-receive-offload: off large-receive-offload: off rx-vlan-offload: on tx-vlan-offload: on ntuple-filters: off receive-hashing: off А чем TSO/GSO плох? У меня вроде проблем не вызывали. Попробую отключить. Спасибо за подсказку. Изменено 20 мая, 2011 пользователем Abram Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 20 мая, 2011 · Жалоба Да, забыл добавить: это igb. Драйвер интела, 3.0.22. # cat /etc/modprobe.d/igb.conf options igb RSS=4,4 options igb QueuePairs=0,0 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 20 мая, 2011 (изменено) · Жалоба Пару минут назад опять упал. Я уже не там, так что увижу причину падения только в понедельник. Изменено 20 мая, 2011 пользователем Abram Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
nuclearcat Опубликовано 20 мая, 2011 · Жалоба GSO тоже выключить Очень интересный эффект они дают, собирают в skb пакеты по 40кб, которые шейпер не очень хорошо переваривает Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 20 мая, 2011 · Жалоба GSO тоже выключить Очень интересный эффект они дают, собирают в skb пакеты по 40кб, которые шейпер не очень хорошо переваривает Упало с отключенными GSO, TSO и GRO. Может ради интереса вообще все offload-ы отключить? Видимо, таки придется сходить опять на работу и посмотреть на kernel panic - интерес перевешивает лень. :) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 22 мая, 2011 (изменено) · Жалоба Странно. Упало вообще по-другому: http://dl.dropbox.com/u/12495607/IMG_20110521_173622.jpg . Удалил Intel-овский igb, пока я был в серверной - опять упало, и опять по-другому: http://dl.dropbox.com/u/12495607/IMG_20110522_111832.jpg . Запустил на всякий случай тест памяти. Еще есть идеи? Возможен ли глюк сетевой? У меня еще одна есть, могу поменять. Изменено 22 мая, 2011 пользователем Abram Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 22 мая, 2011 (изменено) · Жалоба Тест памяти говорит, что все оке. Только что поменял сетевуху, запустил, только вышел из серверной - опять упал. http://dl.dropbox.com/u/12495607/IMG_20110522_122826.jpg Это уже с Intel-овским igb драйвером и новой сетевухой. Еще подозрения: bonding. Для эксперимента отключил один порт - то же самое. Завтра буду пробовать вообще его убрать. Изменено 22 мая, 2011 пользователем Abram Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
photon Опубликовано 22 мая, 2011 · Жалоба Если все так печально, почему тогда не рассматривается вариант собрать ядро другой версии или поставить FreeBSD? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 22 мая, 2011 · Жалоба Если все так печально, почему тогда не рассматривается вариант собрать ядро другой версии или поставить FreeBSD? Уже рассматриваю вариант поставить 2.6.39. А FreeBSD стоит сбоку. Сыплет время от времени ошибку 651, да и местным BSD-танцам с бубном я не обучен и как-то учиться не хочу :). Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
photon Опубликовано 22 мая, 2011 · Жалоба местным BSD-танцам с бубном я не обучен и как-то учиться не хочу :) А чего там учиться? Шейпер настраивается под Фряхой проще, чем под Линуксом. Главное с железом угадать, чтобы не напороться на неработающий драйвер сетевухи или чего-нибудь еще. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Ivan Rostovikov Опубликовано 22 мая, 2011 · Жалоба У меня тоже 2.6.38 падало... Поставил стоковое из дебиан. Стоит как вкопанное. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 22 мая, 2011 · Жалоба местным BSD-танцам с бубном я не обучен и как-то учиться не хочу :) А чего там учиться? Шейпер настраивается под Фряхой проще, чем под Линуксом. Главное с железом угадать, чтобы не напороться на неработающий драйвер сетевухи или чего-нибудь еще. Шейпер - дело десятое. А вот крутить эти все параметры в loader.conf... Брр. Не могу. У меня тоже 2.6.38 падало... Поставил стоковое из дебиан. Стоит как вкопанное. Попробую .39 и что-нибудь постарее. Спасибо. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
nuclearcat Опубликовано 22 мая, 2011 · Жалоба Если 39 будет сыпаться, можем накатать багрепорт в netdev maillist, мож пофиксят. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 22 мая, 2011 · Жалоба Если 39 будет сыпаться, можем накатать багрепорт в netdev maillist, мож пофиксят. В моем любимом дистрибутиве 2.6.39 уже в тестинге, набор патчей - минимальный. Так что завтра поставлю, посмотрим, что получится. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
nuclearcat Опубликовано 22 мая, 2011 · Жалоба Хм, разработчики вообще очень недолюбливают aufs2, по крайней мере пару лет назад. Хотя на сетевую часть не должно повлиять, там ничего сетевого нет. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 23 мая, 2011 · Жалоба nuclearcat, Соберу тогда без патчей. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
hawkmoon Опубликовано 24 мая, 2011 · Жалоба На .38 ведре помогает стабилизировать работу параметр slub_nomerge=1 в загрузку. У меня все также - 2.6.38.6, x86_64, бондинг и интеловые сетевухи. Правда не igb, а e1000. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 24 мая, 2011 (изменено) · Жалоба На .38 ведре помогает стабилизировать работу параметр slub_nomerge=1 в загрузку. У меня все также - 2.6.38.6, x86_64, бондинг и интеловые сетевухи. Правда не igb, а e1000. nuclearcat уже отправил багрепорт. Похоже, это sfq. Посмотри http://marc.info/?l=linux-netdev&m=130614491524959&w=2 - похоже? Изменено 24 мая, 2011 пользователем Abram Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
SiXeD Опубликовано 24 мая, 2011 · Жалоба Никто не сталкивался с подобным? http://dl.dropbox.com/u/12495607/IMG_20110520_120128.jpg x86_64, 2.6.38, accel-ppp, тупой ingress policer. также на 2.6.31-gentoo-r6 x86_64 Intel® Core i7 CPU 920 @ 2.67GHz начал выдавать такие ошибки после выгорания интегрированных сетевых карт Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
DemYaN Опубликовано 24 мая, 2011 · Жалоба На .38 ведре помогает стабилизировать работу параметр slub_nomerge=1 в загрузку. У меня все также - 2.6.38.6, x86_64, бондинг и интеловые сетевухи. Правда не igb, а e1000. в 2.6.38 еще был баг(32772) с глубиной стека в net/ipv4/inetpeer.c, фикс-патч попал в 2.6.39 и проблема была устранена Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 24 мая, 2011 · Жалоба Никто не сталкивался с подобным? http://dl.dropbox.com/u/12495607/IMG_20110520_120128.jpg x86_64, 2.6.38, accel-ppp, тупой ingress policer. также на 2.6.31-gentoo-r6 x86_64 Intel® Core i7 CPU 920 @ 2.67GHz начал выдавать такие ошибки после выгорания интегрированных сетевых карт Вряд ли это то же самое. На .38 ведре помогает стабилизировать работу параметр slub_nomerge=1 в загрузку. У меня все также - 2.6.38.6, x86_64, бондинг и интеловые сетевухи. Правда не igb, а e1000. в 2.6.38 еще был баг(32772) с глубиной стека в net/ipv4/inetpeer.c, фикс-патч попал в 2.6.39 и проблема была устранена Проверили на 2.6.39, падает. Отправили баг-репорт. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 24 мая, 2011 · Жалоба у меня падал шейпер на 37-м и стабилизировалось на Linux sirmax 2.6.38.2-sirmax1 #1 SMP PREEMPT Sat Apr 9 16:26:46 EEST 2011 x86_64 AMD Athlon(tm) 64 X2 Dual Core Processor 4400+ AuthenticAMD GNU/Linux Ванильное, без патчей Шейпер простейший, ifb+sfq, причем падал от траффика. В тесте по вай-фаю все в норме, в том же влане первый ще тест по кабелю - и паника. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 26 мая, 2011 (изменено) · Жалоба Увы, разобраться, что к чему, так и не получилось. Откатился на 2.6.35, все работает. Сервер уже в продакшене (нужно было срочно поставить), дальше разбираться возможности нет. Точно стало известно: * sfq тут ни при чем. Как и вообще что-либо другое в шейпере - отключил шейпер полностью, все равно упало. * igb ни при чем. Падает как с родным, так и с интеловским драйвером. * slub_nomerge тоже ни при чем. * Баг 32772 на мое ядро не влиял. Хотя вполне возможно, что истина где-то рядом - валится вроде бы в том же районе. * Железо у меня тоже нормальное, на совсем другой машине точно так же валится. * tso/gso/gro ни при чем (хотя gro все равно лучше отключить ;) ). Что я не проверял - это модуль pptp. В .38/.39 использовал ядерный. Хотя вроде xeb говорил, что в ядре он стабильный. Вот такая вот фигня. Изменено 26 мая, 2011 пользователем Abram Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...