lystor Опубликовано 11 января, 2013 (изменено) · Жалоба Здравствуйте, коллеги Какую из актуальных ветку ядра посоветуете для задач NAT + ipt_netflow на одном сервере? Или кто какие использует? Сетевые карты - классика в виде Intel 82576 с 2-4 портами на борту. Задача - переваривать 2-4 Gb на одном сервере с x86_64 архитектурой. На данный момент на kernel.org имеем следующую картину: stable: 3.7.2 mainline: 3.7 stable: 3.6.11 (EOL) stable: 3.5.7 (EOL) stable: 3.4.25 stable: 3.2.36 stable: 3.0.58 stable: 2.6.34.13 stable: 2.6.32.60 Спасибо Изменено 11 января, 2013 пользователем lystor Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
replicant Опубликовано 11 января, 2013 (изменено) · Жалоба 3.2.х весьма стабильно себя ведет начиная уже с 10-х ядер. Также пользую 2.6.32.х на разных машинах. Нареканий тоже нет. Но есс-но ядра пересобираю под свои задачи, а в этом деле как соберешь, так и полетит. Бывает еще аппаратные глюки вылезают, но тут уже ядро непричем. Есть у меня два сервера (железо один в один + вся ОС с настройками и т.п. клонировалась с точностью до байта), на одном сервере полет нормальный, а на другом [72305.818317] INFO: rcu_bh detected stalls on CPUs/tasks: { 4} (detected by 2, t=60003 jiffies) [72305.818323] Pid: 0, comm: swapper/2 Tainted: G O 3.2.35 #1 [72305.818324] Call Trace: [72305.818326] <IRQ> [<ffffffff810adad5>] __rcu_pending+0x415/0x420 [72305.818335] [<ffffffff810adf2b>] rcu_check_callbacks+0xcb/0x1c0 [72305.818339] [<ffffffff810608a8>] update_process_times+0x48/0x90 [72305.818343] [<ffffffff810825e6>] tick_sched_timer+0x66/0xc0 [72305.818346] [<ffffffff8107571f>] __run_hrtimer+0x7f/0x1c0 [72305.818348] [<ffffffff81082580>] ? tick_nohz_handler+0xf0/0xf0 [72305.818351] [<ffffffff810760a7>] hrtimer_interrupt+0xf7/0x220 [72305.818354] [<ffffffff8155d039>] smp_apic_timer_interrupt+0x69/0x99 [72305.818358] [<ffffffff8155be0b>] apic_timer_interrupt+0x6b/0x70 [72305.818359] <EOI> [<ffffffff8143d37a>] ? poll_idle+0x3a/0x90 [72305.818365] [<ffffffff8143d35c>] ? poll_idle+0x1c/0x90 [72305.818367] [<ffffffff8143d759>] cpuidle_idle_call+0xc9/0x230 [72305.818370] [<ffffffff8100096a>] cpu_idle+0xaa/0x110 [72305.818374] [<ffffffff8154a60d>] start_secondary+0x1cf/0x1d6 [72305.923268] INFO: rcu_sched detected stalls on CPUs/tasks: { 4} (detected by 0, t=60002 jiffies) [72305.923273] Pid: 0, comm: swapper/0 Tainted: G O 3.2.35 #1 [72305.923275] Call Trace: [72305.923276] <IRQ> [<ffffffff810adad5>] __rcu_pending+0x415/0x420 [72305.923282] [<ffffffff810adedf>] rcu_check_callbacks+0x7f/0x1c0 [72305.923285] [<ffffffff810608a8>] update_process_times+0x48/0x90 [72305.923288] [<ffffffff810825e6>] tick_sched_timer+0x66/0xc0 [72305.923290] [<ffffffff8107571f>] __run_hrtimer+0x7f/0x1c0 [72305.923292] [<ffffffff81082580>] ? tick_nohz_handler+0xf0/0xf0 [72305.923295] [<ffffffff810760a7>] hrtimer_interrupt+0xf7/0x220 [72305.923298] [<ffffffff8155d039>] smp_apic_timer_interrupt+0x69/0x99 [72305.923300] [<ffffffff8155be0b>] apic_timer_interrupt+0x6b/0x70 [72305.923302] <EOI> [<ffffffff812f9b2a>] ? intel_idle+0xea/0x150 [72305.923306] [<ffffffff812f9b08>] ? intel_idle+0xc8/0x150 [72305.923309] [<ffffffff8143d759>] cpuidle_idle_call+0xc9/0x230 [72305.923311] [<ffffffff8100096a>] cpu_idle+0xaa/0x110 [72305.923315] [<ffffffff81536fd9>] rest_init+0x6d/0x74 [72305.923318] [<ffffffff81892b6b>] start_kernel+0x380/0x38b [72305.923320] [<ffffffff81892322>] x86_64_start_reservations+0x132/0x136 [72305.923323] [<ffffffff818923fe>] x86_64_start_kernel+0xd8/0xdc но при этом все работает и ничего не валится ... шейпит, натит и трафик считает без проблем ... долго искал в чем баг, но поскольку сервер клонирован, то зашел в тупик. Ядро 3.2.35 64-bit как можно увидеть в коде. В 3.2.36 что-то насчет RCU правили и даже упоминали при этом 3.7.0, если не ошибаюсь в changelog, но пока проверять не было возможности. С другим ядром могло бы и упасть ... 3.2.х отличаются хорошей устойчивостью. Есть несколько NAT машин, так вот они падали на 2.6.32.х, а на 3.2.х аптаймы по году и более. А web-сервера стоят себе на 2.6.32.х и в ус не дуют. Для NAT лучше выбирать 3.2.х или выше. Более стабильно, если так можно выразиться. Изменено 11 января, 2013 пользователем replicant Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
lystor Опубликовано 11 января, 2013 (изменено) · Жалоба 3.2.х весьма стабильно себя ведет начиная уже с 10-х ядер. Также пользую 2.6.32.х на разных машинах. Нареканий тоже нет. Спасибо Сегодня тоже феерический баг словил: RHEL 6.3 x86_64 Старый сервер на SE7520 под нагрузкой до гигабита (только NAT). Решил обновить kernel 2.6.32-131.0.15.el6 + igb 3.0.22 до 2.6.32-279.19.1.el6 + igb 4.1.2. После ребута сразу же получил: Jan 11 14:59:20 vega kernel: irq 16: nobody cared (try booting with the "irqpoll" option) Jan 11 14:59:20 vega kernel: Pid: 0, comm: swapper Not tainted 2.6.32-279.19.1.el6.x86_64 #1 Jan 11 14:59:20 vega kernel: Call Trace: Jan 11 14:59:20 vega kernel: <IRQ> [<ffffffff810daa5b>] ? __report_bad_irq+0x2b/0xa0 Jan 11 14:59:20 vega kernel: [<ffffffff810dac5c>] ? note_interrupt+0x18c/0x1d0 Jan 11 14:59:20 vega kernel: [<ffffffff810db37d>] ? handle_fasteoi_irq+0xcd/0xf0 Jan 11 14:59:20 vega kernel: [<ffffffff8100de89>] ? handle_irq+0x49/0xa0 Jan 11 14:59:20 vega kernel: [<ffffffff814f1eac>] ? do_IRQ+0x6c/0xf0 Jan 11 14:59:20 vega kernel: [<ffffffff8100b9d3>] ? ret_from_intr+0x0/0x11 Jan 11 14:59:20 vega kernel: <EOI> [<ffffffff81014707>] ? mwait_idle+0x77/0xd0 Jan 11 14:59:20 vega kernel: [<ffffffff814ef7aa>] ? atomic_notifier_call_chain+0x1a/0x20 Jan 11 14:59:20 vega kernel: [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 Jan 11 14:59:20 vega kernel: [<ffffffff814e32aa>] ? start_secondary+0x22a/0x26d Jan 11 14:59:20 vega kernel: handlers: Jan 11 14:59:20 vega kernel: [<ffffffff81396730>] (usb_hcd_irq+0x0/0x90) Jan 11 14:59:20 vega kernel: Disabling IRQ #16 Но самый смак - как только приходит 10-20 Mbit трафика - %sy в top сразу возрастает до 80-90%, после чего все умирает, включая клавиатуру. Откаты igb 4.1.2 -> 3.4.8 -> 3.0.22 проблему не решили, irqpoll тоже, только возврат к предыдущей версии ядра. Вручную собрал 3.0.57 + igb 4.1.2 - полет нормальный. Вот такой вот хваленый Enterprise... Еще кто опытом может поделиться? :) Изменено 11 января, 2013 пользователем lystor Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Wingman Опубликовано 11 января, 2013 · Жалоба lisg + nat ~ 2-3 gbps (3.4.9) и ~1.5 gpps (2.6.34) - полет отличный Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...