borcat Опубликовано 24 февраля, 2014 (изменено) · Жалоба Как в сказке: всё было прекрасно и замечательно пока не наступило... До февраля месяца всё крутилось замечательно (да и февраль немного) и тут "внезапно" стал уходить в ребут софтроутер. Причём иногда не уходить, а зависать намертво. В логах ничего не писал. В озязанности его входило нат, шейпинг, ipt_netflow. Подумалось что железка вдруг не справляется или сломалась. Но т.к. заменить было нечем - был куплен новый сервак. С600/Х79 + 2 * E5-2680v2 + 8*4G + X520-DA2... та самая X520-DA2 - это аплинк/даунлинк. Заодно вместо православной Gentoo решено было поставить Centos 6.5. Тем более что есть ещё одна машинка где оно крутится замечательно. Установили-запустили. И что удивительно - проблема осталась... После очередного ребута в логах было замечено: Feb 22 15:38:00 nat kernel: ------------[ cut here ]------------ Feb 22 15:38:00 nat kernel: WARNING: at net/sched/sch_generic.c:261 dev_watchdog+0x26b/0x280() (Not tainted) Feb 22 15:38:00 nat kernel: Hardware name: X9DRW-7/iTPF Feb 22 15:38:00 nat kernel: NETDEV WATCHDOG: eth1 (ixgbe): transmit queue 28 timed out Feb 22 15:38:00 nat kernel: Modules linked in: nf_conntrack_netlink sch_sfq xt_hashlimit iptable_filter xt_CONNMARK xt_connmark iptable_mangle xt_set iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 iptable_raw iptable_security ip_tables ipt_NETFLOW(U) cls_fw sch_htb ip_set_hash_ip ip_set nfnetlink coretemp ip6t_REJECT nf_conntrack_ipv6 nf_defrag_ipv6 xt_state nf_conntrack ip6table_filter ip6_tables ipv6 dm_mod iTCO_wdt iTCO_vendor_support acpi_pad igb i2c_algo_bit ptp pps_core serio_raw sg ixgbe(U) dca i2c_i801 i2c_core lpc_ich mfd_core shpchp ext4 jbd2 mbcache sd_mod crc_t10dif megaraid_sas wmi [last unloaded: scsi_wait_scan] Feb 22 15:38:00 nat kernel: Pid: 0, comm: swapper Not tainted 2.6.32-431.5.1.el6.x86_64 #1 Feb 22 15:38:00 nat kernel: Call Trace: Feb 22 15:38:00 nat kernel: <IRQ> [<ffffffff81071e27>] ? warn_slowpath_common+0x87/0xc0 Feb 22 15:38:00 nat kernel: [<ffffffff81071f16>] ? warn_slowpath_fmt+0x46/0x50 Feb 22 15:38:00 nat kernel: [<ffffffff8147b99b>] ? dev_watchdog+0x26b/0x280 Feb 22 15:38:00 nat kernel: [<ffffffff8105ddae>] ? scheduler_tick+0x11e/0x260 Feb 22 15:38:00 nat kernel: [<ffffffff8147b730>] ? dev_watchdog+0x0/0x280 Feb 22 15:38:00 nat kernel: [<ffffffff81084ae7>] ? run_timer_softirq+0x197/0x340 Feb 22 15:38:00 nat kernel: [<ffffffff810ac8e5>] ? tick_dev_program_event+0x65/0xc0 Feb 22 15:38:00 nat kernel: [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0 Feb 22 15:38:00 nat kernel: [<ffffffff810ac9ba>] ? tick_program_event+0x2a/0x30 Feb 22 15:38:00 nat kernel: [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30 Feb 22 15:38:00 nat kernel: [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0 Feb 22 15:38:00 nat kernel: [<ffffffff8107a795>] ? irq_exit+0x85/0x90 Feb 22 15:38:00 nat kernel: [<ffffffff815313ba>] ? smp_apic_timer_interrupt+0x4a/0x60 Feb 22 15:38:00 nat kernel: [<ffffffff8100bb93>] ? apic_timer_interrupt+0x13/0x20 Feb 22 15:38:00 nat kernel: <EOI> [<ffffffff81426708>] ? poll_idle+0x38/0x80 Feb 22 15:38:00 nat kernel: [<ffffffff814266e3>] ? poll_idle+0x13/0x80 Feb 22 15:38:00 nat kernel: [<ffffffff814268f7>] ? cpuidle_idle_call+0xa7/0x140 Feb 22 15:38:00 nat kernel: [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 Feb 22 15:38:00 nat kernel: [<ffffffff8152112c>] ? start_secondary+0x2ac/0x2ef Feb 22 15:38:00 nat kernel: ---[ end trace b19a109e5624c9cd ]--- Feb 22 15:38:00 nat kernel: ixgbe 0000:03:00.1: eth1: Fake Tx hang detected with timeout of 5 seconds Feb 22 15:38:10 nat kernel: ixgbe 0000:03:00.1: eth1: Fake Tx hang detected with timeout of 10 seconds Feb 22 15:38:30 nat kernel: ixgbe 0000:03:00.1: eth1: Fake Tx hang detected with timeout of 20 seconds Feb 22 15:38:50 nat kernel: ixgbe 0000:03:00.1: eth1: Fake Tx hang detected with timeout of 20 seconds подумалось вот оно! и в недрах инета было найдено, а потом поправлено и поправлено решение: в опциях к ядру добавить "pcie_aspm=off pcie_aspm.policy=performance" ну и в rc.local "echo performance > /sys/module/pcie_aspm/parameters/policy" отработало 2 дня и всё опять сначала... ребутится в среднем 3-4 раза в день, абсолютно независимо от нагрузки. что было сделано: прочитана куча форумов, эксперименты с HT, разные настройки сетёвок, разные варианты прибивания прерываний... не помогает!!! что есть сейчас: rc.local /usr/sbin/ethtool -K eth0 gso off/usr/sbin/ethtool -K eth0 gro off /usr/sbin/ethtool -K eth0 tso off /usr/sbin/ethtool -G eth0 tx 4096 rx 4096 /usr/sbin/ethtool -C eth0 rx-usecs 100 /usr/sbin/ethtool -K eth1 gso off /usr/sbin/ethtool -K eth1 gro off /usr/sbin/ethtool -K eth1 tso off /usr/sbin/ethtool -G eth1 tx 4096 rx 4096 /usr/sbin/ethtool -C eth1 rx-usecs 100 /sbin/ifconfig eth0 txqueuelen 10000 mtu 9000 up /sbin/ifconfig eth1 txqueuelen 10000 mtu 9000 up sysctl.conf net.ipv4.ip_forward = 1net.ipv4.conf.default.rp_filter = 0 net.ipv4.conf.all.rp_filter = 0 net.ipv4.tcp_syncookies = 1 net.ipv4.conf.all.accept_source_route = 0 net.ipv4.conf.default.accept_source_route = 0 net.ipv4.conf.all.accept_redirects = 0 net.ipv4.conf.default.accept_redirects = 0 net.ipv4.conf.all.secure_redirects = 0 net.ipv4.conf.default.secure_redirects = 0 net.ipv4.icmp_echo_ignore_broadcasts = 1 # а это очевидно то что помогает ребутить. если отключить - экран и логи всё равно пусты kernel.panic = 3 net.netfilter.nf_conntrack_max = 2097152 net.netfilter.nf_conntrack_tcp_timeout_established = 3600 net.ipv4.neigh.default.gc_thresh1 = 2048 net.ipv4.neigh.default.gc_thresh2 = 4096 net.ipv4.neigh.default.gc_thresh3 = 8192 net.ipv4.tcp_window_scaling = 1 net.core.rmem_max = 16777216 net.core.wmem_max = 16777216 net.core.rmem_default = 16777216 net.core.wmem_default = 16777216 net.core.optmem_max = 16777216 net.ipv4.tcp_rmem = 16777216 16777216 16777216 net.ipv4.tcp_wmem = 16777216 16777216 16777216 net.ipv4.tcp_mem = 16777216 16777216 16777216 net.ipv4.ip_local_port_range = 1024 65000 net.core.netdev_max_backlog = 300000 net.ipv4.route.flush=1 net.ipv4.tcp_no_metrics_save = 1 net.ipv4.tcp_moderate_rcvbuf = 1 net.ipv4.tcp_keepalive_time = 60 net.ipv4.tcp_keepalive_intvl = 10 net.ipv4.tcp_keepalive_probes = 5 net.ipv4.tcp_sack = 0 net.ipv4.tcp_timestamps = 0 активно применяется ipset, есть хешинг в tc инициализация шейпера: /sbin/tc qdisc add dev ".$if." root handle 1: htb/sbin/tc filter add dev ".$if." protocol ip parent 1: prio 5 fw шейпинг абонента (по маркам) class add dev ".$eth." parent 1: classid 1:".$markh." htb rate ".$shape."Kbit ceil ".$ceil."Kbit burst ".$burst."Kb/sbin/tc qdisc add dev ".$eth." parent 1:".$markh." handle ".$markh.": sfq perturb 10 И вот совсем не знаю что делать... ЧНН: 3Gbss на 250Kps Тому кто поможет решить проблему - бонус в виде хорошей премии. зы: сервер боевой. старый снял - начал просто так гонять - спецэффектов нету... явно что-то с трафиком и/или из-за трафика. Повторюсь - перезагружается независимо от нагрузки. Изменено 24 февраля, 2014 пользователем borcat Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
tartila Опубликовано 24 февраля, 2014 · Жалоба Как в сказке: всё было прекрасно и замечательно пока не наступило... До февраля месяца всё крутилось замечательно (да и февраль немного) и тут "внезапно" стал уходить в ребут софтроутер. Причём иногда не уходить, а зависать намертво. В логах ничего не писал. В озязанности его входило нат, шейпинг, ipt_netflow. Подумалось что железка вдруг не справляется или сломалась. Но т.к. заменить было нечем - был куплен новый сервак. С600/Х79 + 2 * E5-2680v2 + 8*4G + X520-DA2... та самая X520-DA2 - это аплинк/даунлинк. Заодно вместо православной Gentoo решено было поставить Centos 6.5. Тем более что есть ещё одна машинка где оно крутится замечательно. Установили-запустили. И что удивительно - проблема осталась... После очередного ребута в логах было замечено: Feb 22 15:38:00 nat kernel: ------------[ cut here ]------------ Feb 22 15:38:00 nat kernel: WARNING: at net/sched/sch_generic.c:261 dev_watchdog+0x26b/0x280() (Not tainted) Feb 22 15:38:00 nat kernel: Hardware name: X9DRW-7/iTPF Feb 22 15:38:00 nat kernel: NETDEV WATCHDOG: eth1 (ixgbe): transmit queue 28 timed out Feb 22 15:38:00 nat kernel: Modules linked in: nf_conntrack_netlink sch_sfq xt_hashlimit iptable_filter xt_CONNMARK xt_connmark iptable_mangle xt_set iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 iptable_raw iptable_security ip_tables ipt_NETFLOW(U) cls_fw sch_htb ip_set_hash_ip ip_set nfnetlink coretemp ip6t_REJECT nf_conntrack_ipv6 nf_defrag_ipv6 xt_state nf_conntrack ip6table_filter ip6_tables ipv6 dm_mod iTCO_wdt iTCO_vendor_support acpi_pad igb i2c_algo_bit ptp pps_core serio_raw sg ixgbe(U) dca i2c_i801 i2c_core lpc_ich mfd_core shpchp ext4 jbd2 mbcache sd_mod crc_t10dif megaraid_sas wmi [last unloaded: scsi_wait_scan] Feb 22 15:38:00 nat kernel: Pid: 0, comm: swapper Not tainted 2.6.32-431.5.1.el6.x86_64 #1 Feb 22 15:38:00 nat kernel: Call Trace: Feb 22 15:38:00 nat kernel: <IRQ> [<ffffffff81071e27>] ? warn_slowpath_common+0x87/0xc0 Feb 22 15:38:00 nat kernel: [<ffffffff81071f16>] ? warn_slowpath_fmt+0x46/0x50 Feb 22 15:38:00 nat kernel: [<ffffffff8147b99b>] ? dev_watchdog+0x26b/0x280 Feb 22 15:38:00 nat kernel: [<ffffffff8105ddae>] ? scheduler_tick+0x11e/0x260 Feb 22 15:38:00 nat kernel: [<ffffffff8147b730>] ? dev_watchdog+0x0/0x280 Feb 22 15:38:00 nat kernel: [<ffffffff81084ae7>] ? run_timer_softirq+0x197/0x340 Feb 22 15:38:00 nat kernel: [<ffffffff810ac8e5>] ? tick_dev_program_event+0x65/0xc0 Feb 22 15:38:00 nat kernel: [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0 Feb 22 15:38:00 nat kernel: [<ffffffff810ac9ba>] ? tick_program_event+0x2a/0x30 Feb 22 15:38:00 nat kernel: [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30 Feb 22 15:38:00 nat kernel: [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0 Feb 22 15:38:00 nat kernel: [<ffffffff8107a795>] ? irq_exit+0x85/0x90 Feb 22 15:38:00 nat kernel: [<ffffffff815313ba>] ? smp_apic_timer_interrupt+0x4a/0x60 Feb 22 15:38:00 nat kernel: [<ffffffff8100bb93>] ? apic_timer_interrupt+0x13/0x20 Feb 22 15:38:00 nat kernel: <EOI> [<ffffffff81426708>] ? poll_idle+0x38/0x80 Feb 22 15:38:00 nat kernel: [<ffffffff814266e3>] ? poll_idle+0x13/0x80 Feb 22 15:38:00 nat kernel: [<ffffffff814268f7>] ? cpuidle_idle_call+0xa7/0x140 Feb 22 15:38:00 nat kernel: [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 Feb 22 15:38:00 nat kernel: [<ffffffff8152112c>] ? start_secondary+0x2ac/0x2ef Feb 22 15:38:00 nat kernel: ---[ end trace b19a109e5624c9cd ]--- Feb 22 15:38:00 nat kernel: ixgbe 0000:03:00.1: eth1: Fake Tx hang detected with timeout of 5 seconds Feb 22 15:38:10 nat kernel: ixgbe 0000:03:00.1: eth1: Fake Tx hang detected with timeout of 10 seconds Feb 22 15:38:30 nat kernel: ixgbe 0000:03:00.1: eth1: Fake Tx hang detected with timeout of 20 seconds Feb 22 15:38:50 nat kernel: ixgbe 0000:03:00.1: eth1: Fake Tx hang detected with timeout of 20 seconds подумалось вот оно! и в недрах инета было найдено, а потом поправлено и поправлено решение: в опциях к ядру добавить "pcie_aspm=off pcie_aspm.policy=performance" ну и в rc.local "echo performance > /sys/module/pcie_aspm/parameters/policy" отработало 2 дня и всё опять сначала... ребутится в среднем 3-4 раза в день, абсолютно независимо от нагрузки. что было сделано: прочитана куча форумов, эксперименты с HT, разные настройки сетёвок, разные варианты прибивания прерываний... не помогает!!! что есть сейчас: rc.local /usr/sbin/ethtool -K eth0 gso off/usr/sbin/ethtool -K eth0 gro off /usr/sbin/ethtool -K eth0 tso off /usr/sbin/ethtool -G eth0 tx 4096 rx 4096 /usr/sbin/ethtool -C eth0 rx-usecs 100 /usr/sbin/ethtool -K eth1 gso off /usr/sbin/ethtool -K eth1 gro off /usr/sbin/ethtool -K eth1 tso off /usr/sbin/ethtool -G eth1 tx 4096 rx 4096 /usr/sbin/ethtool -C eth1 rx-usecs 100 /sbin/ifconfig eth0 txqueuelen 10000 mtu 9000 up /sbin/ifconfig eth1 txqueuelen 10000 mtu 9000 up sysctl.conf net.ipv4.ip_forward = 1net.ipv4.conf.default.rp_filter = 0 net.ipv4.conf.all.rp_filter = 0 net.ipv4.tcp_syncookies = 1 net.ipv4.conf.all.accept_source_route = 0 net.ipv4.conf.default.accept_source_route = 0 net.ipv4.conf.all.accept_redirects = 0 net.ipv4.conf.default.accept_redirects = 0 net.ipv4.conf.all.secure_redirects = 0 net.ipv4.conf.default.secure_redirects = 0 net.ipv4.icmp_echo_ignore_broadcasts = 1 # а это очевидно то что помогает ребутить. если отключить - экран и логи всё равно пусты kernel.panic = 3 net.netfilter.nf_conntrack_max = 2097152 net.netfilter.nf_conntrack_tcp_timeout_established = 3600 net.ipv4.neigh.default.gc_thresh1 = 2048 net.ipv4.neigh.default.gc_thresh2 = 4096 net.ipv4.neigh.default.gc_thresh3 = 8192 net.ipv4.tcp_window_scaling = 1 net.core.rmem_max = 16777216 net.core.wmem_max = 16777216 net.core.rmem_default = 16777216 net.core.wmem_default = 16777216 net.core.optmem_max = 16777216 net.ipv4.tcp_rmem = 16777216 16777216 16777216 net.ipv4.tcp_wmem = 16777216 16777216 16777216 net.ipv4.tcp_mem = 16777216 16777216 16777216 net.ipv4.ip_local_port_range = 1024 65000 net.core.netdev_max_backlog = 300000 net.ipv4.route.flush=1 net.ipv4.tcp_no_metrics_save = 1 net.ipv4.tcp_moderate_rcvbuf = 1 net.ipv4.tcp_keepalive_time = 60 net.ipv4.tcp_keepalive_intvl = 10 net.ipv4.tcp_keepalive_probes = 5 net.ipv4.tcp_sack = 0 net.ipv4.tcp_timestamps = 0 активно применяется ipset, есть хешинг в tc инициализация шейпера: /sbin/tc qdisc add dev ".$if." root handle 1: htb/sbin/tc filter add dev ".$if." protocol ip parent 1: prio 5 fw шейпинг абонента (по маркам) class add dev ".$eth." parent 1: classid 1:".$markh." htb rate ".$shape."Kbit ceil ".$ceil."Kbit burst ".$burst."Kb/sbin/tc qdisc add dev ".$eth." parent 1:".$markh." handle ".$markh.": sfq perturb 10 И вот совсем не знаю что делать... ЧНН: 3Gbss на 250Kps Тому кто поможет решить проблему - бонус в виде хорошей премии. зы: сервер боевой. старый снял - начал просто так гонять - спецэффектов нету... явно что-то с трафиком и/или из-за трафика. Повторюсь - перезагружается независимо от нагрузки. Сколько денег платите? Знаю вашу проблему с вероятностью 99.999%, готов решить на следующих условиях: - объясняете, что и как и где у вас запускается (имеются в виду софт потроха); - один ребут, к сожалению, потребуется; - моя заинтересованность в предложенной сумме денег. p.s. Прошу сразу выкинуть из головы мысли с кидаловом и подобными шутками. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
borcat Опубликовано 25 февраля, 2014 · Жалоба Как вариани 500$? зы: при условии что оно не ребутнётся хотя бы неделю Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 25 февраля, 2014 · Жалоба Отключите irqbalance, прибейте прерывания к ядрам. С вас двести баксов. Какой кстати драйвер на сетевуху? Интеловский или ядрёный? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
borcat Опубликовано 25 февраля, 2014 · Жалоба что было сделано: прочитана куча форумов, эксперименты с HT, разные настройки сетёвок, разные варианты прибивания прерываний... драйвера пробовал: родной и из elrepo вообще не понимаю как молотилка трафика будет жить с irqbalance... Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
telecom Опубликовано 25 февраля, 2014 · Жалоба А попробуйте новое ядро с новым драйвером сетевой. Если у Вас 64-битная, могу дать rpm-ку с свежим 3.4.80 готовый драйвер под него. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
borcat Опубликовано 25 февраля, 2014 · Жалоба ядра участвовали: 2.6.32(centos текущее), 3.8.0(gentoo) система 64-битная драйвер 3.18.7 fw 0x61c10001 Linux nat.test.ru 2.6.32-431.5.1.el6.x86_64 #1 SMP Wed Feb 12 00:41:43 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
telecom Опубликовано 25 февраля, 2014 · Жалоба ядра участвовали: 2.6.32(centos текущее), 3.8.0(gentoo) система 64-битная драйвер 3.18.7 fw 0x61c10001 Linux nat.test.ru 2.6.32-431.5.1.el6.x86_64 #1 SMP Wed Feb 12 00:41:43 UTC 2014 x86_64 x86_64 x86_64 GNU/Linux Давай мое попробуем. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
telecom Опубликовано 25 февраля, 2014 · Жалоба Некоторые версии ipt_netflow вроде как могли давать такой результат... Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
borcat Опубликовано 25 февраля, 2014 · Жалоба Давай мое попробуем. Да можно - но нуно c dev пакетами т.к. ipt-netflow и ipset пересобирать. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
telecom Опубликовано 25 февраля, 2014 · Жалоба Давай мое попробуем. Да можно - но нуно c dev пакетами т.к. ipt-netflow и ipset пересобирать. ipt-netflow уже зашито в ядре обновлено ipset там есть. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
telecom Опубликовано 25 февраля, 2014 · Жалоба Давай мое попробуем. Да можно - но нуно c dev пакетами т.к. ipt-netflow и ipset пересобирать. Не надо ничего пересобирать! Отправил в л/с ссылку и инструкцию. Есть вопросы? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
borcat Опубликовано 25 февраля, 2014 · Жалоба буду вечером пробовать Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
replicant Опубликовано 25 февраля, 2014 · Жалоба Как минимум отказаться от 2.6.32.x и собрать на 3.2.55. Тоже были косяки с ребутами, но после выхода 3.2.х и перехода на эту ветку просто все ушло. Разбираться уже заломало и года два сидим на 3.2.х плотно. Задачи аналогичные - нат, шейпинг и т.п. И началось тоже внезапно. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
asy Опубликовано 25 февраля, 2014 · Жалоба подумалось вот оно! и в недрах инета было найдено, а потом поправлено и поправлено решение: в опциях к ядру добавить "pcie_aspm=off pcie_aspm.policy=performance" ну и в rc.local "echo performance > /sys/module/pcie_aspm/parameters/policy" В качестве мыслей вслух. Если "pcie_aspm=off", то "pcie_aspm.policy=..." не должно иметь смысла. Может быть, pcie_aspm оживает после "echo performance > ..." ? Я видел похожие проблемы с e1000e и igb, и они именно так вот и вылечились, посредством pcie_aspm=off Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
tartila Опубликовано 25 февраля, 2014 · Жалоба 500$ - это не деньги для конторы, которая молотит 3Gbit/s. Тем более, что вы запросите данные, как это было сделано. А опыт в таком направлении такими суммами не считается. Пробуйте обновляться до новых ядер, может быть поможет. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
borcat Опубликовано 25 февраля, 2014 · Жалоба В качестве мыслей вслух. Если "pcie_aspm=off", то "pcie_aspm.policy=..." не должно иметь смысла. Может быть, pcie_aspm оживает после "echo performance > ..." ? Я видел похожие проблемы с e1000e и igb, и они именно так вот и вылечились, посредством pcie_aspm=off У centos-а это не фича, а бага... опция "pcie_aspm=off" не работает, приходится дублировать "pcie_aspm.policy=..."... 500$ - это не деньги для конторы, которая молотит 3Gbit/s. Тем более, что вы запросите данные, как это было сделано. А опыт в таком направлении такими суммами не считается. Пробуйте обновляться до новых ядер, может быть поможет. Мог бы согласиться, если бы был владельцем... Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
borcat Опубликовано 25 февраля, 2014 · Жалоба забыл что поставил kdump! Есть лог смерти: <0>Kernel panic - not syncing: Watchdog detected hard LOCKUP on cpu 13 <4>Pid: 0, comm: swapper Not tainted 2.6.32-431.5.1.el6.x86_64 #1 <4>Call Trace: <4> <NMI> [<ffffffff81527513>] ? panic+0xa7/0x16f <4> [<ffffffff810153a3>] ? native_sched_clock+0x13/0x80 <4> [<ffffffff810e696d>] ? watchdog_overflow_callback+0xcd/0xd0 <4> [<ffffffff8111c847>] ? __perf_event_overflow+0xa7/0x240 <4> [<ffffffff8101d93d>] ? x86_perf_event_set_period+0xdd/0x170 <4> [<ffffffff8111ce14>] ? perf_event_overflow+0x14/0x20 <4> [<ffffffff81022d87>] ? intel_pmu_handle_irq+0x187/0x2f0 <4> [<ffffffff8152d1f6>] ? kprobe_exceptions_notify+0x16/0x430 <4> [<ffffffff8152bd69>] ? perf_event_nmi_handler+0x39/0xb0 <4> [<ffffffff8152d825>] ? notifier_call_chain+0x55/0x80 <4> [<ffffffff8147db60>] ? qdisc_watchdog+0x0/0x30 <4> [<ffffffff8152d88a>] ? atomic_notifier_call_chain+0x1a/0x20 <4> [<ffffffff810a153e>] ? notify_die+0x2e/0x30 <4> [<ffffffff8152b4eb>] ? do_nmi+0x1bb/0x340 <4> [<ffffffff8152adb0>] ? nmi+0x20/0x30 <4> [<ffffffff8147db60>] ? qdisc_watchdog+0x0/0x30 <4> [<ffffffff81458717>] ? __netif_schedule+0x17/0x70 <4> <<EOE>> <IRQ> [<ffffffff8147db82>] ? qdisc_watchdog+0x22/0x30 <4> [<ffffffff8109f9de>] ? __run_hrtimer+0x8e/0x1a0 <4> [<ffffffff810a6dff>] ? ktime_get_update_offsets+0x4f/0xd0 <4> [<ffffffff8109fd46>] ? hrtimer_interrupt+0xe6/0x260 <4> [<ffffffff81031f1d>] ? local_apic_timer_interrupt+0x3d/0x70 <4> [<ffffffff815313b5>] ? smp_apic_timer_interrupt+0x45/0x60 <4> [<ffffffff8100bb93>] ? apic_timer_interrupt+0x13/0x20 <4> [<ffffffff8152a61e>] ? _spin_lock+0x1e/0x30 <4> [<ffffffff814608cf>] ? dev_queue_xmit+0x9f/0x320 <4> [<ffffffff8149a3e8>] ? ip_finish_output+0x148/0x310 <4> [<ffffffff8149a668>] ? ip_output+0xb8/0xc0 <4> [<ffffffff814958ef>] ? ip_forward_finish+0x4f/0x60 <4> [<ffffffff81495afc>] ? ip_forward+0x1fc/0x430 <4> [<ffffffff81493c1d>] ? ip_rcv_finish+0x12d/0x440 <4> [<ffffffff814941a5>] ? ip_rcv+0x275/0x350 <4> [<ffffffff8145b74b>] ? __netif_receive_skb+0x4ab/0x750 <4> [<ffffffff8145f3b8>] ? netif_receive_skb+0x58/0x60 <4> [<ffffffff8145f4c0>] ? napi_skb_finish+0x50/0x70 <4> [<ffffffff81460c29>] ? napi_gro_receive+0x39/0x50 <4> [<ffffffffa010d80f>] ? ixgbe_receive_skb+0x4f/0x90 [ixgbe] <4> [<ffffffffa010ec1d>] ? ixgbe_poll+0x4fd/0x1820 [ixgbe] <4> [<ffffffff81460d43>] ? net_rx_action+0x103/0x2f0 <4> [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0 <4> [<ffffffff810e6eb0>] ? handle_IRQ_event+0x60/0x170 <4> [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30 <4> [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0 <4> [<ffffffff8107a795>] ? irq_exit+0x85/0x90 <4> [<ffffffff815312f5>] ? do_IRQ+0x75/0xf0 <4> [<ffffffff8100b9d3>] ? ret_from_intr+0x0/0x11 <4> <EOI> [<ffffffff812e09ae>] ? intel_idle+0xde/0x170 <4> [<ffffffff812e0991>] ? intel_idle+0xc1/0x170 <4> [<ffffffff814268f7>] ? cpuidle_idle_call+0xa7/0x140 <4> [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 <4> [<ffffffff8152112c>] ? start_secondary+0x2ac/0x2ef или другой: <0>BUG: soft lockup - CPU#5 stuck for 67s! [swapper:0] <4>Modules linked in: nf_conntrack_netlink sch_sfq iptable_filter xt_CONNMARK xt_connmark iptable_mangle xt_set iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 iptable_raw iptable_security ip_tables ipt_NETFLOW(U) cls_fw sch_htb ip_set_hash_ip ip_set nfnetlink coretemp ip6t_REJECT nf_conntrack_ipv6 nf_defrag_ipv6 xt_state nf_conntrack ip6table_filter ip6_tables ipv6 dm_mod iTCO_wdt iTCO_vendor_support serio_raw igb(U) i2c_algo_bit acpi_pad sg ixgbe(U) dca i2c_i801 i2c_core lpc_ich mfd_core shpchp ext4 jbd2 mbcache sd_mod crc_t10dif megaraid_sas wmi [last unloaded: scsi_wait_scan] <4>CPU 5 <4>Modules linked in: nf_conntrack_netlink sch_sfq iptable_filter xt_CONNMARK xt_connmark iptable_mangle xt_set iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 iptable_raw iptable_security ip_tables ipt_NETFLOW(U) cls_fw sch_htb ip_set_hash_ip ip_set nfnetlink coretemp ip6t_REJECT nf_conntrack_ipv6 nf_defrag_ipv6 xt_state nf_conntrack ip6table_filter ip6_tables ipv6 dm_mod iTCO_wdt iTCO_vendor_support serio_raw igb(U) i2c_algo_bit acpi_pad sg ixgbe(U) dca i2c_i801 i2c_core lpc_ich mfd_core shpchp ext4 jbd2 mbcache sd_mod crc_t10dif megaraid_sas wmi [last unloaded: scsi_wait_scan] <4> <4>Pid: 0, comm: swapper Not tainted 2.6.32-431.5.1.el6.x86_64 #1 Supermicro X9DRW-7/iTPF/X9DRW-7/iTPF <4>RIP: 0010:[<ffffffff8152a61e>] [<ffffffff8152a61e>] _spin_lock+0x1e/0x30 <4>RSP: 0018:ffff880036883aa0 EFLAGS: 00000283 <4>RAX: 0000000000004580 RBX: ffff880036883aa0 RCX: 0000000000000000 <4>RDX: 0000000000004572 RSI: ffff880461ebf3c0 RDI: ffff880476ffa89c <4>RBP: ffffffff8100bb93 R08: 0000000000000280 R09: ffff8804610fd260 <4>R10: 0000000000000000 R11: 0000000000000004 R12: ffff880036883a20 <4>R13: ffff880461ebf3c0 R14: ffff880036883a10 R15: ffffffff815313b5 <4>FS: 0000000000000000(0000) GS:ffff880036880000(0000) knlGS:0000000000000000 <4>CS: 0010 DS: 0018 ES: 0018 CR0: 000000008005003b <4>CR2: 00007f1c3b8c0020 CR3: 0000000001a85000 CR4: 00000000001407e0 <4>DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 <4>DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 <4>Process swapper (pid: 0, threadinfo ffff88047a27e000, task ffff88087a78e080) <4>Stack: <4> ffff880036883ae0 ffffffff814608cf ffff880036883b30 ffff880461129240 <4><d> ffff880461ebf3c0 000000000000000e 0000000000000000 ffff880461129298 <4><d> ffff880036883b30 ffffffff8149a3e8 ffff880476270020 ffff880461129290 <4>Call Trace: <4> <IRQ> <4> [<ffffffff814608cf>] ? dev_queue_xmit+0x9f/0x320 <4> [<ffffffff8149a3e8>] ? ip_finish_output+0x148/0x310 <4> [<ffffffff8149a668>] ? ip_output+0xb8/0xc0 <4> [<ffffffff8149992f>] ? __ip_local_out+0x9f/0xb0 <4> [<ffffffff81499965>] ? ip_local_out+0x25/0x30 <4> [<ffffffff8149998b>] ? ip_send_skb+0x1b/0x80 <4> [<ffffffff81499a1b>] ? ip_push_pending_frames+0x2b/0x30 <4> [<ffffffff814c1e2f>] ? icmp_push_reply+0xef/0x110 <4> [<ffffffff814c248b>] ? icmp_send+0x59b/0x780 <4> [<ffffffff8145b74b>] ? __netif_receive_skb+0x4ab/0x750 <4> [<ffffffff81468fc0>] ? neigh_timer_handler+0x0/0x340 <4> [<ffffffff8148d7e2>] ? ipv4_link_failure+0x22/0x70 <4> [<ffffffff814bfd81>] ? arp_error_report+0x31/0x40 <4> [<ffffffff8146753f>] ? neigh_invalidate+0x9f/0xd0 <4> [<ffffffff814691b0>] ? neigh_timer_handler+0x1f0/0x340 <4> [<ffffffff81084ae7>] ? run_timer_softirq+0x197/0x340 <4> [<ffffffff810ac8e5>] ? tick_dev_program_event+0x65/0xc0 <4> [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0 <4> [<ffffffff810ac9ba>] ? tick_program_event+0x2a/0x30 <4> [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30 <4> [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0 <4> [<ffffffff8107a795>] ? irq_exit+0x85/0x90 <4> [<ffffffff815313ba>] ? smp_apic_timer_interrupt+0x4a/0x60 <4> [<ffffffff8100bb93>] ? apic_timer_interrupt+0x13/0x20 <4> <EOI> <4> [<ffffffff812e09ae>] ? intel_idle+0xde/0x170 <4> [<ffffffff812e0991>] ? intel_idle+0xc1/0x170 <4> [<ffffffff814268f7>] ? cpuidle_idle_call+0xa7/0x140 <4> [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 <4> [<ffffffff8152112c>] ? start_secondary+0x2ac/0x2ef <4>Code: 00 00 00 01 74 05 e8 f2 41 d6 ff c9 c3 55 48 89 e5 0f 1f 44 00 00 b8 00 00 01 00 f0 0f c1 07 0f b7 d0 c1 e8 10 39 c2 74 0e f3 90 <0f> b7 17 eb f5 83 3f 00 75 f4 eb df c9 c3 0f 1f 40 00 55 48 89 <4>Call Trace: <4> <IRQ> [<ffffffff814608cf>] ? dev_queue_xmit+0x9f/0x320 <4> [<ffffffff8149a3e8>] ? ip_finish_output+0x148/0x310 <4> [<ffffffff8149a668>] ? ip_output+0xb8/0xc0 <4> [<ffffffff8149992f>] ? __ip_local_out+0x9f/0xb0 <4> [<ffffffff81499965>] ? ip_local_out+0x25/0x30 <4> [<ffffffff8149998b>] ? ip_send_skb+0x1b/0x80 <4> [<ffffffff81499a1b>] ? ip_push_pending_frames+0x2b/0x30 <4> [<ffffffff814c1e2f>] ? icmp_push_reply+0xef/0x110 <4> [<ffffffff814c248b>] ? icmp_send+0x59b/0x780 <4> [<ffffffff8145b74b>] ? __netif_receive_skb+0x4ab/0x750 <4> [<ffffffff81468fc0>] ? neigh_timer_handler+0x0/0x340 <4> [<ffffffff8148d7e2>] ? ipv4_link_failure+0x22/0x70 <4> [<ffffffff814bfd81>] ? arp_error_report+0x31/0x40 <4> [<ffffffff8146753f>] ? neigh_invalidate+0x9f/0xd0 <4> [<ffffffff814691b0>] ? neigh_timer_handler+0x1f0/0x340 <4> [<ffffffff81084ae7>] ? run_timer_softirq+0x197/0x340 <4> [<ffffffff810ac8e5>] ? tick_dev_program_event+0x65/0xc0 <4> [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0 <4> [<ffffffff810ac9ba>] ? tick_program_event+0x2a/0x30 <4> [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30 <4> [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0 <4> [<ffffffff8107a795>] ? irq_exit+0x85/0x90 <4> [<ffffffff815313ba>] ? smp_apic_timer_interrupt+0x4a/0x60 <4> [<ffffffff8100bb93>] ? apic_timer_interrupt+0x13/0x20 <4> <EOI> [<ffffffff812e09ae>] ? intel_idle+0xde/0x170 <4> [<ffffffff812e0991>] ? intel_idle+0xc1/0x170 <4> [<ffffffff814268f7>] ? cpuidle_idle_call+0xa7/0x140 <4> [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 <4> [<ffffffff8152112c>] ? start_secondary+0x2ac/0x2ef <0>Kernel panic - not syncing: Watchdog detected hard LOCKUP on cpu 11 <4>Pid: 0, comm: swapper Not tainted 2.6.32-431.5.1.el6.x86_64 #1 <4>Call Trace: <4> <NMI> [<ffffffff81527513>] ? panic+0xa7/0x16f <4> [<ffffffff810153a3>] ? native_sched_clock+0x13/0x80 <4> [<ffffffff810e696d>] ? watchdog_overflow_callback+0xcd/0xd0 <4> [<ffffffff8111c847>] ? __perf_event_overflow+0xa7/0x240 <4> [<ffffffff8101d93d>] ? x86_perf_event_set_period+0xdd/0x170 <4> [<ffffffff8111ce14>] ? perf_event_overflow+0x14/0x20 <4> [<ffffffff81022d87>] ? intel_pmu_handle_irq+0x187/0x2f0 <4> [<ffffffff8152d1f6>] ? kprobe_exceptions_notify+0x16/0x430 <4> [<ffffffff8152bd69>] ? perf_event_nmi_handler+0x39/0xb0 <4> [<ffffffff8152d825>] ? notifier_call_chain+0x55/0x80 <4> [<ffffffff8152d88a>] ? atomic_notifier_call_chain+0x1a/0x20 <4> [<ffffffff810a153e>] ? notify_die+0x2e/0x30 <4> [<ffffffff8152b4eb>] ? do_nmi+0x1bb/0x340 <4> [<ffffffff8152adb0>] ? nmi+0x20/0x30 <4> [<ffffffff81288b1c>] ? rb_insert_color+0x4c/0x160 <4> <<EOE>> <IRQ> [<ffffffff8109f332>] ? enqueue_hrtimer+0x82/0xd0 <4> [<ffffffff810a0107>] ? __hrtimer_start_range_ns+0x177/0x470 <4> [<ffffffffa010fd13>] ? ixgbe_xmit_frame_ring+0x4a3/0xd00 [ixgbe] <4> [<ffffffff812987a0>] ? swiotlb_map_page+0x0/0x100 <4> [<ffffffff810a0418>] ? hrtimer_start+0x18/0x20 <4> [<ffffffff8147db0f>] ? qdisc_watchdog_schedule+0x2f/0x40 <4> [<ffffffffa00f836f>] ? htb_dequeue+0x69f/0x7c0 [sch_htb] <4> [<ffffffff8147bfff>] ? __qdisc_run+0x3f/0xe0 <4> [<ffffffff81460a28>] ? dev_queue_xmit+0x1f8/0x320 <4> [<ffffffff8149a3e8>] ? ip_finish_output+0x148/0x310 <4> [<ffffffff8149a668>] ? ip_output+0xb8/0xc0 <4> [<ffffffff814958ef>] ? ip_forward_finish+0x4f/0x60 <4> [<ffffffff81495afc>] ? ip_forward+0x1fc/0x430 <4> [<ffffffff81493c1d>] ? ip_rcv_finish+0x12d/0x440 <4> [<ffffffff814941a5>] ? ip_rcv+0x275/0x350 <4> [<ffffffff8145b74b>] ? __netif_receive_skb+0x4ab/0x750 <4> [<ffffffff8145f3b8>] ? netif_receive_skb+0x58/0x60 <4> [<ffffffff8145f4c0>] ? napi_skb_finish+0x50/0x70 <4> [<ffffffff81460c29>] ? napi_gro_receive+0x39/0x50 <4> [<ffffffffa010b80f>] ? ixgbe_receive_skb+0x4f/0x90 [ixgbe] <4> [<ffffffffa010cc1d>] ? ixgbe_poll+0x4fd/0x1820 [ixgbe] <4> [<ffffffff81460d43>] ? net_rx_action+0x103/0x2f0 <4> [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0 <4> [<ffffffff810e6eb0>] ? handle_IRQ_event+0x60/0x170 <4> [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30 <4> [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0 <4> [<ffffffff8107a795>] ? irq_exit+0x85/0x90 <4> [<ffffffff815312f5>] ? do_IRQ+0x75/0xf0 <4> [<ffffffff8100b9d3>] ? ret_from_intr+0x0/0x11 <4> <EOI> [<ffffffff81426711>] ? poll_idle+0x41/0x80 <4> [<ffffffff814266e3>] ? poll_idle+0x13/0x80 <4> [<ffffffff814268f7>] ? cpuidle_idle_call+0xa7/0x140 <4> [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 <4> [<ffffffff8152112c>] ? start_secondary+0x2ac/0x2ef или такое: <4>hrtimer: interrupt took 2669 ns <0>BUG: soft lockup - CPU#1 stuck for 67s! [swapper:0] <4>Modules linked in: nf_conntrack_netlink sch_sfq iptable_filter xt_CONNMARK xt_connmark iptable_mangle xt_set iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 iptable_raw iptable_security ip_tables ipt_NETFLOW(U) cls_fw sch_htb ip_set_hash_ip ip_set nfnetlink coretemp ip6t_REJECT nf_conntrack_ipv6 nf_defrag_ipv6 xt_state nf_conntrack ip6table_filter ip6_tables ipv6 dm_mod iTCO_wdt iTCO_vendor_support serio_raw igb(U) i2c_algo_bit acpi_pad sg ixgbe(U) dca i2c_i801 i2c_core lpc_ich mfd_core shpchp ext4 jbd2 mbcache sd_mod crc_t10dif megaraid_sas wmi [last unloaded: scsi_wait_scan] <4>CPU 1 <4>Modules linked in: nf_conntrack_netlink sch_sfq iptable_filter xt_CONNMARK xt_connmark iptable_mangle xt_set iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 iptable_raw iptable_security ip_tables ipt_NETFLOW(U) cls_fw sch_htb ip_set_hash_ip ip_set nfnetlink coretemp ip6t_REJECT nf_conntrack_ipv6 nf_defrag_ipv6 xt_state nf_conntrack ip6table_filter ip6_tables ipv6 dm_mod iTCO_wdt iTCO_vendor_support serio_raw igb(U) i2c_algo_bit acpi_pad sg ixgbe(U) dca i2c_i801 i2c_core lpc_ich mfd_core shpchp ext4 jbd2 mbcache sd_mod crc_t10dif megaraid_sas wmi [last unloaded: scsi_wait_scan] <4> <4>Pid: 0, comm: swapper Not tainted 2.6.32-431.5.1.el6.x86_64 #1 Supermicro X9DRW-7/iTPF/X9DRW-7/iTPF <4>RIP: 0010:[<ffffffff8152a61e>] [<ffffffff8152a61e>] _spin_lock+0x1e/0x30 <4>RSP: 0018:ffff880036683b00 EFLAGS: 00000297 <4>RAX: 00000000000084de RBX: ffff880036683b00 RCX: 0000000000000000 <4>RDX: 00000000000084d4 RSI: ffff88043775f480 RDI: ffff88047613409c <4>RBP: ffffffff8100bb93 R08: 0000000000000080 R09: ffff8800366839b8 <4>R10: 0000000000000000 R11: 0000000000000004 R12: ffff880036683a80 <4>R13: ffff88043775f480 R14: ffff880036683a70 R15: ffffffff815313b5 <4>FS: 0000000000000000(0000) GS:ffff880036680000(0000) knlGS:0000000000000000 <4>CS: 0010 DS: 0018 ES: 0018 CR0: 000000008005003b <4>CR2: 00007f35b75cb020 CR3: 000000045c845000 CR4: 00000000001407e0 <4>DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 <4>DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 <4>Process swapper (pid: 0, threadinfo ffff88047a1f0000, task ffff88087a6e2aa0) <4>Stack: <4> ffff880036683b40 ffffffff814608cf ffff880036683b90 ffff88046f5fe080 <4><d> ffff88043775f480 000000000000000e 0000000000000000 ffff88046f5fe0d8 <4><d> ffff880036683b90 ffffffff8149a3e8 0000000000000002 ffff88046f5fe0d0 <4>Call Trace: <4> <IRQ> <4> [<ffffffff814608cf>] ? dev_queue_xmit+0x9f/0x320 <4> [<ffffffff8149a3e8>] ? ip_finish_output+0x148/0x310 <4> [<ffffffff8149a668>] ? ip_output+0xb8/0xc0 <4> [<ffffffff814958ef>] ? ip_forward_finish+0x4f/0x60 <4> [<ffffffff81495afc>] ? ip_forward+0x1fc/0x430 <4> [<ffffffff81493c1d>] ? ip_rcv_finish+0x12d/0x440 <4> [<ffffffff814941a5>] ? ip_rcv+0x275/0x350 <4> [<ffffffff8145b74b>] ? __netif_receive_skb+0x4ab/0x750 <4> [<ffffffff8145f3b8>] ? netif_receive_skb+0x58/0x60 <4> [<ffffffff8145f4c0>] ? napi_skb_finish+0x50/0x70 <4> [<ffffffff81460c29>] ? napi_gro_receive+0x39/0x50 <4> [<ffffffffa010b80f>] ? ixgbe_receive_skb+0x4f/0x90 [ixgbe] <4> [<ffffffffa010cc1d>] ? ixgbe_poll+0x4fd/0x1820 [ixgbe] <4> [<ffffffff81069384>] ? enqueue_task_fair+0x64/0x100 <4> [<ffffffff81460d43>] ? net_rx_action+0x103/0x2f0 <4> [<ffffffff810a7139>] ? ktime_get+0x69/0xf0 <4> [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0 <4> [<ffffffff810e6eb0>] ? handle_IRQ_event+0x60/0x170 <4> [<ffffffff8107a93f>] ? __do_softirq+0x11f/0x1e0 <0>BUG: soft lockup - CPU#4 stuck for 67s! [swapper:0] <4>Modules linked in: nf_conntrack_netlink sch_sfq iptable_filter xt_CONNMARK xt_connmark iptable_mangle xt_set iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 iptable_raw iptable_security ip_tables ipt_NETFLOW(U) cls_fw sch_htb ip_set_hash_ip ip_set nfnetlink coretemp ip6t_REJECT nf_conntrack_ipv6 nf_defrag_ipv6 xt_state nf_conntrack ip6table_filter ip6_tables ipv6 dm_mod iTCO_wdt iTCO_vendor_support serio_raw igb(U) i2c_algo_bit acpi_pad sg ixgbe(U) dca i2c_i801 i2c_core lpc_ich mfd_core shpchp ext4 jbd2 mbcache sd_mod crc_t10dif megaraid_sas wmi [last unloaded: scsi_wait_scan] <4>CPU 4 <4>Modules linked in: nf_conntrack_netlink sch_sfq iptable_filter xt_CONNMARK xt_connmark iptable_mangle xt_set iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 iptable_raw iptable_security ip_tables ipt_NETFLOW(U) cls_fw sch_htb ip_set_hash_ip ip_set nfnetlink coretemp ip6t_REJECT nf_conntrack_ipv6 nf_defrag_ipv6 xt_state nf_conntrack ip6table_filter ip6_tables ipv6 dm_mod iTCO_wdt iTCO_vendor_support serio_raw igb(U) i2c_algo_bit acpi_pad sg ixgbe(U) dca i2c_i801 i2c_core lpc_ich mfd_core shpchp ext4 jbd2 mbcache sd_mod crc_t10dif megaraid_sas wmi [last unloaded: scsi_wait_scan] <4> <4>Pid: 0, comm: swapper Not tainted 2.6.32-431.5.1.el6.x86_64 #1 Supermicro X9DRW-7/iTPF/X9DRW-7/iTPF <4>RIP: 0010:[<ffffffff8152a621>] [<ffffffff8152a621>] _spin_lock+0x21/0x30 <4>RSP: 0018:ffff880036803aa0 EFLAGS: 00000283 <4>RAX: 00000000000084e3 RBX: ffff880036803aa0 RCX: 0000000000000000 <4>RDX: 00000000000084d4 RSI: ffff880439d2ddc0 RDI: ffff88047613409c <4>RBP: ffffffff8100bb93 R08: 0000000000000200 R09: ffff880479284860 <4>R10: 0000000000000000 R11: 0000000000000004 R12: ffff880036803a20 <4>R13: ffff880439d2ddc0 R14: ffff880476e20020 R15: ffffffff815313b5 <4>FS: 0000000000000000(0000) GS:ffff880036800000(0000) knlGS:0000000000000000 <4>CS: 0010 DS: 0018 ES: 0018 CR0: 000000008005003b <4>CR2: 00007ff4d87012b0 CR3: 00000004787fd000 CR4: 00000000001407e0 <4>DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 <4>DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 <4>Process swapper (pid: 0, threadinfo ffff88087a78c000, task ffff88047a26b540) <4>Stack: <4> ffff880036803ae0 ffffffff814608cf ffff880036803b30 ffff88046f5fe080 <4><d> ffff880439d2ddc0 000000000000000e 0000000000000000 ffff88046f5fe0d8 <4><d> ffff880036803b30 ffffffff8149a3e8 ffff880476390020 ffff88046f5fe0d0 <4>Call Trace: <4> <IRQ> <4> [<ffffffff814608cf>] ? dev_queue_xmit+0x9f/0x320 <4> [<ffffffff8149a3e8>] ? ip_finish_output+0x148/0x310 <4> [<ffffffff8149a668>] ? ip_output+0xb8/0xc0 <4> [<ffffffff8149992f>] ? __ip_local_out+0x9f/0xb0 <4> [<ffffffff81499965>] ? ip_local_out+0x25/0x30 <4> [<ffffffff8149998b>] ? ip_send_skb+0x1b/0x80 <4> [<ffffffff81499a1b>] ? ip_push_pending_frames+0x2b/0x30 <4> [<ffffffff814c1e2f>] ? icmp_push_reply+0xef/0x110 <4> [<ffffffff814c248b>] ? icmp_send+0x59b/0x780 <4> [<ffffffff8145b74b>] ? __netif_receive_skb+0x4ab/0x750 <4> [<ffffffff81468fc0>] ? neigh_timer_handler+0x0/0x340 <4> [<ffffffff8148d7e2>] ? ipv4_link_failure+0x22/0x70 <4> [<ffffffff814bfd81>] ? arp_error_report+0x31/0x40 <4> [<ffffffff8146753f>] ? neigh_invalidate+0x9f/0xd0 <4> [<ffffffff814691b0>] ? neigh_timer_handler+0x1f0/0x340 <4> [<ffffffff81084ae7>] ? run_timer_softirq+0x197/0x340 <4> [<ffffffff810ac8e5>] ? tick_dev_program_event+0x65/0xc0 <4> [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0 <4> [<ffffffff810ac9ba>] ? tick_program_event+0x2a/0x30 <4> [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30 <4> [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0 <4> [<ffffffff8107a795>] ? irq_exit+0x85/0x90 <4> [<ffffffff815313ba>] ? smp_apic_timer_interrupt+0x4a/0x60 <4> [<ffffffff8100bb93>] ? apic_timer_interrupt+0x13/0x20 <4> <EOI> <4> [<ffffffff8142670a>] ? poll_idle+0x3a/0x80 <4> [<ffffffff814266e3>] ? poll_idle+0x13/0x80 <4> [<ffffffff814268f7>] ? cpuidle_idle_call+0xa7/0x140 <4> [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 <4> [<ffffffff8152112c>] ? start_secondary+0x2ac/0x2ef <4>Code: 01 74 05 e8 f2 41 d6 ff c9 c3 55 48 89 e5 0f 1f 44 00 00 b8 00 00 01 00 f0 0f c1 07 0f b7 d0 c1 e8 10 39 c2 74 0e f3 90 0f b7 17 <eb> f5 83 3f 00 75 f4 eb df c9 c3 0f 1f 40 00 55 48 89 e5 0f 1f <4>Call Trace: <4> <IRQ> [<ffffffff814608cf>] ? dev_queue_xmit+0x9f/0x320 <4> [<ffffffff8149a3e8>] ? ip_finish_output+0x148/0x310 <4> [<ffffffff8149a668>] ? ip_output+0xb8/0xc0 <4> [<ffffffff8149992f>] ? __ip_local_out+0x9f/0xb0 <4> [<ffffffff81499965>] ? ip_local_out+0x25/0x30 <4> [<ffffffff8149998b>] ? ip_send_skb+0x1b/0x80 <4> [<ffffffff81499a1b>] ? ip_push_pending_frames+0x2b/0x30 <4> [<ffffffff814c1e2f>] ? icmp_push_reply+0xef/0x110 <4> [<ffffffff814c248b>] ? icmp_send+0x59b/0x780 <4> [<ffffffff8145b74b>] ? __netif_receive_skb+0x4ab/0x750 <4> [<ffffffff81468fc0>] ? neigh_timer_handler+0x0/0x340 <4> [<ffffffff8148d7e2>] ? ipv4_link_failure+0x22/0x70 <4> [<ffffffff814bfd81>] ? arp_error_report+0x31/0x40 <4> [<ffffffff8146753f>] ? neigh_invalidate+0x9f/0xd0 <4> [<ffffffff814691b0>] ? neigh_timer_handler+0x1f0/0x340 <4> [<ffffffff81084ae7>] ? run_timer_softirq+0x197/0x340 <4> [<ffffffff810ac8e5>] ? tick_dev_program_event+0x65/0xc0 <4> [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0 <4> [<ffffffff810ac9ba>] ? tick_program_event+0x2a/0x30 <4> [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30 <4> [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0 <4> [<ffffffff8107a795>] ? irq_exit+0x85/0x90 <4> [<ffffffff815313ba>] ? smp_apic_timer_interrupt+0x4a/0x60 <4> [<ffffffff8100bb93>] ? apic_timer_interrupt+0x13/0x20 <4> <EOI> [<ffffffff8142670a>] ? poll_idle+0x3a/0x80 <4> [<ffffffff814266e3>] ? poll_idle+0x13/0x80 <4> [<ffffffff814268f7>] ? cpuidle_idle_call+0xa7/0x140 <4> [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 <4> [<ffffffff8152112c>] ? start_secondary+0x2ac/0x2ef <4> [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30 <4> [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0 <4> [<ffffffff8107a795>] ? irq_exit+0x85/0x90 <4> [<ffffffff815312f5>] ? do_IRQ+0x75/0xf0 <4> [<ffffffff8100b9d3>] ? ret_from_intr+0x0/0x11 <4> <EOI> <4> [<ffffffff812e09ae>] ? intel_idle+0xde/0x170 <4> [<ffffffff812e0991>] ? intel_idle+0xc1/0x170 <4> [<ffffffff814268f7>] ? cpuidle_idle_call+0xa7/0x140 <4> [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 <4> [<ffffffff8152112c>] ? start_secondary+0x2ac/0x2ef <4>Code: 00 00 00 01 74 05 e8 f2 41 d6 ff c9 c3 55 48 89 e5 0f 1f 44 00 00 b8 00 00 01 00 f0 0f c1 07 0f b7 d0 c1 e8 10 39 c2 74 0e f3 90 <0f> b7 17 eb f5 83 3f 00 75 f4 eb df c9 c3 0f 1f 40 00 55 48 89 <4>Call Trace: <4> <IRQ> [<ffffffff814608cf>] ? dev_queue_xmit+0x9f/0x320 <4> [<ffffffff8149a3e8>] ? ip_finish_output+0x148/0x310 <4> [<ffffffff8149a668>] ? ip_output+0xb8/0xc0 <4> [<ffffffff814958ef>] ? ip_forward_finish+0x4f/0x60 <4> [<ffffffff81495afc>] ? ip_forward+0x1fc/0x430 <4> [<ffffffff81493c1d>] ? ip_rcv_finish+0x12d/0x440 <4> [<ffffffff814941a5>] ? ip_rcv+0x275/0x350 <4> [<ffffffff8145b74b>] ? __netif_receive_skb+0x4ab/0x750 <4> [<ffffffff8145f3b8>] ? netif_receive_skb+0x58/0x60 <4> [<ffffffff8145f4c0>] ? napi_skb_finish+0x50/0x70 <4> [<ffffffff81460c29>] ? napi_gro_receive+0x39/0x50 <4> [<ffffffffa010b80f>] ? ixgbe_receive_skb+0x4f/0x90 [ixgbe] <4> [<ffffffffa010cc1d>] ? ixgbe_poll+0x4fd/0x1820 [ixgbe] <4> [<ffffffff81069384>] ? enqueue_task_fair+0x64/0x100 <4> [<ffffffff81460d43>] ? net_rx_action+0x103/0x2f0 <4> [<ffffffff810a7139>] ? ktime_get+0x69/0xf0 <4> [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0 <4> [<ffffffff810e6eb0>] ? handle_IRQ_event+0x60/0x170 <4> [<ffffffff8107a93f>] ? __do_softirq+0x11f/0x1e0 <4> [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30 <4> [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0 <4> [<ffffffff8107a795>] ? irq_exit+0x85/0x90 <4> [<ffffffff815312f5>] ? do_IRQ+0x75/0xf0 <4> [<ffffffff8100b9d3>] ? ret_from_intr+0x0/0x11 <4> <EOI> [<ffffffff812e09ae>] ? intel_idle+0xde/0x170 <4> [<ffffffff812e0991>] ? intel_idle+0xc1/0x170 <4> [<ffffffff814268f7>] ? cpuidle_idle_call+0xa7/0x140 <4> [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 <4> [<ffffffff8152112c>] ? start_secondary+0x2ac/0x2ef <0>BUG: soft lockup - CPU#14 stuck for 67s! [swapper:0] <4>Modules linked in: nf_conntrack_netlink sch_sfq iptable_filter xt_CONNMARK xt_connmark iptable_mangle xt_set iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 iptable_raw iptable_security ip_tables ipt_NETFLOW(U) cls_fw sch_htb ip_set_hash_ip ip_set nfnetlink coretemp ip6t_REJECT nf_conntrack_ipv6 nf_defrag_ipv6 xt_state nf_conntrack ip6table_filter ip6_tables ipv6 dm_mod iTCO_wdt iTCO_vendor_support serio_raw igb(U) i2c_algo_bit acpi_pad sg ixgbe(U) dca i2c_i801 i2c_core lpc_ich mfd_core shpchp ext4 jbd2 mbcache sd_mod crc_t10dif megaraid_sas wmi [last unloaded: scsi_wait_scan] <4>CPU 14 <4>Modules linked in: nf_conntrack_netlink sch_sfq iptable_filter xt_CONNMARK xt_connmark iptable_mangle xt_set iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 iptable_raw iptable_security ip_tables ipt_NETFLOW(U) cls_fw sch_htb ip_set_hash_ip ip_set nfnetlink coretemp ip6t_REJECT nf_conntrack_ipv6 nf_defrag_ipv6 xt_state nf_conntrack ip6table_filter ip6_tables ipv6 dm_mod iTCO_wdt iTCO_vendor_support serio_raw igb(U) i2c_algo_bit acpi_pad sg ixgbe(U) dca i2c_i801 i2c_core lpc_ich mfd_core shpchp ext4 jbd2 mbcache sd_mod crc_t10dif megaraid_sas wmi [last unloaded: scsi_wait_scan] <4> <4>Pid: 0, comm: swapper Not tainted 2.6.32-431.5.1.el6.x86_64 #1 Supermicro X9DRW-7/iTPF/X9DRW-7/iTPF <4>RIP: 0010:[<ffffffff8152a61e>] [<ffffffff8152a61e>] _spin_lock+0x1e/0x30 <4>RSP: 0018:ffff88048e603b00 EFLAGS: 00000297 <4>RAX: 00000000000084db RBX: ffff88048e603b00 RCX: 0000000000000000 <4>RDX: 00000000000084d4 RSI: ffff88085b0cec80 RDI: ffff88047613409c <4>RBP: ffffffff8100bb93 R08: 0000000000000700 R09: 0000000000000003 <4>R10: 0000000000000000 R11: 0000000000000004 R12: ffff88048e603a80 <4>R13: ffff88085b0cec80 R14: ffff88048e603a70 R15: ffffffff815313b5 <4>FS: 0000000000000000(0000) GS:ffff88048e600000(0000) knlGS:0000000000000000 <4>CS: 0010 DS: 0018 ES: 0018 CR0: 000000008005003b <4>CR2: 00007ff60a497000 CR3: 0000000870d5e000 CR4: 00000000001407e0 <4>DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 <4>DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 <4>Process swapper (pid: 0, threadinfo ffff880879caa000, task ffff88047a37f500) <4>Stack: <4> ffff88048e603b40 ffffffff814608cf ffff88048e603b90 ffff88046f5fe080 <4><d> ffff88085b0cec80 000000000000000e 0000000000000000 ffff88046f5fe0d8 <4><d> ffff88048e603b90 ffffffff8149a3e8 0000000000000002 ffff88046f5fe0d0 <4>Call Trace: <4> <IRQ> <4> [<ffffffff814608cf>] ? dev_queue_xmit+0x9f/0x320 <4> [<ffffffff8149a3e8>] ? ip_finish_output+0x148/0x310 <4> [<ffffffff8149a668>] ? ip_output+0xb8/0xc0 <4> [<ffffffff814958ef>] ? ip_forward_finish+0x4f/0x60 <4> [<ffffffff81495afc>] ? ip_forward+0x1fc/0x430 <4> [<ffffffff81493c1d>] ? ip_rcv_finish+0x12d/0x440 <4> [<ffffffff814941a5>] ? ip_rcv+0x275/0x350 <4> [<ffffffff8145b74b>] ? __netif_receive_skb+0x4ab/0x750 <4> [<ffffffff8145f3b8>] ? netif_receive_skb+0x58/0x60 <4> [<ffffffff8145f4c0>] ? napi_skb_finish+0x50/0x70 <4> [<ffffffff81460c29>] ? napi_gro_receive+0x39/0x50 <4> [<ffffffffa010b80f>] ? ixgbe_receive_skb+0x4f/0x90 [ixgbe] <4> [<ffffffffa010cc1d>] ? ixgbe_poll+0x4fd/0x1820 [ixgbe] <4> [<ffffffff81460d43>] ? net_rx_action+0x103/0x2f0 <4> [<ffffffff810a7139>] ? ktime_get+0x69/0xf0 <4> [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0 <4> [<ffffffff810e6eb0>] ? handle_IRQ_event+0x60/0x170 <4> [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30 <4> [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0 <4> [<ffffffff8107a795>] ? irq_exit+0x85/0x90 <4> [<ffffffff815312f5>] ? do_IRQ+0x75/0xf0 <4> [<ffffffff8100b9d3>] ? ret_from_intr+0x0/0x11 <4> <EOI> <4> [<ffffffff81426711>] ? poll_idle+0x41/0x80 <4> [<ffffffff814266e3>] ? poll_idle+0x13/0x80 <4> [<ffffffff814268f7>] ? cpuidle_idle_call+0xa7/0x140 <4> [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 <4> [<ffffffff8152112c>] ? start_secondary+0x2ac/0x2ef <4>Code: 00 00 00 01 74 05 e8 f2 41 d6 ff c9 c3 55 48 89 e5 0f 1f 44 00 00 b8 00 00 01 00 f0 0f c1 07 0f b7 d0 c1 e8 10 39 c2 74 0e f3 90 <0f> b7 17 eb f5 83 3f 00 75 f4 eb df c9 c3 0f 1f 40 00 55 48 89 <4>Call Trace: <4> <IRQ> [<ffffffff814608cf>] ? dev_queue_xmit+0x9f/0x320 <4> [<ffffffff8149a3e8>] ? ip_finish_output+0x148/0x310 <4> [<ffffffff8149a668>] ? ip_output+0xb8/0xc0 <4> [<ffffffff814958ef>] ? ip_forward_finish+0x4f/0x60 <4> [<ffffffff81495afc>] ? ip_forward+0x1fc/0x430 <4> [<ffffffff81493c1d>] ? ip_rcv_finish+0x12d/0x440 <4> [<ffffffff814941a5>] ? ip_rcv+0x275/0x350 <4> [<ffffffff8145b74b>] ? __netif_receive_skb+0x4ab/0x750 <4> [<ffffffff8145f3b8>] ? netif_receive_skb+0x58/0x60 <4> [<ffffffff8145f4c0>] ? napi_skb_finish+0x50/0x70 <4> [<ffffffff81460c29>] ? napi_gro_receive+0x39/0x50 <4> [<ffffffffa010b80f>] ? ixgbe_receive_skb+0x4f/0x90 [ixgbe] <4> [<ffffffffa010cc1d>] ? ixgbe_poll+0x4fd/0x1820 [ixgbe] <4> [<ffffffff81460d43>] ? net_rx_action+0x103/0x2f0 <4> [<ffffffff810a7139>] ? ktime_get+0x69/0xf0 <4> [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0 <4> [<ffffffff810e6eb0>] ? handle_IRQ_event+0x60/0x170 <4> [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30 <4> [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0 <4> [<ffffffff8107a795>] ? irq_exit+0x85/0x90 <4> [<ffffffff815312f5>] ? do_IRQ+0x75/0xf0 <4> [<ffffffff8100b9d3>] ? ret_from_intr+0x0/0x11 <4> <EOI> [<ffffffff81426711>] ? poll_idle+0x41/0x80 <4> [<ffffffff814266e3>] ? poll_idle+0x13/0x80 <4> [<ffffffff814268f7>] ? cpuidle_idle_call+0xa7/0x140 <4> [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 <4> [<ffffffff8152112c>] ? start_secondary+0x2ac/0x2ef <0>Kernel panic - not syncing: Watchdog detected hard LOCKUP on cpu 11 <4>Pid: 0, comm: swapper Not tainted 2.6.32-431.5.1.el6.x86_64 #1 <4>Call Trace: <4> <NMI> [<ffffffff81527513>] ? panic+0xa7/0x16f <4> [<ffffffff810153a3>] ? native_sched_clock+0x13/0x80 <4> [<ffffffff810e696d>] ? watchdog_overflow_callback+0xcd/0xd0 <4> [<ffffffff8111c847>] ? __perf_event_overflow+0xa7/0x240 <4> [<ffffffff8101d93d>] ? x86_perf_event_set_period+0xdd/0x170 <4> [<ffffffff8111ce14>] ? perf_event_overflow+0x14/0x20 <4> [<ffffffff81022d87>] ? intel_pmu_handle_irq+0x187/0x2f0 <4> [<ffffffff8152d1f6>] ? kprobe_exceptions_notify+0x16/0x430 <4> [<ffffffff8152bd69>] ? perf_event_nmi_handler+0x39/0xb0 <4> [<ffffffff8152d825>] ? notifier_call_chain+0x55/0x80 <4> [<ffffffff8152d88a>] ? atomic_notifier_call_chain+0x1a/0x20 <4> [<ffffffff810a153e>] ? notify_die+0x2e/0x30 <4> [<ffffffff8152b4eb>] ? do_nmi+0x1bb/0x340 <4> [<ffffffff8152adb0>] ? nmi+0x20/0x30 <4> [<ffffffff8152a621>] ? _spin_lock+0x21/0x30 <4> <<EOE>> <IRQ> [<ffffffff8109f9f5>] ? __run_hrtimer+0xa5/0x1a0 <4> [<ffffffff810a6dff>] ? ktime_get_update_offsets+0x4f/0xd0 <4> [<ffffffff8109fd46>] ? hrtimer_interrupt+0xe6/0x260 <4> [<ffffffff81031f1d>] ? local_apic_timer_interrupt+0x3d/0x70 <4> [<ffffffff815313b5>] ? smp_apic_timer_interrupt+0x45/0x60 <4> [<ffffffff8100bb93>] ? apic_timer_interrupt+0x13/0x20 <4> [<ffffffff810149c3>] ? read_tsc+0x13/0x20 <4> [<ffffffff810a7139>] ? ktime_get+0x69/0xf0 <4> [<ffffffffa01f2d66>] ? htb_dequeue+0x96/0x7c0 [sch_htb] <4> [<ffffffff8147cef4>] ? tc_classify_compat+0x44/0x90 <4> [<ffffffff8147d355>] ? tc_classify+0x55/0xa0 <4> [<ffffffff8147bfff>] ? __qdisc_run+0x3f/0xe0 <4> [<ffffffff81460a28>] ? dev_queue_xmit+0x1f8/0x320 <4> [<ffffffff8149a3e8>] ? ip_finish_output+0x148/0x310 <4> [<ffffffff8149a668>] ? ip_output+0xb8/0xc0 <4> [<ffffffff814958ef>] ? ip_forward_finish+0x4f/0x60 <4> [<ffffffff81495afc>] ? ip_forward+0x1fc/0x430 <4> [<ffffffff81493c1d>] ? ip_rcv_finish+0x12d/0x440 <4> [<ffffffff814941a5>] ? ip_rcv+0x275/0x350 <4> [<ffffffff8145b74b>] ? __netif_receive_skb+0x4ab/0x750 <4> [<ffffffff8145f3b8>] ? netif_receive_skb+0x58/0x60 <4> [<ffffffff8145f4c0>] ? napi_skb_finish+0x50/0x70 <4> [<ffffffff81460c29>] ? napi_gro_receive+0x39/0x50 <4> [<ffffffffa010b80f>] ? ixgbe_receive_skb+0x4f/0x90 [ixgbe] <4> [<ffffffffa010cc1d>] ? ixgbe_poll+0x4fd/0x1820 [ixgbe] <4> [<ffffffff8109f332>] ? enqueue_hrtimer+0x82/0xd0 <4> [<ffffffff81460d43>] ? net_rx_action+0x103/0x2f0 <4> [<ffffffff8107a8e1>] ? __do_softirq+0xc1/0x1e0 <4> [<ffffffff810e6eb0>] ? handle_IRQ_event+0x60/0x170 <4> [<ffffffff8100c30c>] ? call_softirq+0x1c/0x30 <4> [<ffffffff8100fa75>] ? do_softirq+0x65/0xa0 <4> [<ffffffff8107a795>] ? irq_exit+0x85/0x90 <4> [<ffffffff815312f5>] ? do_IRQ+0x75/0xf0 <4> [<ffffffff8100b9d3>] ? ret_from_intr+0x0/0x11 <4> <EOI> [<ffffffff81426711>] ? poll_idle+0x41/0x80 <4> [<ffffffff814266e3>] ? poll_idle+0x13/0x80 <4> [<ffffffff814268f7>] ? cpuidle_idle_call+0xa7/0x140 <4> [<ffffffff81009fc6>] ? cpu_idle+0xb6/0x110 <4> [<ffffffff8152112c>] ? start_secondary+0x2ac/0x2ef я правильно понимаю что баг интеловских дров? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
tartila Опубликовано 25 февраля, 2014 · Жалоба В качестве мыслей вслух. Если "pcie_aspm=off", то "pcie_aspm.policy=..." не должно иметь смысла. Может быть, pcie_aspm оживает после "echo performance > ..." ? Я видел похожие проблемы с e1000e и igb, и они именно так вот и вылечились, посредством pcie_aspm=off У centos-а это не фича, а бага... опция "pcie_aspm=off" не работает, приходится дублировать "pcie_aspm.policy=..."... 500$ - это не деньги для конторы, которая молотит 3Gbit/s. Тем более, что вы запросите данные, как это было сделано. А опыт в таком направлении такими суммами не считается. Пробуйте обновляться до новых ядер, может быть поможет. Мог бы согласиться, если бы был владельцем... И как владелец реагирует на сложившуюся ситуацию с ребутами при таком трафике? У нас бы уже порвали бы на много маленьких медвежат... :) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
borcat Опубликовано 25 февраля, 2014 · Жалоба И как владелец реагирует на сложившуюся ситуацию с ребутами при таком трафике? У нас бы уже порвали бы на много маленьких медвежат... :) Нужно что-нибудь сделать. Денег нет. (с)не мой Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
telecom Опубликовано 25 февраля, 2014 · Жалоба И как владелец реагирует на сложившуюся ситуацию с ребутами при таком трафике? У нас бы уже порвали бы на много маленьких медвежат... :) Нужно что-нибудь сделать. Денег нет. (с)не мой Делайте. Какие движухи с новым ядром? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
borcat Опубликовано 25 февраля, 2014 · Жалоба жду попозже времени или самостоятельного ребута Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
telecom Опубликовано 25 февраля, 2014 · Жалоба жду попозже времени или самостоятельного ребута Напишите мне в л/с контакты. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
borcat Опубликовано 25 февраля, 2014 · Жалоба уже Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
tartila Опубликовано 25 февраля, 2014 · Жалоба И как владелец реагирует на сложившуюся ситуацию с ребутами при таком трафике? У нас бы уже порвали бы на много маленьких медвежат... :) Нужно что-нибудь сделать. Денег нет. (с)не мой Тут не требуется покупка нового сервера или еще чего. Проблема чисто софтовая. Я в свое время на эти грабли наступил, ох уж и потрепала мне нервов эта проблема. Могу лишь вам дать вектор - проблема не в потрохах драйвера, а глубоко внутри самого ядра. На сколько мне удалось проверить, ее так никто и не решал - ибо никого не колышит и в последней ветке 3.x, которую я видел, помоему 3.0.31, дальше не стал проверять - проблема оставалась. Собственно, это и не проблема вовсе, а криворучки мэйнтейнеров. :) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...