sirmax Опубликовано 27 ноября, 2014 · Жалоба Судя по всему 3.17 - ничего не поменялось откатил на центосовское Linux 2.6.32-358.23.2.el6.x86_64 #1 SMP Wed Oct 16 18:37:12 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux Perf top изменился - но пока не понятно хорошо ли это. Samples: 35K of event 'cycles', Event count (approx.): 15194965830 28.62% [kernel] [k] dev_hard_start_xmit 14.82% [kernel] [k] netif_nit_deliver 14.28% [kernel] [k] __netif_receive_skb 6.38% [kernel] [k] ipt_do_table 3.34% [kernel] [k] _spin_lock 1.25% [kernel] [k] fn_hash_lookup 0.88% [kernel] [k] ixgbe_poll 0.45% [kernel] [k] ip_route_input_slow 0.41% [kernel] [k] net_rx_action 0.39% [kernel] [k] ixgbe_xmit_frame_ring 0.36% [kernel] [k] dev_queue_xmit 0.35% [kernel] [k] neigh_lookup 0.34% [kernel] [k] fib_semantic_match 0.34% [kernel] [k] irq_entries_start 0.28% [kernel] [k] page_fault 0.27% [kernel] [k] native_write_msr_safe Траффика примерно 0.7 гига mpstat -P ALL 1 Linux 2.6.32-358.23.2.el6.x86_64 11/27/2014 _x86_64_ (6 CPU) 01:26:08 PM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %idle 01:26:09 PM all 0.51 0.00 0.17 0.00 0.00 31.36 0.00 0.00 67.97 01:26:09 PM 0 0.00 0.00 0.00 0.00 0.00 29.17 0.00 0.00 70.83 01:26:09 PM 1 0.00 0.00 0.00 0.00 0.00 38.78 0.00 0.00 61.22 01:26:09 PM 2 0.00 0.00 0.98 0.00 0.00 45.10 0.00 0.00 53.92 01:26:09 PM 3 0.00 0.00 0.00 0.00 0.00 36.36 0.00 0.00 63.64 01:26:09 PM 4 0.00 0.00 0.00 0.00 0.00 39.18 0.00 0.00 60.82 01:26:09 PM 5 3.03 0.00 1.01 0.00 0.00 0.00 0.00 0.00 95.96 01:26:09 PM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %idle 01:26:10 PM all 2.17 0.00 0.50 0.17 0.00 32.89 0.00 0.00 64.27 01:26:10 PM 0 0.00 0.00 0.00 1.98 0.00 35.64 0.00 0.00 62.38 01:26:10 PM 1 0.00 0.00 0.00 0.00 0.00 36.54 0.00 0.00 63.46 01:26:10 PM 2 0.00 0.00 0.00 0.00 0.00 50.96 0.00 0.00 49.04 01:26:10 PM 3 0.00 0.00 0.00 0.00 0.00 40.00 0.00 0.00 60.00 01:26:10 PM 4 0.00 0.00 0.00 0.00 0.00 34.38 0.00 0.00 65.62 01:26:10 PM 5 12.87 0.00 2.97 0.00 0.00 0.00 0.00 0.00 84.16 01:26:10 PM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %idle 01:26:11 PM all 2.99 0.00 1.16 3.99 0.00 32.56 0.00 0.00 59.30 01:26:11 PM 0 0.00 0.00 0.00 11.34 0.00 32.99 0.00 0.00 55.67 01:26:11 PM 1 0.00 0.00 0.00 0.00 0.00 36.27 0.00 0.00 63.73 01:26:11 PM 2 0.00 0.00 0.97 0.00 0.00 48.54 0.00 0.00 50.49 01:26:11 PM 3 0.00 0.00 0.00 0.00 0.00 41.58 0.00 0.00 58.42 01:26:11 PM 4 0.00 0.00 0.00 0.00 0.00 34.69 0.00 0.00 65.31 01:26:11 PM 5 18.00 0.00 6.00 13.00 0.00 0.00 0.00 0.00 63.00 01:26:11 PM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %idle 01:26:12 PM all 5.12 0.00 1.49 2.97 0.00 33.00 0.00 0.00 57.43 01:26:12 PM 0 0.00 0.00 0.00 4.95 0.00 38.61 0.00 0.00 56.44 01:26:12 PM 1 0.98 0.00 0.00 0.00 0.00 37.25 0.00 0.00 61.76 01:26:12 PM 2 0.00 0.00 0.00 0.00 0.00 44.12 0.00 0.00 55.88 01:26:12 PM 3 0.00 0.00 0.00 0.00 0.00 37.37 0.00 0.00 62.63 01:26:12 PM 4 0.00 0.00 0.00 0.00 0.00 40.20 0.00 0.00 59.80 01:26:12 PM 5 30.30 0.00 8.08 13.13 0.00 0.00 0.00 0.00 48.48 Т.е. ничего не ясно. Коллеги, что еще проверить? В соседней теме предлогают sysctl -w net.ipv4.rt_cache_rebuild_count=-1 intel_idle.max_cstate=0 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Dark_Angel Опубликовано 27 ноября, 2014 · Жалоба Как-то много у вас iptables. Сколько у вас сумарно правил по всем таблицам? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 27 ноября, 2014 · Жалоба cat /etc/sysconfig/iptables | grep -v '#' | grep -v ^$ | wc -l 76 Реально чуть меньше - за счет того что там еще записи вроде COMMIT *nat и т.п. в конфиге Кстати (уже от безнадеги) начал смотреть конфиги сети Вланам принудительно выставляется МАК-адрес отличный от мака родительсклого интерфейса причем всем вланам - разный. как-то так. eth4.3296 Link encap:Ethernet HWaddr 90:E2:BA:4A:32:96 eth4.3297 Link encap:Ethernet HWaddr 90:E2:BA:4A:32:97 eth4.3298 Link encap:Ethernet HWaddr 90:E2:BA:4A:32:98 eth4.3299 Link encap:Ethernet HWaddr 90:E2:BA:4A:32:99 Это может быть как-то влиять? и кстати eth4.3001 Link encap:Ethernet HWaddr 90:E2:BA:4A:30:01 inet addr:10.30.1.1 Bcast:0.0.0.0 Mask:255.255.255.255 inet6 addr: fe80::92e2:baff:fe4a:3001/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:2203734 errors:0 dropped:0 overruns:0 frame:0 TX packets:2202761 errors:0 dropped:2 overruns:0 carrier:0 collisions:0 txqueuelen:1000 txqueuelen:1000 - надо ли выставлять на вланах? по умолчанию - 0 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Dark_Angel Опубликовано 27 ноября, 2014 · Жалоба А правила в памяти совпадают с тем что в /etc/sysconfig/iptables? У вас случайно governor не слетел? Потому что это всё выглядит очень странно. Какая частота процессора по системе? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 27 ноября, 2014 · Жалоба Dark_Angel Да, я специально проверил - правила в ядре и конфиге - совпадают. У вас случайно governor Я не знаю как это проверить. Для всех CPU: cat /proc/acpi/processor/CPU0/throttling state count: 15 active state: T0 state available: T0 to T14 states: *T0: 100% T1: 94% T2: 88% T3: 82% T4: 75% T5: 69% T6: 63% T7: 57% T8: 50% T9: 44% T10: 38% T11: 32% T12: 25% T13: 19% T14: 13% т.е. я предпологаю что все ок. cpupower frequency-info analyzing CPU 0: no or unknown cpufreq driver is active on this CPU boost state support: Supported: yes Active: yes Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Dark_Angel Опубликовано 27 ноября, 2014 (изменено) · Жалоба Частоту посмотрите. grep "Hz" /proc/cpuinfo Пару раз пустите для надежности. У меня, кстати, была один раз проблема: после регламентных работ роутер стал тупым. Совсем. Регламентные работы были по железу, поэтому гарантированно ничего не менялось. Выяснилось, что плохо был закреплен кулер и процессор перегреваясь тротлил. Проверьте температуру. Так, на всякий, чтобы этот вариант исключить. Но это вроде бы должен показать тест на частоту, т.к. современные процессоры не просто пропускают такты, но еще и частоту роняют. Изменено 27 ноября, 2014 пользователем Dark_Angel Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 27 ноября, 2014 · Жалоба Проверил не один раз - выглядит нормальным. grep "Hz" /proc/cpuinfo model name : Intel(R) Xeon(R) CPU E5-1650 v2 @ 3.50GHz cpu MHz : 3500.068 model name : Intel(R) Xeon(R) CPU E5-1650 v2 @ 3.50GHz cpu MHz : 3500.068 model name : Intel(R) Xeon(R) CPU E5-1650 v2 @ 3.50GHz cpu MHz : 3500.068 model name : Intel(R) Xeon(R) CPU E5-1650 v2 @ 3.50GHz cpu MHz : 3500.068 model name : Intel(R) Xeon(R) CPU E5-1650 v2 @ 3.50GHz cpu MHz : 3500.068 model name : Intel(R) Xeon(R) CPU E5-1650 v2 @ 3.50GHz cpu MHz : 3500.068 Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Dark_Angel Опубликовано 27 ноября, 2014 · Жалоба А количество принятых/отправленных пакетов примерно совпадает? Нет перекоса? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 27 ноября, 2014 · Жалоба А количество принятых/отправленных пакетов примерно совпадает? Нет перекоса? Это сложно определить точно но порядок - совпадает eth4 Link encap:Ethernet HWaddr 90:E2:BA:4A:D3:3C inet6 addr: fe80::92e2:baff:fe4a:d33c/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:1416905417 errors:0 dropped:0 overruns:0 frame:0 TX packets:1411445038 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:1217412091105 (1.1 TiB) TX bytes:1216443868955 (1.1 TiB) Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Dimka88 Опубликовано 27 ноября, 2014 · Жалоба Мне кажется проблема все же с драйвером сетевой, гляньте в dmesg по поводу ixgbe. Я предположил на основании: perf top 33.64% [kernel] [k] __netif_receive_skb_core 32.87% [kernel] [k] dev_queue_xmit_nit Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 27 ноября, 2014 · Жалоба Я не знаю что здесь можно увидеть такого что может помочь. Это с новым (т.е. старым - центосовским) ядром. dmesg | grep ixgbe ixgbe 0000:05:00.0: PCI INT A -> GSI 42 (level, low) -> IRQ 42 ixgbe 0000:05:00.0: setting latency timer to 64 ixgbe: Direct Cache Access (DCA) set to 2 ixgbe: 0000:05:00.0: ixgbe_check_options: DCA enabled for rx data ixgbe: Receive-Side Scaling (RSS) set to 5 ixgbe: Virtual Machine Device Queues (VMDQ) set to 0 ixgbe: 0000:05:00.0: ixgbe_check_options: dynamic interrupt throttling enabled ixgbe: Flow Director packet buffer allocation set to 3 ixgbe: 0000:05:00.0: ixgbe_check_options: Flow Director will be allocated 256kB of packet buffer ixgbe: Enabled/Disable FCoE offload Disabled ixgbe: 0000:05:00.0: ixgbe_check_options: FCoE Offload feature disabled ixgbe 0000:05:00.0: irq 85 for MSI/MSI-X ixgbe 0000:05:00.0: irq 86 for MSI/MSI-X ixgbe 0000:05:00.0: irq 87 for MSI/MSI-X ixgbe 0000:05:00.0: irq 88 for MSI/MSI-X ixgbe 0000:05:00.0: irq 89 for MSI/MSI-X ixgbe 0000:05:00.0: irq 90 for MSI/MSI-X ixgbe 0000:05:00.0: PCI Express bandwidth of 32GT/s available ixgbe 0000:05:00.0: (Speed:5.0GT/s, Width: x8, Encoding Loss:20%) ixgbe 0000:05:00.0: eth4: MAC: 2, PHY: 15, SFP+: 5, PBA No: E68793-006 ixgbe 0000:05:00.0: 90:e2:ba:4a:d3:3c ixgbe 0000:05:00.0: eth4: Enabled Features: RxQ: 5 TxQ: 5 RSC ixgbe 0000:05:00.0: eth4: Intel(R) 10 Gigabit Network Connection ixgbe 0000:05:00.1: PCI INT B -> GSI 45 (level, low) -> IRQ 45 ixgbe 0000:05:00.1: setting latency timer to 64 ixgbe: Direct Cache Access (DCA) set to 2 ixgbe: 0000:05:00.1: ixgbe_check_options: DCA enabled for rx data ixgbe: Receive-Side Scaling (RSS) set to 5 ixgbe: Virtual Machine Device Queues (VMDQ) set to 0 ixgbe: 0000:05:00.1: ixgbe_check_options: dynamic interrupt throttling enabled ixgbe: Flow Director packet buffer allocation set to 3 ixgbe: 0000:05:00.1: ixgbe_check_options: Flow Director will be allocated 256kB of packet buffer ixgbe: Enabled/Disable FCoE offload Disabled ixgbe: 0000:05:00.1: ixgbe_check_options: FCoE Offload feature disabled ixgbe 0000:05:00.1: irq 91 for MSI/MSI-X ixgbe 0000:05:00.1: irq 92 for MSI/MSI-X ixgbe 0000:05:00.1: irq 93 for MSI/MSI-X ixgbe 0000:05:00.1: irq 94 for MSI/MSI-X ixgbe 0000:05:00.1: irq 95 for MSI/MSI-X ixgbe 0000:05:00.1: irq 96 for MSI/MSI-X ixgbe 0000:05:00.1: PCI Express bandwidth of 32GT/s available ixgbe 0000:05:00.1: (Speed:5.0GT/s, Width: x8, Encoding Loss:20%) ixgbe 0000:05:00.1: eth5: MAC: 2, PHY: 1, PBA No: E68793-006 ixgbe 0000:05:00.1: 90:e2:ba:4a:d3:3d ixgbe 0000:05:00.1: eth5: Enabled Features: RxQ: 5 TxQ: 5 RSC ixgbe 0000:05:00.1: eth5: Intel(R) 10 Gigabit Network Connection ixgbe 0000:05:00.0: registered PHC device on eth4 ixgbe 0000:05:00.0: eth4: detected SFP+: 5 ixgbe 0000:05:00.0: eth4: NIC Link is Up 10 Gbps, Flow Control: RX/TX ixgbe 0000:05:00.0: eth4: detected SFP+: 5 ixgbe 0000:05:00.0: eth4: detected SFP+: 5 ixgbe 0000:05:00.0: eth4: NIC Link is Up 10 Gbps, Flow Control: RX/TX ixgbe 0000:05:00.0: eth4: detected SFP+: 5 ixgbe 0000:05:00.0: eth4: detected SFP+: 5 ixgbe 0000:05:00.0: eth4: NIC Link is Up 10 Gbps, Flow Control: TX Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Dark_Angel Опубликовано 27 ноября, 2014 (изменено) · Жалоба В перф топе функции отправки пакета драйвером сетевой карты. Что они делают в топе и почему там только отправка да еще и с таким отрывом, совершенно не понятно. Кстати, не видно версию драйвера. Изменено 27 ноября, 2014 пользователем Dark_Angel Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 27 ноября, 2014 · Жалоба Я выше писал про переназначение маков на вланах. Это может быть причиной? Хотя бы теоретически? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Dark_Angel Опубликовано 27 ноября, 2014 · Жалоба Типа каждый ВЛАН имеет свой мак? Врядли это причина. У вас же так и до проблемы было? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 27 ноября, 2014 · Жалоба Типа каждый ВЛАН имеет свой мак? Врядли это причина. У вас же так и до проблемы было? Да, так было и до. Ну попробую отключить ночью - посмотрю. А то что- то совсем идей нет. Что еще может быть? DHCP в каждом влане болтается, но тоже вроде ни о чем это. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Dark_Angel Опубликовано 27 ноября, 2014 · Жалоба А не мог драйвер быть раньше кастомным а сейчас тот что с ядром идет? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 27 ноября, 2014 · Жалоба А не мог драйвер быть раньше кастомным а сейчас тот что с ядром идет? нет, не мог. но я могу пересобрать еще раз последний для текущего ядра, но новости только завтра - ребутить до 00 сцыкотно - много жалоб будет. Лучше медленно чем никак =( Вообще очень загадочно. Карта кстати - с жбиками - может в эту сторону что-то покопать, хотя что ... в другой слот переставить ... Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Antares Опубликовано 27 ноября, 2014 · Жалоба txqueuelen:1000 до 10000 увеличить не пробовали? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 27 ноября, 2014 · Жалоба txqueuelen:1000 до 10000 увеличить не пробовали? попробовал, 5 минут - результата нет. Кстати при выключении gro/tso/gso поведение поменялось 29.68% [kernel] [k] _spin_lock 27.17% [kernel] [k] dev_hard_start_xmit 14.10% [kernel] [k] __netif_receive_skb 13.79% [kernel] [k] netif_nit_deliver 0.98% [kernel] [k] fn_hash_lookup 0.89% [kernel] [k] ipt_do_table и в top на первых местах - 9 root 20 0 0 0 0 S 41.5 0.0 8:17.25 1 [ksoftirqd/1] 4 root 20 0 0 0 0 S 24.2 0.0 9:41.54 0 [ksoftirqd/0] 13 root 20 0 0 0 0 S 22.3 0.0 11:06.18 2 [ksoftirqd/2] 17 root 20 0 0 0 0 S 21.6 0.0 5:50.95 3 [ksoftirqd/3] а до этого - нагрузка в si но в топе ksoftirqd не светился. Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 27 ноября, 2014 · Жалоба возможно какой-то лишний модуль? vhost_net 30520 0 macvtap 9948 1 vhost_net macvlan 9873 1 macvtap tun 17095 1 vhost_net Я не очень понимаю что это за модули и зачем ... Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
Abram Опубликовано 27 ноября, 2014 · Жалоба sirmax, А в BIOS-е никто ничего накрутить не мог? Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 27 ноября, 2014 · Жалоба sirmax, А в BIOS-е никто ничего накрутить не мог? Маловероятно Но сегодня как нагрузка спадет - пойду проверять - IPMI слава богу есть Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
telecom Опубликовано 27 ноября, 2014 · Жалоба бгп - бёрд или квага? и где-то здесь на форуме уже было про dhcp-server, который дает периодически всякие глюки.... Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 27 ноября, 2014 · Жалоба бгп - бёрд или квага? и где-то здесь на форуме уже было про dhcp-server, который дает периодически всякие глюки.... БГП квагга ДЦСП - попробовать сделать релеем? а сам ДХЦП на lo? Биос проверил виртуализацию отключил - так сходу не видно изменений но нагрузки сейчас нет iommu=off intel_iommu=off intel_idle.max_cstate=0 processor.max_cstate=0 idle=poll Хм - при отключении дхцп на 10-20 секунд (отключить - посмотреть perf top - включить ) вывод perf top меняется (траффик упасть не успевает) Попробую переделать пока клиенты спят Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...
sirmax Опубликовано 28 ноября, 2014 · Жалоба после переноса дхцп (оставил релей) ситуация странным образом меняется Samples: 741K of event 'cycles', Event count (approx.): 195767295562 56.48% [kernel] [k] cpu_idle_loop 17.28% [kernel] [k] __netif_receive_skb_core 17.14% [kernel] [k] dev_queue_xmit_nit 0.38% [kernel] [k] fib_table_lookup 0.33% [kernel] [k] _raw_spin_lock 0.30% [kernel] [k] ipt_do_table 0.14% [kernel] [k] ixgbe_clean_tx_irq Вставить ник Цитата Ответить с цитированием Поделиться сообщением Ссылка на сообщение Поделиться на других сайтах More sharing options...