Перейти к содержимому
Калькуляторы

Странная нагрузка на роутере (Linux)

Судя по всему 3.17 - ничего не поменялось

откатил на центосовское

Linux 2.6.32-358.23.2.el6.x86_64 #1 SMP Wed Oct 16 18:37:12 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux

 

Perf top изменился - но пока не понятно хорошо ли это.

Samples: 35K of event 'cycles', Event count (approx.): 15194965830
 28.62%  [kernel]                  [k] dev_hard_start_xmit
 14.82%  [kernel]                  [k] netif_nit_deliver
 14.28%  [kernel]                  [k] __netif_receive_skb
  6.38%  [kernel]                  [k] ipt_do_table
  3.34%  [kernel]                  [k] _spin_lock
  1.25%  [kernel]                  [k] fn_hash_lookup
  0.88%  [kernel]                  [k] ixgbe_poll
  0.45%  [kernel]                  [k] ip_route_input_slow
  0.41%  [kernel]                  [k] net_rx_action
  0.39%  [kernel]                  [k] ixgbe_xmit_frame_ring
  0.36%  [kernel]                  [k] dev_queue_xmit
  0.35%  [kernel]                  [k] neigh_lookup
  0.34%  [kernel]                  [k] fib_semantic_match
  0.34%  [kernel]                  [k] irq_entries_start
  0.28%  [kernel]                  [k] page_fault
  0.27%  [kernel]                  [k] native_write_msr_safe

 

Траффика примерно 0.7 гига

mpstat -P ALL 1 
Linux 2.6.32-358.23.2.el6.x86_64         	11/27/2014 	_x86_64_	(6 CPU)

01:26:08 PM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest   %idle
01:26:09 PM  all    0.51    0.00    0.17    0.00    0.00   31.36    0.00    0.00   67.97
01:26:09 PM    0    0.00    0.00    0.00    0.00    0.00   29.17    0.00    0.00   70.83
01:26:09 PM    1    0.00    0.00    0.00    0.00    0.00   38.78    0.00    0.00   61.22
01:26:09 PM    2    0.00    0.00    0.98    0.00    0.00   45.10    0.00    0.00   53.92
01:26:09 PM    3    0.00    0.00    0.00    0.00    0.00   36.36    0.00    0.00   63.64
01:26:09 PM    4    0.00    0.00    0.00    0.00    0.00   39.18    0.00    0.00   60.82
01:26:09 PM    5    3.03    0.00    1.01    0.00    0.00    0.00    0.00    0.00   95.96

01:26:09 PM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest   %idle
01:26:10 PM  all    2.17    0.00    0.50    0.17    0.00   32.89    0.00    0.00   64.27
01:26:10 PM    0    0.00    0.00    0.00    1.98    0.00   35.64    0.00    0.00   62.38
01:26:10 PM    1    0.00    0.00    0.00    0.00    0.00   36.54    0.00    0.00   63.46
01:26:10 PM    2    0.00    0.00    0.00    0.00    0.00   50.96    0.00    0.00   49.04
01:26:10 PM    3    0.00    0.00    0.00    0.00    0.00   40.00    0.00    0.00   60.00
01:26:10 PM    4    0.00    0.00    0.00    0.00    0.00   34.38    0.00    0.00   65.62
01:26:10 PM    5   12.87    0.00    2.97    0.00    0.00    0.00    0.00    0.00   84.16

01:26:10 PM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest   %idle
01:26:11 PM  all    2.99    0.00    1.16    3.99    0.00   32.56    0.00    0.00   59.30
01:26:11 PM    0    0.00    0.00    0.00   11.34    0.00   32.99    0.00    0.00   55.67
01:26:11 PM    1    0.00    0.00    0.00    0.00    0.00   36.27    0.00    0.00   63.73
01:26:11 PM    2    0.00    0.00    0.97    0.00    0.00   48.54    0.00    0.00   50.49
01:26:11 PM    3    0.00    0.00    0.00    0.00    0.00   41.58    0.00    0.00   58.42
01:26:11 PM    4    0.00    0.00    0.00    0.00    0.00   34.69    0.00    0.00   65.31
01:26:11 PM    5   18.00    0.00    6.00   13.00    0.00    0.00    0.00    0.00   63.00

01:26:11 PM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest   %idle
01:26:12 PM  all    5.12    0.00    1.49    2.97    0.00   33.00    0.00    0.00   57.43
01:26:12 PM    0    0.00    0.00    0.00    4.95    0.00   38.61    0.00    0.00   56.44
01:26:12 PM    1    0.98    0.00    0.00    0.00    0.00   37.25    0.00    0.00   61.76
01:26:12 PM    2    0.00    0.00    0.00    0.00    0.00   44.12    0.00    0.00   55.88
01:26:12 PM    3    0.00    0.00    0.00    0.00    0.00   37.37    0.00    0.00   62.63
01:26:12 PM    4    0.00    0.00    0.00    0.00    0.00   40.20    0.00    0.00   59.80
01:26:12 PM    5   30.30    0.00    8.08   13.13    0.00    0.00    0.00    0.00   48.48

 

 

Т.е. ничего не ясно.

 

Коллеги, что еще проверить?

В соседней теме предлогают

sysctl -w net.ipv4.rt_cache_rebuild_count=-1

intel_idle.max_cstate=0

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Как-то много у вас iptables. Сколько у вас сумарно правил по всем таблицам?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

cat /etc/sysconfig/iptables | grep -v '#' | grep -v ^$ | wc -l
76

Реально чуть меньше - за счет того что там еще записи вроде COMMIT *nat и т.п. в конфиге

 

Кстати (уже от безнадеги)

начал смотреть конфиги сети

Вланам принудительно выставляется МАК-адрес отличный от мака родительсклого интерфейса причем всем вланам - разный.

как-то так.

eth4.3296 Link encap:Ethernet  HWaddr 90:E2:BA:4A:32:96  
eth4.3297 Link encap:Ethernet  HWaddr 90:E2:BA:4A:32:97  
eth4.3298 Link encap:Ethernet  HWaddr 90:E2:BA:4A:32:98  
eth4.3299 Link encap:Ethernet  HWaddr 90:E2:BA:4A:32:99  

 

Это может быть как-то влиять?

 

и кстати

eth4.3001 Link encap:Ethernet  HWaddr 90:E2:BA:4A:30:01  
         inet addr:10.30.1.1  Bcast:0.0.0.0  Mask:255.255.255.255
         inet6 addr: fe80::92e2:baff:fe4a:3001/64 Scope:Link
         UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
         RX packets:2203734 errors:0 dropped:0 overruns:0 frame:0
         TX packets:2202761 errors:0 dropped:2 overruns:0 carrier:0
         collisions:0 txqueuelen:1000 

txqueuelen:1000 - надо ли выставлять на вланах?

по умолчанию - 0

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А правила в памяти совпадают с тем что в /etc/sysconfig/iptables?

 

У вас случайно governor не слетел? Потому что это всё выглядит очень странно. Какая частота процессора по системе?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Dark_Angel

Да, я специально проверил - правила в ядре и конфиге - совпадают.

У вас случайно governor

Я не знаю как это проверить.

Для всех CPU:

cat /proc/acpi/processor/CPU0/throttling
state count:             15
active state:            T0
state available: T0 to T14
states:
  *T0:                  100%
   T1:                  94%
   T2:                  88%
   T3:                  82%
   T4:                  75%
   T5:                  69%
   T6:                  63%
   T7:                  57%
   T8:                  50%
   T9:                  44%
   T10:                  38%
   T11:                  32%
   T12:                  25%
   T13:                  19%
   T14:                  13%

т.е. я предпологаю что все ок.

 

 

cpupower frequency-info
analyzing CPU 0:
 no or unknown cpufreq driver is active on this CPU
 boost state support:
   Supported: yes
   Active: yes

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Частоту посмотрите.

 

grep "Hz" /proc/cpuinfo

 

Пару раз пустите для надежности.

 

У меня, кстати, была один раз проблема: после регламентных работ роутер стал тупым. Совсем. Регламентные работы были по железу, поэтому гарантированно ничего не менялось. Выяснилось, что плохо был закреплен кулер и процессор перегреваясь тротлил.

 

Проверьте температуру. Так, на всякий, чтобы этот вариант исключить. Но это вроде бы должен показать тест на частоту, т.к. современные процессоры не просто пропускают такты, но еще и частоту роняют.

Изменено пользователем Dark_Angel

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Проверил не один раз - выглядит нормальным.

grep "Hz" /proc/cpuinfo
model name	: Intel(R) Xeon(R) CPU E5-1650 v2 @ 3.50GHz
cpu MHz		: 3500.068
model name	: Intel(R) Xeon(R) CPU E5-1650 v2 @ 3.50GHz
cpu MHz		: 3500.068
model name	: Intel(R) Xeon(R) CPU E5-1650 v2 @ 3.50GHz
cpu MHz		: 3500.068
model name	: Intel(R) Xeon(R) CPU E5-1650 v2 @ 3.50GHz
cpu MHz		: 3500.068
model name	: Intel(R) Xeon(R) CPU E5-1650 v2 @ 3.50GHz
cpu MHz		: 3500.068
model name	: Intel(R) Xeon(R) CPU E5-1650 v2 @ 3.50GHz
cpu MHz		: 3500.068

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А количество принятых/отправленных пакетов примерно совпадает? Нет перекоса?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А количество принятых/отправленных пакетов примерно совпадает? Нет перекоса?

Это сложно определить точно

но порядок - совпадает

eth4      Link encap:Ethernet  HWaddr 90:E2:BA:4A:D3:3C  
         inet6 addr: fe80::92e2:baff:fe4a:d33c/64 Scope:Link
         UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
         RX packets:1416905417 errors:0 dropped:0 overruns:0 frame:0
         TX packets:1411445038 errors:0 dropped:0 overruns:0 carrier:0
         collisions:0 txqueuelen:1000 
         RX bytes:1217412091105 (1.1 TiB)  TX bytes:1216443868955 (1.1 TiB)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Мне кажется проблема все же с драйвером сетевой, гляньте в dmesg по поводу ixgbe.

Я предположил на основании:

perf top

  33.64%  [kernel]                   [k] __netif_receive_skb_core                                                                                                                                                                              

  32.87%  [kernel]                   [k] dev_queue_xmit_nit  

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Я не знаю что здесь можно увидеть такого что может помочь.

Это с новым (т.е. старым - центосовским) ядром.

dmesg  |  grep ixgbe
ixgbe 0000:05:00.0: PCI INT A -> GSI 42 (level, low) -> IRQ 42
ixgbe 0000:05:00.0: setting latency timer to 64
ixgbe: Direct Cache Access (DCA) set to 2
ixgbe: 0000:05:00.0: ixgbe_check_options: DCA enabled for rx data
ixgbe: Receive-Side Scaling (RSS) set to 5
ixgbe: Virtual Machine Device Queues (VMDQ) set to 0
ixgbe: 0000:05:00.0: ixgbe_check_options: dynamic interrupt throttling enabled
ixgbe: Flow Director packet buffer allocation set to 3
ixgbe: 0000:05:00.0: ixgbe_check_options: Flow Director will be allocated 256kB of packet buffer
ixgbe: Enabled/Disable FCoE offload Disabled
ixgbe: 0000:05:00.0: ixgbe_check_options: FCoE Offload feature disabled
ixgbe 0000:05:00.0: irq 85 for MSI/MSI-X
ixgbe 0000:05:00.0: irq 86 for MSI/MSI-X
ixgbe 0000:05:00.0: irq 87 for MSI/MSI-X
ixgbe 0000:05:00.0: irq 88 for MSI/MSI-X
ixgbe 0000:05:00.0: irq 89 for MSI/MSI-X
ixgbe 0000:05:00.0: irq 90 for MSI/MSI-X
ixgbe 0000:05:00.0: PCI Express bandwidth of 32GT/s available
ixgbe 0000:05:00.0: (Speed:5.0GT/s, Width: x8, Encoding Loss:20%)
ixgbe 0000:05:00.0: eth4: MAC: 2, PHY: 15, SFP+: 5, PBA No: E68793-006
ixgbe 0000:05:00.0: 90:e2:ba:4a:d3:3c
ixgbe 0000:05:00.0: eth4: Enabled Features: RxQ: 5 TxQ: 5 RSC 
ixgbe 0000:05:00.0: eth4: Intel(R) 10 Gigabit Network Connection
ixgbe 0000:05:00.1: PCI INT B -> GSI 45 (level, low) -> IRQ 45
ixgbe 0000:05:00.1: setting latency timer to 64
ixgbe: Direct Cache Access (DCA) set to 2
ixgbe: 0000:05:00.1: ixgbe_check_options: DCA enabled for rx data
ixgbe: Receive-Side Scaling (RSS) set to 5
ixgbe: Virtual Machine Device Queues (VMDQ) set to 0
ixgbe: 0000:05:00.1: ixgbe_check_options: dynamic interrupt throttling enabled
ixgbe: Flow Director packet buffer allocation set to 3
ixgbe: 0000:05:00.1: ixgbe_check_options: Flow Director will be allocated 256kB of packet buffer
ixgbe: Enabled/Disable FCoE offload Disabled
ixgbe: 0000:05:00.1: ixgbe_check_options: FCoE Offload feature disabled
ixgbe 0000:05:00.1: irq 91 for MSI/MSI-X
ixgbe 0000:05:00.1: irq 92 for MSI/MSI-X
ixgbe 0000:05:00.1: irq 93 for MSI/MSI-X
ixgbe 0000:05:00.1: irq 94 for MSI/MSI-X
ixgbe 0000:05:00.1: irq 95 for MSI/MSI-X
ixgbe 0000:05:00.1: irq 96 for MSI/MSI-X
ixgbe 0000:05:00.1: PCI Express bandwidth of 32GT/s available
ixgbe 0000:05:00.1: (Speed:5.0GT/s, Width: x8, Encoding Loss:20%)
ixgbe 0000:05:00.1: eth5: MAC: 2, PHY: 1, PBA No: E68793-006
ixgbe 0000:05:00.1: 90:e2:ba:4a:d3:3d
ixgbe 0000:05:00.1: eth5: Enabled Features: RxQ: 5 TxQ: 5 RSC 
ixgbe 0000:05:00.1: eth5: Intel(R) 10 Gigabit Network Connection
ixgbe 0000:05:00.0: registered PHC device on eth4
ixgbe 0000:05:00.0: eth4: detected SFP+: 5
ixgbe 0000:05:00.0: eth4: NIC Link is Up 10 Gbps, Flow Control: RX/TX
ixgbe 0000:05:00.0: eth4: detected SFP+: 5
ixgbe 0000:05:00.0: eth4: detected SFP+: 5
ixgbe 0000:05:00.0: eth4: NIC Link is Up 10 Gbps, Flow Control: RX/TX
ixgbe 0000:05:00.0: eth4: detected SFP+: 5
ixgbe 0000:05:00.0: eth4: detected SFP+: 5
ixgbe 0000:05:00.0: eth4: NIC Link is Up 10 Gbps, Flow Control: TX

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В перф топе функции отправки пакета драйвером сетевой карты. Что они делают в топе и почему там только отправка да еще и с таким отрывом, совершенно не понятно.

 

Кстати, не видно версию драйвера.

Изменено пользователем Dark_Angel

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Я выше писал про переназначение маков на вланах.

Это может быть причиной? Хотя бы теоретически?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Типа каждый ВЛАН имеет свой мак? Врядли это причина. У вас же так и до проблемы было?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Типа каждый ВЛАН имеет свой мак? Врядли это причина. У вас же так и до проблемы было?

Да, так было и до.

Ну попробую отключить ночью - посмотрю.

А то что- то совсем идей нет.

 

Что еще может быть? DHCP в каждом влане болтается, но тоже вроде ни о чем это.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А не мог драйвер быть раньше кастомным а сейчас тот что с ядром идет?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А не мог драйвер быть раньше кастомным а сейчас тот что с ядром идет?

нет, не мог.

но я могу пересобрать еще раз последний для текущего ядра, но новости только завтра - ребутить до 00 сцыкотно - много жалоб будет.

Лучше медленно чем никак =(

 

Вообще очень загадочно.

Карта кстати - с жбиками - может в эту сторону что-то покопать, хотя что ...

в другой слот переставить ...

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

txqueuelen:1000 до 10000 увеличить не пробовали?

попробовал, 5 минут - результата нет.

 

Кстати при выключении gro/tso/gso поведение поменялось

 29.68%  [kernel]                      [k] _spin_lock
 27.17%  [kernel]                      [k] dev_hard_start_xmit
 14.10%  [kernel]                      [k] __netif_receive_skb
 13.79%  [kernel]                      [k] netif_nit_deliver
  0.98%  [kernel]                      [k] fn_hash_lookup
  0.89%  [kernel]                      [k] ipt_do_table

и в top

на первых местах -

   9 root      20   0     0    0    0 S 41.5  0.0   8:17.25 1 [ksoftirqd/1]
   4 root      20   0     0    0    0 S 24.2  0.0   9:41.54 0 [ksoftirqd/0]
  13 root      20   0     0    0    0 S 22.3  0.0  11:06.18 2 [ksoftirqd/2]
  17 root      20   0     0    0    0 S 21.6  0.0   5:50.95 3 [ksoftirqd/3]

а до этого - нагрузка в si но в топе ksoftirqd не светился.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

возможно какой-то лишний модуль?

vhost_net              30520  0 
macvtap                 9948  1 vhost_net
macvlan                 9873  1 macvtap
tun                    17095  1 vhost_net

Я не очень понимаю что это за модули и зачем ...

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

sirmax,

А в BIOS-е никто ничего накрутить не мог?

Маловероятно

Но сегодня как нагрузка спадет - пойду проверять - IPMI слава богу есть

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

бгп - бёрд или квага?

и где-то здесь на форуме уже было про dhcp-server, который дает периодически всякие глюки....

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

бгп - бёрд или квага?

и где-то здесь на форуме уже было про dhcp-server, который дает периодически всякие глюки....

БГП квагга

ДЦСП - попробовать сделать релеем? а сам ДХЦП на lo?

 

 

Биос проверил виртуализацию отключил - так сходу не видно изменений но нагрузки сейчас нет

iommu=off intel_iommu=off  intel_idle.max_cstate=0 processor.max_cstate=0 idle=poll

 

Хм - при отключении дхцп на 10-20 секунд (отключить - посмотреть perf top - включить ) вывод perf top меняется (траффик упасть не успевает)

 

Попробую переделать пока клиенты спят

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

после переноса дхцп (оставил релей) ситуация странным образом меняется

Samples: 741K of event 'cycles', Event count (approx.): 195767295562
 56.48%  [kernel]                    [k] cpu_idle_loop
 17.28%  [kernel]                    [k] __netif_receive_skb_core
 17.14%  [kernel]                    [k] dev_queue_xmit_nit
  0.38%  [kernel]                    [k] fib_table_lookup
  0.33%  [kernel]                    [k] _raw_spin_lock
  0.30%  [kernel]                    [k] ipt_do_table
  0.14%  [kernel]                    [k] ixgbe_clean_tx_irq

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.