Jump to content

Recommended Posts

Posted (edited)

собственно достались нам два сервака на SuperMicro X9SCM-F.

Intel® Core i3-3220 CPU @ 3.30GHz

memory 4G

lspci |grep Ethe

00:19.0 Ethernet controller: Intel Corporation 82579LM Gigabit Network Connection (rev 05)

02:00.0 Ethernet controller: Intel Corporation 82574L Gigabit Network Connection

 

думали поставить их в стойку что бы молотили трафик - шейпинг и нат. У нас это делают N серверов. наращиваем по факту нагрузки.

 

а с ними облом вышел. всё описано тут - https://sourceforge.net/p/e1000/bugs/372/

Но в кратце тоже самое что там только на русском, но без тех отчетов :)

 

 

----

Сервер используется для маршрутизации трафика клиентов. По схеме:

Клиент <-> "eth1 Сервер eth0 " <-> Интернет

 

На сервере делается НАТ и шэйпинг. Однако на текущий момент всё это отключено, и сервер делает только Форвардинг.

 

Мы столкнулись с проблемой. после пары минут работы в этом режиме сервер выдает ошибку: eth0: Detected Hardware Unit hang

 

ошибка воспроизводится на разной версии драйверов, под разными ядрами

Были испробованы варианты:

Кернел = 2.6.30, 3.7.10

драйвера = 2.1, 2.2, 2.3.

способы из инетрнета:

pcie_aspm=off

биос: enabled\disabled aspm

ethtool -A eth0 autoneg off rx off

modprobe e1000e InterruptThrottleRate=0,0

modprobe e1000e SmartPowerDownEnable=1 KumeranLockLoss=0 IntMode=1 EEE=0

 

eth0 построен на чипе 82579LM

 

Мы пробовали другие варианты работы сервера с применением влан , вот они:

Клиент <-> "eth1 Сервер eth1 " <-> Интернет = кабздец :(

Клиент <-> "eth0 Сервер eth0 " <-> Интернет = работает, собственно, пока оно так и работает, но через трафик больше 1г трафика пролить не получится...

 

между тем есть у меня мысли, что это может оказаться чем-то вроде этого - http://habrahabr.ru/post/168607/ http://www.kriskinc.com/intel-pod

Но я не уверен :)

 

ошибко:

 

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] e1000e 0000:00:19.0 eth0: Detected Hardware Unit Hang:

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] TDH <51a>

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] TDT <568>

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] next_to_use <568>

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] next_to_clean <518>

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] buffer_info[next_to_clean]:

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] time_stamp <100263693>

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] next_to_watch <51a>

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] jiffies <100263fd4>

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] next_to_watch.status <0>

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] MAC Status <40080083>

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] PHY Status <796d>

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] PHY 1000BASE-T Status <7c00>

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] PHY Extended Status <3000>

Mar 30 12:55:33 KEN-TEST kernel: [ 2804.368979] PCI Status <10>

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] e1000e 0000:00:19.0 eth0: Detected Hardware Unit Hang:

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] TDH <51a>

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] TDT <568>

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] next_to_use <568>

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] next_to_clean <518>

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] buffer_info[next_to_clean]:

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] time_stamp <100263693>

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] next_to_watch <51a>

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] jiffies <1002647a4>

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] next_to_watch.status <0>

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] MAC Status <40080083>

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] PHY Status <796d>

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] PHY 1000BASE-T Status <7c00>

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] PHY Extended Status <3000>

Mar 30 12:55:35 KEN-TEST kernel: [ 2806.367055] PCI Status <10>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] e1000e 0000:00:19.0 eth0: Detected Hardware Unit Hang:

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] TDH <51a>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] TDT <568>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] next_to_use <568>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] next_to_clean <518>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] buffer_info[next_to_clean]:

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] time_stamp <100263693>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] next_to_watch <51a>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] jiffies <100264f74>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] next_to_watch.status <0>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] MAC Status <40080083>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] PHY Status <796d>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] PHY 1000BASE-T Status <7c00>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] PHY Extended Status <3000>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.365095] PCI Status <10>

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376404] ------------[ cut here ]------------

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376412] WARNING: at net/sched/sch_generic.c:255 dev_watchdog+0xf4/0x154()

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376414] Hardware name: X9SCL/X9SCM

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376416] NETDEV WATCHDOG: eth0 (e1000e): transmit queue 0 timed out

Mar 30 12:55:37 KEN-TEST kernel: [ 0.874535] ACPI: Invalid Power Resource to register!

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376418] Modules linked in: xt_CLASSIFY sch_htb xt_CT iptable_raw xt_REDIRECT xt_nat iptable_nat nf_conntrack_ipv4 nf_defrag_ipv4 nf_nat_ipv4 ipt_REJECT iptable_filter xt_mark xt_set xt_length iptable_mangle ip_tables ip_set_bitmap_port ip_set_hash_net ip_set_bitmap_ip ip_set_hash_ip nf_nat_pptp nf_nat_proto_gre nf_nat_proto_sctp libcrc32c nf_nat_ftp nf_nat_irc nf_nat_tftp nf_nat_h323 nf_nat_proto_dccp nf_conntrack_pptp nf_conntrack_proto_gre nf_conntrack_proto_sctp nf_conntrack_h323 nf_conntrack_netlink nf_conntrack_tftp nf_conntrack_ftp nf_conntrack_irc nf_conntrack_proto_dccp ip_set nf_nat nf_conntrack ipv6 e1000e unix

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376453] Pid: 0, comm: swapper/0 Not tainted 3.7.10-gentoo #4

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376455] Call Trace:

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376457] [] ? dev_watchdog+0xa2/0x154

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376467] [] warn_slowpath_common+0x7e/0x96

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376472] [] ? netif_tx_unlock+0x52/0x52

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376475] [] ? netif_tx_unlock+0x52/0x52

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376479] [] warn_slowpath_fmt+0x41/0x43

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376483] [] ? netif_tx_lock+0x45/0x7a

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376488] [] dev_watchdog+0xf4/0x154

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376492] [] ? trigger_load_balance+0x58/0x1e2

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376496] [] call_timer_fn+0x56/0xe3

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376500] [] ? netif_tx_unlock+0x52/0x52

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376512] [] run_timer_softirq+0x199/0x1e1

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376514] [] ? apic_write+0x11/0x13

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376517] [] __do_softirq+0xd4/0x1ac

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376519] [] ? tick_program_event+0x1f/0x21

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376523] [] call_softirq+0x1c/0x30

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376526] [] do_softirq+0x33/0x6a

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376527] [] irq_exit+0x3f/0x9a

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376529] [] smp_apic_timer_interrupt+0x77/0x85

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376531] [] apic_timer_interrupt+0x6a/0x70

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376532] [] ? hrtimer_start+0x13/0x15

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376536] [] ? mwait_idle+0x82/0xa7

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376538] [] ? mwait_idle+0x75/0xa7

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376540] [] cpu_idle+0x5d/0x9a

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376543] [] rest_init+0x6d/0x6f

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376546] [] start_kernel+0x345/0x352

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376548] [] ? repair_env_string+0x56/0x56

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376550] [] x86_64_start_reservations+0xae/0xb2

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376552] [] x86_64_start_kernel+0xf0/0xf7

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376553] ---[ end trace 4e71432354cb5f18 ]---

Mar 30 12:55:37 KEN-TEST kernel: [ 2808.376559] e1000e 0000:00:19.0 eth0: Reset adapter

Mar 30 12:55:40 KEN-TEST kernel: [ 2811.841633] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None

 

 

ошибко с включенным debug в файле... там есть дампы пакетов от ядра.... message_file_error_debug.txt

Edited by KotikBSd

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...
На сайте используются файлы cookie и сервисы аналитики для корректной работы форума и улучшения качества обслуживания. Продолжая использовать сайт, вы соглашаетесь с использованием файлов cookie и с Политикой конфиденциальности.