AlKov Posted June 21, 2010 · Report post Софтовый роутер на Intel S5000, Xeon 2.66GHz, ОС- Fedora 6, 5шт. сетевых. Конкретно "виновница" (eth5) - двухпортовая гигабитная Intel PCI-X на 82546 чипе. Драйвер е1000 7.1.9-k4-NAPI Предсмертные записи в /var/log/messages Jun 21 12:31:14 router kernel: NETDEV WATCHDOG: eth5: transmit timed out Jun 21 12:31:17 router kernel: BUG: soft lockup detected on CPU#3! Jun 21 12:31:17 router kernel: [<c04051db>] dump_trace+0x69/0x1af Jun 21 12:31:17 router kernel: [<c0405339>] show_trace_log_lvl+0x18/0x2c Jun 21 12:31:17 router kernel: [<c04058ed>] show_trace+0xf/0x11 Jun 21 12:31:17 router kernel: [<c04059ea>] dump_stack+0x15/0x17 Jun 21 12:31:17 router kernel: [<c044d9b5>] softlockup_tick+0xad/0xc4 Jun 21 12:31:17 router kernel: [<c042e596>] update_process_times+0x39/0x5c Jun 21 12:31:17 router kernel: [<c0418914>] smp_apic_timer_interrupt+0x5c/0x64 Jun 21 12:31:17 router kernel: [<c0404ad3>] apic_timer_interrupt+0x1f/0x24 Jun 21 12:31:17 router kernel: DWARF2 unwinder stuck at apic_timer_interrupt+0x1f/0x24 Jun 21 12:31:17 router kernel: Leftover inexact backtrace: Jun 21 12:31:17 router kernel: [<c0613f91>] _spin_unlock_irqrestore+0xa/0xc Jun 21 12:31:17 router kernel: [<f893ac2b>] e1000_update_stats+0x6c3/0x6ca [e1000] Jun 21 12:31:17 router kernel: [<f893d7fa>] e1000_watchdog+0x0/0x5dc [e1000] Jun 21 12:31:17 router kernel: [<f893dc29>] e1000_watchdog+0x42f/0x5dc [e1000] Jun 21 12:31:17 router kernel: [<c042e374>] __mod_timer+0x9e/0xa8 Jun 21 12:31:17 router kernel: [<c05bf7aa>] neigh_timer_handler+0x24e/0x26c Jun 21 12:31:17 router kernel: [<f893d7fa>] e1000_watchdog+0x0/0x5dc [e1000] Jun 21 12:31:17 router kernel: [<c042e4f6>] run_timer_softirq+0x105/0x16c Jun 21 12:31:17 router kernel: [<c04299fe>] __do_softirq+0x5a/0xbb Jun 21 12:31:17 router kernel: [<c0406932>] do_softirq+0x55/0xaf Jun 21 12:31:17 router kernel: [<c0404ad3>] apic_timer_interrupt+0x1f/0x24 Jun 21 12:31:17 router kernel: [<f8941277>] e1000_get_hw_eeprom_semaphore+0xb5/0xde [e1000] Jun 21 12:31:17 router kernel: [<f8941649>] e1000_swfw_sync_acquire+0xe6/0xf7 [e1000] Jun 21 12:31:17 router kernel: [<c05d007b>] rt_intern_hash+0x10a/0x323 Jun 21 12:31:17 router kernel: [<f89412c0>] e1000_swfw_sync_release+0x20/0x42 [e1000] Jun 21 12:31:17 router kernel: [<f8941768>] e1000_write_kmrn_reg+0x5e/0x67 [e1000] Jun 21 12:31:17 router kernel: [<f89435cf>] e1000_get_speed_and_duplex+0xec/0x2d6 [e1000] Jun 21 12:31:17 router kernel: [<c04e8872>] copy_to_user+0x40/0x56 Jun 21 12:31:17 router kernel: [<f8947d2d>] e1000_get_settings+0x96/0xd2 [e1000] Jun 21 12:31:17 router kernel: [<c05bad09>] dev_ethtool+0xd2/0xa59 Jun 21 12:31:17 router kernel: [<c049d2d6>] proc_alloc_inode+0x3e/0x63 Jun 21 12:31:17 router kernel: [<c0457a10>] get_page_from_freelist+0x2ae/0x318 Jun 21 12:31:17 router kernel: [<c0457ae7>] __alloc_pages+0x6d/0x2aa Jun 21 12:31:17 router kernel: [<f89e1c07>] vlan_dev_ioctl+0x7b/0xa7 [8021q] Jun 21 12:31:17 router kernel: [<f89e1b8c>] vlan_dev_ioctl+0x0/0xa7 [8021q] Jun 21 12:31:17 router kernel: [<c05bb67a>] dev_ethtool+0xa43/0xa59 Jun 21 12:31:17 router kernel: [<c0483130>] is_subdir+0x34/0x44 Jun 21 12:31:17 router kernel: [<c0614d95>] do_page_fault+0x0/0x4db Jun 21 12:31:17 router kernel: [<c046b78a>] cache_alloc_refill+0x16c/0x46c Jun 21 12:31:17 router kernel: [<c04e7b9d>] vsnprintf+0x459/0x495 Jun 21 12:31:17 router kernel: [<c05af38e>] sock_ioctl+0x0/0x1bf Jun 21 12:31:17 router last message repeated 2 times Jun 21 12:31:17 router kernel: [<c05b9f47>] dev_ioctl+0x2fd/0x46b Jun 21 12:31:17 router kernel: [<c05f5c52>] inet_sock_destruct+0x175/0x1bf Jun 21 12:31:17 router kernel: [<c0613f00>] _write_lock_bh+0x8/0x10 Jun 21 12:31:17 router kernel: [<c05af529>] sock_ioctl+0x19b/0x1bf Jun 21 12:31:17 router kernel: [<c05af38e>] sock_ioctl+0x0/0x1bf Jun 21 12:31:17 router kernel: [<c047ef37>] do_ioctl+0x1f/0x62 Jun 21 12:31:17 router kernel: [<c047f1c4>] vfs_ioctl+0x24a/0x25c Jun 21 12:31:17 router kernel: [<c047f222>] sys_ioctl+0x4c/0x66 Jun 21 12:31:17 router kernel: [<c0404013>] syscall_call+0x7/0xb Jun 21 12:31:17 router kernel: ======================= И так для всех 4-х ядер (CPU#0-CPU#3). В итоге отвалилась сеть и сервак зашел в полный ступор, ни на что не реагировал, кроме заветного "ресет-а".. На eth5 поднято 6 VLAN, трафик порядка 100-120 Мбит, при 15-17 kpps, в пиках до ~250 Мбит и ~30 kpps. Вопрос - где и каким образом искать причину и чем лечить? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
UncleDen Posted June 23, 2010 · Report post 1. Дрова сетевухи. 2. Настройки порта, кудаэто воткнуто. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
AlKov Posted June 24, 2010 · Report post 1. Дрова сетевухи.2. Настройки порта, кудаэто воткнуто. Сам больше склоняюсь к первому, т.к. еще где-то в марте с этой сетевухой происходили весьма загадочные вещи."воткнуто" это в порт DGS-3100, настройки порта "авто". Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
vitalyb Posted June 24, 2010 · Report post к списку еще стоит добавить: 3. BIOS 4. перегрев адаптера 5. погода на Марсе. Тоже бывают "отвалы" 4х-портовых e1000, причем на одинаковом железе с одинаковыми адаптерами - тут отваливается, а там нет... пока до конца не понятно... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Ivan_83 Posted June 24, 2010 · Report post Не качественное питание может давать импульсные помехи иногда. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...