stalker86 Posted October 11, 2017 · Report post Коллеги добрый вечер. Никто не сталкивался с растущими mac_stats.checksum_errs на сетевой карте? Заменили на BGP 4 портовую сетевую карту на карту с 10G SFP (da520 / 82599ES 10-Gigabit SFI/SFP+ Network Connection). Внешне всё почти ок..но растут счётчики на mac_stats.checksum_errs и на ряде узлов speedtest тест рандомно виснет. ix0: flags=8843<UP,BROADCAST,RUNNING,SIMPLEX,MULTICAST> metric 0 mtu 1500 options=e000bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,RXCSUM_IPV6,TXCSUM_IPV6> ether 90:e2:ba:14:4d:04 hwaddr 90:e2:ba:14:4d:04 nd6 options=29<PERFORMNUD,IFDISABLED,AUTO_LINKLOCAL> media: Ethernet autoselect (10Gbase-SR <full-duplex>) status: active netstat -nI ix0 Name Mtu Network Address Ipkts Ierrs Idrop Opkts Oerrs Coll ix0 1500 <Link#5> 90:e2:ba:14:4d:04 3101811480 0 0 1817319886 0 0 На циске со 2 стороны также всё чисто. sh int te 7/1 TenGigabitEthernet7/1 is up, line protocol is up (connected) Hardware is C6k 10000Mb 802.3, address is 0017.5a0f.c854 (bia 0017.5a0f.c854) MTU 1500 bytes, BW 10000000 Kbit, DLY 10 usec, reliability 255/255, txload 27/255, rxload 5/255 Encapsulation ARPA, loopback not set Keepalive set (10 sec) Full-duplex, 10Gb/s, media type is 10Gbase-LR input flow-control is off, output flow-control is off Clock mode is auto ARP type: ARPA, ARP Timeout 04:00:00 Last input never, output 00:00:32, output hang never Last clearing of "show interface" counters never Input queue: 0/4096/0/0 (size/max/drops/flushes); Total output drops: 0 Queueing strategy: fifo Output queue: 0/4096 (size/max) 5 minute input rate 234322000 bits/sec, 63248 packets/sec 5 minute output rate 1071721000 bits/sec, 107422 packets/sec 1833867744 packets input, 720587303442 bytes, 0 no buffer Received 22289 broadcasts (0 multicasts) 0 runts, 0 giants, 0 throttles 0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored 0 watchdog, 0 multicast, 0 pause input 0 input packets with dribble condition detected 3124415364 packets output, 3900123516083 bytes, 0 underruns 0 output errors, 0 collisions, 2 interface resets 0 babbles, 0 late collision, 0 deferred 0 lost carrier, 0 no carrier, 0 PAUSE output 0 output buffer failures, 0 output buffers swapped out vmstat.txt sysctl_stat.txt Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
Ivan_83 Posted October 11, 2017 · Report post Скорее всего физика. Чистить, протирать, менять... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
stalker86 Posted October 11, 2017 · Report post 16 минут назад, Ivan_83 сказал: Скорее всего физика. Чистить, протирать, менять... Физика новая. Новые патчи. Новые сфп модули. Патчи пробовал менять. Что интересно - отправил сейчас с соседнего прова к себе 10к пингов, на 1 из Ip висящих на этом интерфейсе, вернее на 1 из вланов висящем на этом интерфейсе. ни 1 потери или скачка времени ответа. ping -c 1000 xx.yy.126.2 -c 10000 -i 0. .... 10000 packets transmitted, 10000 received, 0% packet loss, time 2078816ms rtt min/avg/max/mdev = 0.655/0.752/1.442/0.057 ms и утилизация интерфейса равна тому что было пока юзал вместо 10г lagg из 4 интерфейсов по меди. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nuclearcat Posted October 11, 2017 · Report post А у фри есть команда посмотреть сигнал? У линуха если что ethtool -m Laser bias current : 9.850 mA Laser output power : 0.4161 mW / -3.81 dBm Receiver signal average optical power : 0.4972 mW / -3.03 dBm Module temperature : 34.69 degrees C / 94.44 degrees F Module voltage : 3.3135 V Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
stalker86 Posted October 11, 2017 · Report post Со стороны циски, куда приземляюсь sh int te 7/1 tra det Transceiver monitoring is disabled for all interfaces. ITU Channel not available (Wavelength not available), Transceiver is internally calibrated. Alarms applicable when thresholds or values are not N/A. mA: milliamperes, dBm: decibels (milliwatts), NA or N/A: not applicable. ++ : high alarm, + : high warning, - : low warning, -- : low alarm. A2D readouts (if they differ), are reported in parentheses. The threshold values are calibrated. High Alarm High Warn Low Warn Low Alarm Temperature Threshold Threshold Threshold Threshold Port (Celsius) (Celsius) (Celsius) (Celsius) (Celsius) ---------- ------------------ ---------- --------- --------- --------- Te7/1 36.8 74.0 70.0 0.0 -4.0 High Alarm High Warn Low Warn Low Alarm Voltage Threshold Threshold Threshold Threshold Port (Volts) (Volts) (Volts) (Volts) (Volts) ---------- --------------- ---------- --------- --------- --------- Te7/1 N/A N/A N/A N/A N/A High Alarm High Warn Low Warn Low Alarm Current Threshold Threshold Threshold Threshold Port (milliamperes) (mA) (mA) (mA) (mA) ---------- ----------------- ---------- --------- --------- --------- Te7/1 160.5 -- N/A N/A N/A N/A Optical High Alarm High Warn Low Warn Low Alarm Transmit Power Threshold Threshold Threshold Threshold Port (dBm) (dBm) (dBm) (dBm) (dBm) ---------- ----------------- ---------- --------- --------- --------- Te7/1 -1.1 4.4 0.4 -8.2 -12.2 Optical High Alarm High Warn Low Warn Low Alarm Receive Power Threshold Threshold Threshold Threshold Port (dBm) (dBm) (dBm) (dBm) (dBm) ---------- ----------------- ---------- --------- --------- --------- Te7/1 -3.4 4.4 0.4 -14.4 -18.4 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nuclearcat Posted October 12, 2017 · Report post У вас на прием ошибки, потому надо смотреть на FreeBSD Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
stalker86 Posted October 12, 2017 · Report post 6 часов назад, nuclearcat сказал: У вас на прием ошибки, потому надо смотреть на FreeBSD Уху, но не нашёл как в bsd посмотреть ddm... Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nuclearcat Posted October 12, 2017 · Report post Загрузитесь с livecd и гляньте в линухе, если уж выбрали такую корявую ОС, где девелоперы не удосужились за 7 лет существования чипсета сделать поддержку DDM. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
stalker86 Posted October 12, 2017 · Report post ммм...Вот что откопал. Подсказали командочку. ifconfig -vvv ix0 .... RX: 0.58 mW (-2.36 dBm) TX: 0.62 mW (-2.01 dBm) Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
stalker86 Posted October 12, 2017 · Report post вроде как за бюджет не выхожу. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nuclearcat Posted October 13, 2017 · Report post Да, сигнал в норме. А какое соотношение в процентном плане, ошибок и общего количества принятых пакетов? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
stalker86 Posted October 13, 2017 · Report post Ну вот чуть выше прикладывал выхлоп sysctl_stat.txt Вот вырезка. dev.ix.0.mac_stats.checksum_errs: 8034395 dev.ix.0.mac_stats.total_pkts_rcvd: 3114028852 dev.ix.0.mac_stats.good_pkts_rcvd: 3114024382 dev.ix.0.mac_stats.total_pkts_rcvd: 3114028852 dev.ix.0.mac_stats.good_octets_rcvd: 3886926628831 dev.ix.0.mac_stats.total_octets_rcvd: 3886927292878 Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nuclearcat Posted October 13, 2017 · Report post Да, на порядок выше даже чем у меня на одном из линков с сигналом на пределе. Правда по прежнему это 0.2%, и speedtest виснуть не должен. Проверьте флуд пингом, в т.ч. 1472 байт (т.е. полный 1500 фрейм если с оверхедом), есть ли потери. На линухе это ping -c 10000 -i 0.0001 ip Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
stalker86 Posted October 13, 2017 · Report post гммм... Сейчас попробую ещё 1 влан поднять на этом интерфейсе и на сервере мониторинга. Сейчас данный интерфейс смотрит только в апстримы.. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
stalker86 Posted October 13, 2017 · Report post Итого...сделал ещё 1 vlan между сервером мониторинга, повесил его на ix0 так же. Запустил ping -c 10000 -i 0.0001 192.168.8.2 получил 25%потерь. заглянул в dmesg. Вспомнил про net.inet.icmp.icmplim. Увеличил. Запустил ещё раз. --- 192.168.8.2 ping statistics --- 10000 packets transmitted, 10000 received, 0% packet loss, time 1027ms rtt min/avg/max/mdev = 0.034/0.070/0.282/0.021 ms, ipg/ewma 0.102/0.072 ms далее прогнал ping -c 10000 -i 0.0001 192.168.8.2 -s 1472 Также чисто ping -c 10000 -i 0.0001 192.168.8.2 -s 1472 .... --- 192.168.8.2 ping statistics --- 10000 packets transmitted, 10000 received, 0% packet loss, time 2119ms rtt min/avg/max/mdev = 0.071/0.181/0.567/0.057 ms, ipg/ewma 0.212/0.183 ms Так же на всякий прогнал ping -c 10000 -i 0.0001 192.168.8.2 -s 1472 -M do Тоже чисто Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
stalker86 Posted October 13, 2017 · Report post Я уже подумываю не попробовать ли мне взять модуль с сайта интела вместо дистрибутивного.. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
cpulink Posted October 13, 2017 · Report post 3 часа назад, stalker86 сказал: Я уже подумываю не попробовать ли мне взять модуль с сайта интела вместо дистрибутивного.. Попробуйте отключить оффлоады на сетевой карте. Вдруг поможет. Это точно ошибки физики? Это не CRC это checksum, вроде. Может фрагменты пакетов? Видим подобную картину именно на спидтесте, но если использовать приложение - работает. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
stalker86 Posted October 13, 2017 · Report post TSO/LRO отключены. В самом начале вопроса привёл конфиг options=e000bb<RXCSUM,TXCSUM,VLAN_MTU,VLAN_HWTAGGING,JUMBO_MTU,VLAN_HWCSUM,RXCSUM_IPV6,TXCSUM_IPV6> Кстати висло всего несколько узлов спидтеста..и сейчас этих узлов вообще на карте нет..так что мб с этими узлами косяки были и + совпало Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
GrandPr1de Posted October 13, 2017 · Report post Играться с RXCSUM,TXCSUM? Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
nuclearcat Posted October 13, 2017 · Report post Ошибки могут быть из-за косяков источников траффика- у меня например на серверах все ок, но в нескольких отдаленных точках есть радиолинки и оптика "на пределе", вот оттуда и "налетает". Т.е. проблема может быть совсем не у вас. Вы раньше смотрели количество ошибок? Т.е. стало ли их больше с установкой десятки? Чексуммы на интелях должны работать ок, а вот всякие tso/gso/gro (не знаю как их на фре зовут) - при проблемах лучше выпиливать. Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...
stalker86 Posted October 14, 2017 · Report post Когда там был lagg счётчик был по 0. TSO/LRO отключены. Линк смотрит в 65 циску и далее в сторону апстримов. Ни радио ни чего-то ещё там нет Вставить ник Quote Ответить с цитированием Share this post Link to post Share on other sites More sharing options...