QWE

Активный участник
  • Публикаций

    758
  • Зарегистрирован

  • Посещение

2 Подписчика

Информация о QWE

  • Звание
    Аспирант
  • День рождения
  1. Вынул сетевку из бордера и протестил trex ом (с другого компа) через петлю, тест проходит без к.л. ошибок и отвалов. Однако поведение бордера с сетеухой сейчас такое. Сколько бы пакетов не летело с trex (хоть 1000 в секунду, хоть миллион) все равно через 5-6 секунд на бордере перестают форвардится пакеты (/usr/bin/sar -n DEV 1) на вход интерфейса видно что летят а исход прекращается. что на 3.10 ядре, что на 4.12, что на 4.14 ядре. Поставил на бордер trex (на другой ЖД) сделал петлю, прогнал trex все тесты чистые. Тупик. dmesg на этом сервере пишет ошибку tsc: Fast TSC calibration failed PS. Текст сообщения исправлен.
  2. сервер стоит как бордер. у него 10 соседей внутри AS и один eBGP нейбор. Старый сервер работает с настройками net.ipv4.neigh.default.gc_thresh1 = 128 net.ipv4.neigh.default.gc_thresh2 = 512 net.ipv4.neigh.default.gc_thresh3 = 1024 Можно конечно воткнуть
  3. это все настройки в BIOS нужно делать или ядро linux грузить с параметрами? С какими параметрами грузить ядро?   я конечно протру спиртом и перевоткну все дивайсы в слотах. НО как вяжется с тестами по 200000 тысяч пакетов через каждый интерфейс?
  4. Здесь на форуме говорили что третий канал памяти значительно увеличивает latency или что типа того. Имеет смысл использовать два канала памяти для каждого проца. Можно доустановить еще 2х4ГБ. После ребутов - на память не смотрел, сейчас в сервере 2х4GB (по top в 2.6.32 8049620k) По iBGP+OSPF в личку написал, дабы тему не засорять. bird 1.6.3. да, есть такое ядро # yum list | grep kernel | grep 4.14.0 kernel-ml.x86_64 4.14.0-1.el6.elrepo elrepo-kernel
  5. Меняю сервера на сети. Конфигурация BGP роутеров, которые которые хочу заменить – два древних сервера (xeon E5345). Дополнительно в каждый сервер установлена двухпортовая карточка intel (82576). Дистр leaf (ядро 2.6.35.14-i686) bird 1.3.6 + модуль ipt_netflow. Тюнинг sysctl #spoofprotect net.ipv4.conf.default.rp_filter=0 net.ipv4.conf.all.rp_filter=0 в чнн нагрузка порядка 200000pps Сервера одним интерфейсом смотрят соотв, в провайдеров (eBGP, принимаю fv + default) другим интерфейсом внутрь AS, по OSPF отдают дефолт соседям и между серваками iBGP разумеется. Как бы ничего сложного. Работают серваки очень давно, практически беспроблемно. Логика сети с точки зрения конфигурации BGP/OSPF при переносе на новые сервера сохраняется один в один. Новые серваки - 1U,2хXeon E5620,2х4GB RAM, дополнительно установлены карточки intel X520-DA2(82599ES), прерывания интерфейсов (eth3,eth2) прибиты к разным сокетам. В sysctl перенес две строчки (см. в ыше). Резервный сервер. ОДНА сетевуха (2 SFP+) один интерфес смотрит в аплинк, другой внутрь AS. Интерфейсы карточек включены DAC кабелями через промежуточный коммутатор. Centos c ядром kernel-ml-4.12.0-1.el6.elrepo.x86_64, bird 1.6.3, последний модуль ipt_netflow, дрова ixgbe version 5.1.3 ( последние). Перевел на новый сервер трафик с аплинка - все взлетело с первой попытки, работает почти месяц. Основной сервер. ДВЕ 10г сетевухи (4 ре SFP+) (в сервере рейзер на две карты). Centos kernel-ml-4.13.7-1.el6.elrepo.x86_64, bird 1.6.3,последняя версия модуля ядра ixgbe и ipt_NETFLOW. Первая 10Г карточка подключена одним интерфейсом DAC кабелем к коммутатору, вторым интерфейсом через SFP модуль в железку аплинка. Вторая 10Г карточка пока никак физически не включена – просто установлена в сервер и ждет своего часа. И далее самое интересное. Начинаю переводить на основной сервер трафик с резервного. Перевел частично входящий с аплинка – 5 минут полет нормальный. Перевожу исход в аплинк, исход отруливается и через 5 минут теряю сервак – сервак не пускает даже через консоль ipmi. НО!!! linux в нем работал, т.к. настроен ipmi watchdog и сервер не перегрузился автоматически. После ребута по питалову через ipmi, в логах ничего не хорошего не обнаруживаю ВООБЩЕ. Это понятно – ребут по питалову. Меняю на сервере ядро – возвращаю, которое шло при установке kernel-2.6.32-696.13.2.el6.x86_64, ixgbe (который шел с ядром ver 4.2.1-k), модуль ipt_netflow последний, bird 1.6.3. Снова перевожу трафик и снова после отруливания исхода в аплинк проходит несколько минут (минуты три-пять) и сервак снова отваливается. Загрузка перед отвалом 85000 pps (нагрузка никакая). Однако сервак успевает выплюнуть на ipmi консоль сообщение - см картинку. eth3 - Интерфейс который смотрит внутрь AS. Через ipmi консоль сервер пустил, bird работал. Перегрузил сервер с командной строки. При проверке на перегрев "сбойнувшей" сетевухи на этом сервере сделал петлю между 10Г интерфейсами DAC кабелем и сбриджевал интерфейсы в linux – погонял трафик – 200000 pps через оба интерфейса, при этом карточка не отваливается!!! Прерываний в системе было не много, два ядра процессоров разных сокетово в 100%загрузились, видимо так работает модуль бриджа в linux. Вот такой случился случай… Какие будут мысли? Куда глянуть? В sysctl может что то не хватает? Ядро с какими параметрами лучше грузить? Две карточки в одном рейзере друг над другом – нормально? Какие дебаги собрать для следующей попытки перевода трафика? Какие команды выполнить с консоли если карточка снова отвалится? PS Пока думаю поставить kernel-lt-3.10.108-1.el6.elrepo.x86_64.rpm или поменять дистрибутив на debian. Попробую вынуть из сервера вторую не используемую 10Г карточку.
  6. Купил БУ карточку Intel X520-DA2 (2 SFP+ интерфейса) для бордера. Запустил сервак - после достижения 85000 пакетов в сек - карточка отваливается, с ошибкой на консоли. Вопрос как протестить карточку с максимальной загрузкой если есть только единственный бордер и свич с 4мя 10Г интерфейсами? Может быть через какую то петлю и смотреть на загрузку порта коммутатора и CPU сервера? Какой софт такое умеет? Или нужно еще пару серваков не меньшей мощности и два 10Г интерфейса? В интернете нашел, что эти карточки китайцы лепят и качество у таких китайских карточек (подделок) может быть никакое. PS лучше день потерять потом за 5 минут долететь
  7. https://www.cisco.com/c/en/us/products/collateral/switches/nexus-3000-series-switches/data_sheet_c78-651097.html пишут 4096 VLAN FDB - ограничения числа L3 маршрутов?
  8. А какой пакетный буфер у Nеxus ? Для такого количества 10Г интерфейсов его хватает?
  9. У меня 49Е будет в ядре - бордер в нее будет включен 10Г линком, downlink-и агрегированные 1ГБ каналы, между 49Е (между узлами) пока 1Гбит/с но если будут потери, то включу 10Г линк. В приведенном Вами случае 49Е стоит как устройство агрегации? ядро - отдельные железки? Каким образом раскрашиваете трафик на 4948 который летит от абонентов или с узлов?