Jump to content

Recommended Posts

Posted

Есть два одинаковых BRAS Cisco ASR1001-X.

У них одинаковое ПО: Cisco IOS Software [Fuji], ASR1000 Software (X86_64_LINUX_IOSD-UNIVERSALK9-M), Version 16.9.8, RELEASE SOFTWARE (fc4)

У них полностью идентичная конфигурация.

У них одинаковая схема подключения, оба подключены к одному и тому же оборудованию (Extreme X670), только в разные порты. Но порты также настроены одинаково.

 

Обычно протокол PPPoE сам балансируется, кто первый обработал запрос, тот и терминирует сессию клиента, а обычно это делает менее нагруженный BRAS.

Проблема в том, что через какое-то время начинается перекос и подавляющее большинство запросов обслуживает первый BRAS. А это не очень хорошо, в том числе и потому, что емкости портов начинает не хватать.

Вот как выглядит статистика:

### BRAS1
# sh radius statistics 
                                  Auth.      Acct.       Both
         Maximum inQ length:         NA         NA         62
       Maximum waitQ length:         NA         NA       2091
       Maximum doneQ length:         NA         NA         14
       Total responses seen:     325431    7980377    8305808
     Packets with responses:     325431    7980377    8305808
  Packets without responses:       6058        605       6663
  Access Rejects           :     307355
 Average response delay(ms):         91        224        219
 Maximum response delay(ms):      60050     150229     150229
  Number of Radius timeouts:       6587      60310      66897
       Duplicate ID detects:          0          0          0
 Buffer Allocation Failures:          0          0          0
Maximum Buffer Size (bytes):        286        599        599
Malformed Responses        :          0          0          0
Bad Authenticators         :          0          0          0
Unknown Responses          :          0          0          0
 Source Port Range: (2 ports only)
 1645 - 1646
 Last used Source Port/Identifier:
 1645/225
 1646/76

  Elapsed time since counters last cleared: 4w1d8h44m
Radius Latency Distribution:
<= 2ms :      34987       7214
3-5ms  :     246954    5760205
5-10ms :      11610    1678630
10-20ms:       7173     252750
20-50ms:       9931     165745
50-100m:       4961      12022
>100ms :       9815     103811

Current inQ length  : 0
Current doneQ length: 0



### BRAS2
#sh radius stat
                                  Auth.      Acct.       Both
         Maximum inQ length:         NA         NA        109
       Maximum waitQ length:         NA         NA       1877
       Maximum doneQ length:         NA         NA          6
       Total responses seen:    3481226    6486941    9968167
     Packets with responses:    3481226    6486941    9968167
  Packets without responses:      12704       1384      14088
  Access Rejects           :    3450359
 Average response delay(ms):         19        179        123
 Maximum response delay(ms):      90148     180261     180261
  Number of Radius timeouts:      14376      45237      59613
       Duplicate ID detects:          0          0          0
 Buffer Allocation Failures:          0          0          0
Maximum Buffer Size (bytes):        284        599        599
Malformed Responses        :          0          0          0
Bad Authenticators         :          0          0          0
Unknown Responses          :          0          0          0
 Source Port Range: (2 ports only)
 1645 - 1646
 Last used Source Port/Identifier:
 1645/42
 1646/186

  Elapsed time since counters last cleared: 1w6d7h43m
Radius Latency Distribution:
<= 2ms :     435493      24363
3-5ms  :    2877126    4733038
5-10ms :     113101    1295759
10-20ms:      16714     189506
20-50ms:      17984     157187
50-100m:       4888      13393
>100ms :      15920      73695

Current inQ length  : 0
Current doneQ length: 0

Разница на порядок.

 

Если BRAS перегрузить, то какое-то время (одна-две недели) они работают одинаково, равномерно распределяя сессии.

Но потом начинается постепенный перекос, на BRAS2 сессий становится меньше, на BRAS1 сессий становится больше.

Пока что раз в три недели перегружаю BRAS под утро, когда число сессий минимально, но это так себе решение.

 

Ранее я уже тему заводил.

call admission настраивал, эффекта не заметил.

call admission new-model
call admission limit 5000
call admission cpu-limit 80
call admission pppoe 20 1

Второй совет (с разбивкой на две bba-группы и подбор pado delay) пока не делал, как-то это тоже костыльно.

Хотелось бы в принципе понять, почему на двух совершенно одинаковых устройствах, подключенных и настроенных одинаково, получается разное поведение, причем не сразу, а спустя какое-то время.

Posted
1 час назад, alibek сказал:

Нет, ошибок на портах нет.

Софт такой — в Наге посоветовали.

Вроде бы это последняя версия с RTU.

Хм не знаю тут писали что rtu это навсегда для этого семейства железа 

Posted
3 часа назад, alibek сказал:

Нет, ошибок на портах нет.

Софт такой — в Наге посоветовали.

Вроде бы это последняя версия с RTU.

Наг видимо до сих пор не заимел спецов по cisco. Тут всегда rtu на любом софте, ставьте последний рекомендованный. Release notes не смотрели возможно баг

Posted
4 часа назад, fractal сказал:

возможно баг

Такой баг что две одинаковые железки с одинаковыми софтом, но стреляет только на первой? 

 

8 часов назад, alibek сказал:

Нет, ошибок на портах нет.

Софт такой — в Наге посоветовали.

Вроде бы это последняя версия с RTU.

А если порты поменять местами, переткнуть патчи?

 

Там же нет никаких агрегаций?

Posted
6 часов назад, sirmax сказал:

Такой баг что две одинаковые железки с одинаковыми софтом, но стреляет только на первой? 

Вполне. Может конечно с памятью ещё что. Ну и дебаги бы глянуть 

Posted
19 часов назад, sirmax сказал:

А если порты поменять местами, переткнуть патчи?

Кстати, да, попробую.

Агрегаций нет, один 10G на интернет, другой 10G на абонентские vlan.

Posted
1 час назад, alibek сказал:

Агрегаций нет, один 10G на интернет, другой 10G на абонентские vlan.

А почему не "на палочке"? Так больше получится пропускной выжать же.

Posted
2 часа назад, vurd сказал:

А почему не "на палочке"? Так больше получится пропускной выжать же.

Больше 10 фулл дуплекса из нее не выжать, лицензия максимум на 20 гиг (10+10)

Но я сторонник port channel , с целью отказоустойчивости 

Posted
12 часов назад, sirmax сказал:

Больше 10 фулл дуплекса из нее не выжать, лицензия максимум на 20 гиг (10+10)

Встряну в вашу беседу.

Сделав LACP из 2-х портов и подняв в нем 2 VLAN (один в абонентов, второй в мир), можно получить 14-18 Гбит в абонентов, и 2-6 в мир. Та самая схема router-on-stick. Или PPoE не заведется на агрегате? 

Posted
14 часов назад, alibek сказал:

А палочка это что?

Router on a stick или чупачуас.

Это когда роутер висит на одном физическом интерфейсе в сети, а всё остальное доставлено в него виланами.

Posted
52 минуты назад, sol сказал:

Router on a stick или чупачуас.

Это когда роутер висит на одном физическом интерфейсе в сети, а всё остальное доставлено в него виланами.

А разве пропускная способность 2х интерфейсов (один к абонентам, другой - в мир) не выше пропускной способности одного? В чем смысл?

Posted
1 час назад, Andrei сказал:

А разве пропускная способность 2х интерфейсов (один к абонентам, другой - в мир) не выше пропускной способности одного? В чем смысл?

Ну пропускная способность может и выше, но она не всегда нужна такая большая.

Например, 99% SOHO роутеров построены по такой схеме. Это, несколько условно, 6 портовый коммутатор, из которых 1 порт завёрнут в один vlan и назначен WAN портом, а другие 4 порта завёрнуты в другой vlan и назначены LAN портами.

 

Практический смысл в следующем.

Вот у нас, например, есть волокно на М9. Одно. И мы с М9 берём интернет. А нескольким операторам даём последние мили со стыком на М9. 

И с М9 приходит на узел пачка виланов. Из которых 1-2-3 надо отправить на бордер (условные 1-2 аплинка и какой-то IX), а остальные надо прогнать транзитом дальше в сеть. И если мы воткнём этот линк напрямую в бордер, то мы вот эту пачку виланов, в которых даже не наш трафик, должны будет прогнать дальше в сеть через bridge domain. А если мы воткнём этот линк в коммутатор ядра и отделим виланы "для бордера" и виланы "для сети", то надо посмотреть, куда же втыкается второй интерфейс бордера, в котором уже наш трафик. А воткнётся он, скорее всего, в тот-же коммутатор ядра, но уже с другим набором виланов. Вот и получится у нас роутер на палочке. Дальше прямая целесообразность собрать эти два интерфейса бордера в как-то LACP или типа того. И просто разрулить всё виланами.

Posted
1 час назад, Andrei сказал:

А разве пропускная способность 2х интерфейсов (один к абонентам, другой - в мир) не выше пропускной способности одного? В чем смысл?

Смысл в том, что имея суммарный трафик, с превалирующей составляющей, 12 in + 3 out = 15. У вас есть только один вариант его протранзитировать имея 2x10g порта - собрать их в агрегат. В классической схеме включения "один вниз, один вверх" вы просто упретесь в 10g, а имея "палочку", у вас будет синхронных 15g fd в 20g.

У ТС проблема в том, что уезжает балансировка раз и, что на одном из брасов из-за этого заканчивается пропускная способность. Вот я и спросил, почему бы её не добавить.

Posted
3 часа назад, sol сказал:

Например, 99% SOHO роутеров построены по такой схеме.

Мы же не про сохо-роутеры.

3 часа назад, sol сказал:

Вот у нас, например, есть волокно на М9. Одно.

Если одно, то я вами соглашусь. А если внутри своей стойки, на своем собственном узле? То все ваши дальнейшие рассуждения мимо кассы получаются

 

3 часа назад, vurd сказал:

Смысл в том, что имея суммарный трафик, с превалирующей составляющей, 12 in + 3 out = 15.

Хм... Если от клиентов пришло 12 гиг, а наружу ушло только 3, то где оставшееся?
Если все в одном порту (и in, и out) то будет 12 in и 12 out. Понятно, что клиентский интернет-трафик в основном входящий к клиенту в соотношении примерно 1 к 7 с исходящим от клиента. Но когда все в одном порту, то не вытанцовывается картинка.

3 часа назад, vurd сказал:

имея 2x10g порта - собрать их в агрегат. В классической схеме включения "один вниз, один вверх" вы просто упретесь в 10g, а имея "палочку", у вас будет синхронных 15g fd в 20g.

Получается "две палочки" (т.к. физически порта два)?

Posted
25 минут назад, Andrei сказал:

Если все в одном порту (и in, и out) то будет 12 in и 12 out. Понятно, что клиентский интернет-трафик в основном входящий к клиенту в соотношении примерно 1 к 7 с исходящим от клиента. Но когда все в одном порту, то не вытанцовывается картинка.

Вам нужно воспользоваться листочком и ручкой.

 

Суммарный трафик проходящий сквозь роутер составляет 15 гигабит из которых 12 идут по направлению "сверху вниз" и 3 "снизу вверх".

Вариант включения 1:

2 порта по 10г в агрегате. Итого 20 гбит полнодуплекса, 20 туда, 20 обратно. Их которых будет использовано 15 туда и 15 обратно. Итого 15г суммарного.

Вариант включения 2:

1 порт 10г "вниз", 1 порт 10г "вверх". Итого 10 гбит полнодуплекса, 10 туда, 10 обратно. Их которых будет использовано: на первом порту - 10г в полку туда, 3г обратно; на втором порту - 3г туда, 10г в полку обратно. Итого 13г суммарного.

Posted
1 час назад, vurd сказал:

Вариант включения 1:

2 порта по 10г в агрегате.

Это-то понятно. В этом все дело. Изначальное условие - порт один.

А если 2 порта в агрегате, то это 2 физических линка - так?

Posted
9 часов назад, sol сказал:

Это когда роутер висит на одном физическом интерфейсе в сети, а всё остальное доставлено в него виланами.

Понял.

Да, частично проблему с пропускной способностью интерфейсов это бы решило, по крайней мере на время.

Правда есть еще проблема с тем, что заканчивается пул адресов (выдаются "белые" адреса).

 

Попробую поменять местами порты BRAS-ов. Если после этого перекос будет на другом BRAS, значит виновником тут будет Extreme X670, к которому они подключены. А если смена портов ничего не поменяет, значит этот глюк связан с ASR.

Тогда остается либо попробовать обновить IOS, либо придумывать костыли.

Posted
10 часов назад, sol сказал:

Router on a stick или чупачуас.

Это когда роутер висит на одном физическом интерфейсе в сети, а всё остальное доставлено в него виланами.

Все таки на одном логическом интерфейсе, как заметили выше, агрегация дает плюсы и очевидно добавляет отказоустойчивость 

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...
На сайте используются файлы cookie и сервисы аналитики для корректной работы форума и улучшения качества обслуживания. Продолжая использовать сайт, вы соглашаетесь с использованием файлов cookie и с Политикой конфиденциальности.