Перейти к содержимому
Калькуляторы

RB4011iGS + CAPsMAN, 25 точек. Отваливаются точки доступа. (Частично РЕШЕНО)

Всем доброго времени суток!

Друзья, очень нужна помощь, подсказка, совет и т. д.

 

Есть роутер RB4011iGS+RM, настроенный CAPsMAN + 25 точек cAP ac (RbcAPGi-5acD2nD) и примерно 250 ед. техники от мобильных телефонов до принтеров. время от времени наблюдается отвал некоторых точек доступа и последующее их переподключение к КАПсМАНу. В следствии чего клиенты переключаются на другие точки, которые стоят дальше, скорость падает или, что еще хуже, соединение рвётся совсем. Люди работают с облачной БД, каждый обрыв связи — это боль)) Доходит до маразма, люди ставят на раздачу мобильный телефон и работают через него, так стабильнее.

Нумерация интерфейсов в CAP Interface к вечеру доход до 800, причем некоторые интерфейсы как имели номера 1,2,3,4,5… так и остаются с такими номерами, а некоторые имеют номер 770, 799, 800 …

Я уже просто не знаю куда копать, в логи вываливаются следующие ошибки:

---

очень часто

dhcp-office offering lease 192.168.5.60 for CA:16:16:B2:CF:69 without success

---

достаточно часто

removing stale connection [08:55:31:5F:AC:FA/4/e293,Run,[08:55:31:5F:AC:FA]] because of ident conflict with [08:55:31:5F:AC:FA/4/86e3,Join,[08:55:31:5F:AC:FA]]

---

редко

Detected conflict by ARP response for 192.168.5.44 from B0:6F:E0:04:AF:5C

 

Что было сделано:

* Думал не хватает одно диапазона адресов, добавил еще два пула с маской подсети 22 — не помогло;

* Обновил везде прошивку, сейчас 6.48.4 на всех устройствах — не помогло;

* Прочитал, что от ошибки removing stale connection … спасают установленные вручную статические IP адреса, установил везде статику - не помогло;

* Так же прочитал, что от ошибки removing stale connection спасает правило firewall, выглядит следующим образом:

;;; CAPs Rule

chain=input action=accept src-address-type=local dst-address-type=local log=yes log-prefix="cAPs-Rule"

и еще одно правило, которое выглядит вот так:

;;; CAPsMAN discovery

chain=input action=accept protocol=udp src-address=192.168.0.1 dst-address=192.168.0.1 dst-port=5246,5247 log=no log-prefix=""

в первом правиле хотя-бы трафик ходит, во втором вообще 0., короче это вопрос тоже не решило;

* Разделил подсети, всем устройствам со статикой (точки, коммутаторы, принтеры ...) оставил подсеть 0.1, все устройства с динамикой от 2.1 до 3.254, чтобы вообще даже и мыслей не было о конфликтах IP адресов;

 

Все усложняется тем, что я там временно подменяю, пока нет админа и не нахожусь там постоянно, чтобы иметь возможность отслеживать каждый глюк.

Люди добрые, помогите, кто чем может))) Это проблема с настройкой или проблема с каким-то оборудованием, между прочим в RB4011iGS+RM умер один порт, если это может что-то значить.

Заранее благодарю, всех, кто дочитал до конца. Если нужно предоставить какие-то данные из настроек, говорите, все сделаю ради решения проблемы.))))

Изменено пользователем VladV

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Счётчики ошибок на интерфейсах В СТУДИЮ!

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В Winbox, в закладках в свойствах интерфейсов.

 

 

Касательно вашей системы в целом - 250 клиентов это много для CAPSMAN в принципе. Посмотрите также загрузку ЦПУ роутера (Tools-Profile), возможно одно ядро уже в полке. В этом случае нужен второй роутер, один - выделенный CAPSMAN и DHCP, второй делает все остальное.

 

Ошибки, которые вы постите, свидетельствуют либо о значтельном перекрытии зон вещания точек, либо у вас люди ходят быстрее, чем система успевает обрабатывать их переход (типично - склад c ездоками на погрузчиках). Настоящего роуминга в CAPSMAN нет.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Привожу фрагмент  статьи (моей)  описания  типичного для аматоров ошибочного решения построения вайфай  сети класса SMB на домашних ( втч для малого офиса) вайфай роутеров,к которым относится и  вайфай Микротик ( любая модель).  Оригинал можно посмотреть  здесь.

          Типовая схема организации связи в немаленькой вайфай корпоративной сети, состоящий из множества устройств вайфай доступа ( вайфай роутеры, вайфай точки доступа)  имеет  такой  вид.

  

AP_Bridge_LAN.png

  При таком соединении Wi-Fi устройства должны иметь одинаковый SSID и работать в режиме Access Point в бриджинге, образуя локальную сеть L2 в одной IP подсети L3. Если   Wi-Fi  роутеры не поддерживает режим Access Point (есть вайфай роутеры , которые этого не умеют), то их соединение в данной топологии сети невозможно.

    При расширении покрытия сети путем увеличением количества используемых устройств доступа в сети существует принципиальная проблема  эффективного переключения  перемещающихся клиентов  между устройствами доступа.

          Универсальным и эффективным решением задачи задачи расширения покрытия и в целом масштабирования сети является поддержка  бесшовного  роуминга (handover) по стандарту OKC/802.11r без разрыва соединения клиента с сетью  на L3 и  выше до уровня приложений c  балансировкой нагрузки (Load Balancing) 802.11k/v.  Но  обычно SOHO  вайфай ротутеры не поддерживают бесшовный роуминг и Load Balancing.

          В представленной выше топологии сети  при появлении клиента в зоне перекрытия зон обслуживания устройств доступа он должен переключиться к новому устройству  доступа с более сильным по мощности  сигналом   с учетом загруженности устройства доступа  клиентами или трафиком ( Load Balancing).  В связи с отсутствием у вайфай роутеров поддержки бесшовного роуминга и распределения  нагрузки между устройствами доступа Load Balancing ( а также автоматического переключения  между 2.4 и 5 Ггц Band Steering)   клиент  при своем перемещении   держит соединение со своим возможно перегруженным клиентами  вайфай роутером вплоть до границы его  зоны покрытия,  имея при этом слабый сигнал, низкую рабочую модуляцию  и низкую скорость доступа,  и  самостоятельно не  переключается  на  другой рядом стоящий   вайфай роутер  с более высоким по мощности сигналом  и при этом не перегруженный клиентами и трафиком.

      У некоторых SOHO вайфай  роутеров  для частичного решения  проблемы с роумингом  применяется  костыль (workaround)  - так называемый псевдо-роуминг ( в частности у вайфай  решения на Микротик) , заключающийся  в дисконекте клиента от вайфай роутера при снижении сигнала ниже заданного порога и поиске ( с перебором частотных каналов) и подключении к   новому вайфай роутеру c более сильным сигналом.   Эта схема работает при небольшом количестве (два-три) вайфай роутеров в сети  с низкой плотностью их размещения и слабого перекрытии их зон обслуживания. При плотном размещении  большого количества устройств доступа в сети работа клиентов на часто перегруженных клиентами и трафиком устройствах доступа, постоянныне дисконекты клиентов, хаотичное  метание клиентов ( даже если они стоят на месте) между устройствами  доступа и  перерывы в связи до 1-5 секунд приводят к хаосу в сети.

      Кроме того, при подключении клиента к новому устройству доступа   клиент  получает  по новому  IP адрес с потерей сессий работы приложений,  вынужден проходить процедуру повторной аутентификации, редиректиться  на стартовую страницу  Splash Page ( в сети HotSpot )  и иметь другие проблемы повторного  подключения к беспроводной сети.

       Для частичного решения проблемы с повторной аутентификацией клиента может использоваться  контроллер с еще одним костылем псевдо-роуминга,  который запоминает   MAC адреса клиентов в сети и при повторном подключении клиента в сеть при смене вайфай роутера блокирует его повторную аутентификацию. Такая схема псевдо-роуминга реализуется например,  в сети на домашних вайфай роутерах Mikrotik  c контролером CAPsMAN .

    Однако данное решение  не работает при защищенном доступе 802.1x  - MAC   клиентов зашифрованы. Не работает эта схема  и  при применении в сети   соединения по MESH и Repeater  при котором   реальные MAC    клиентов не видны   контроллеру доступа.

     В связи с наличием данных проблем сеть на вайфай роутерах без поддержки полноценного бесшовного роуминга   (handover) и Load Balancing  имеет ограниченные возможности по своему расширению, то есть практически не масштабируется.

    Широко распространенной ошибкой также является  решение несколько  другой задачи- увеличения общего количества обслуживаемых клиентов  сети  путем установки большого количества  бюджетных домашних вайфай роутеров, каждый из которых может обслуживать только небольшое количество (до 10-20)  клиентов,  с их плотным размещением и многократным перекрытием зон обслуживания  роутеров. Такая задача, например предоставления вайфай доступа в учебном заведении большому количеству пользователей, например 100-200+, путем установки 10-20 шт. домашних ( и для малого офиса) SOHO  вайфай роутеров  типа Mikrоtik, TP-Link без поддержки полноценного бесшовного роуминга, Load Balancing и Band Steering на практике не реализуема.

     Тем  самым, решение задача класса   SMB/SME - покрытия сервисом доступа  территориально распределенных площадей с большим количеством пользователей,  например, Indoor сеть предприятия, школы, гостиницы  или , например, Outdoor HotSpot  сеть на улице, в парке и т.п путем  применения  в целях экономии  нескольких десятков (для обслуживания большого количества пользователей) малобюджетных SOHO вайфай роутеров является системной ошибкой.  В данном случае неоправданная экономия путем  применения  дешевых вайфай роутеров класса SOHO  для построения  сети класса SMB/SME приводит к тому, что сеть просто не будет должным образом  работать.  Тем самым,  будет наблюдаться часто встречающаяся   картина-  вайфай сеть есть, сигнал вайфай в сети есть, но нет или неудовлетворительный по скорости и качеству  доступ в Интернет, т.е.  задача  предоставления пользователям доступа в Интернет не решена.  Данная задача построения сети предприятия (Enteprise) требует применения Access Point класса Enterprise  и принципиально  не может эффективно  решаться  на вайфай роутерах класса SOHO вследствие отсутствия на последних соответствующего функционала и их низкой (часто недостаточной) нагрузочной способности по максимальному количеству обслуживаемых клиентов.

PS

Совет ТС. Ваша сеть нормально работать не будет. У вас системная проблема. Никакой сисадмин никакими  крутилками, вертелками и плюшками  Микротика ее не реанимирует.  У вас немаленькая сеть немалого предприятия с высокими требованиями к надежности, стабильности  и скорости доступа и вам следует применять  соответствующие  вашей задаче устройства доступа  класса предприятия.

Меняйте всю сеть. RB4011iGS+RM  в для NAT и    DHCP сервера можно оставить. Все остальное меняйте на несколько точек доступа класса Enterprise c нужной функциональностью.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

8 часов назад, jffulcrum сказал:

В Winbox, в закладках в свойствах интерфейсов.

Я так понял, что это вкладка статус и там TX/RX Errors, верно?

 

8 часов назад, jffulcrum сказал:

Касательно вашей системы в целом - 250 клиентов это много для CAPSMAN в принципе. Посмотрите также загрузку ЦПУ роутера (Tools-Profile), возможно одно ядро уже в полке. В этом случае нужен второй роутер, один - выделенный CAPSMAN и DHCP, второй делает все остальное.

Нагрузка на ЦПУ пока маленькая, он сейчас утро, еще не все собрались, посмотрю в пике дня.

Насчет того, что 250 клиентов - много для CAPsMAN, если дело в клиентах, то точки должны отваливаться только при нагрузке, но я заметил, что они и без нагрузки отпадают, например в выходной день.

 

Цитата

 

Ошибки, которые вы постите, свидетельствуют либо о значтельном перекрытии зон вещания точек, либо у вас люди ходят быстрее, чем система успевает обрабатывать их переход (типично - склад c ездоками на погрузчиках). Настоящего роуминга в CAPSMAN нет.


 

Здание с толстыми бетонными (возможно кирпичными) стенами, обшитыми с двух сторон профилем и гисокартоном. Точка стоит в кабинете, все работает хорошо, человек выходит с кабинета (буквально за стенкой точка) сигнал падает наверное в половину, пришлось ставить точки и в коридорах. По этой причине, возможно, что зоны перекрытия есть, но если клиент стационарный, на него же это не должно влиять? С другой стороны, может имеет смысл понизить мощность передатчиков? Сейчас мощность на всех точка на 15ти.

 

Спасибо большое за советы!

Так же созрел вопрос, возможно ли как-то ограничить количество подключенных клиентов на одну точку. Вроде такую возможность видел, но не могу найти.

Может отвал точек давать какой-то промежуточный коммутатор, например питания ему не хватает? или вообще он глючный? Или это мало вероятно?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@slv700 , спасибо за совет, как минимум после вашего ответа, отключил Access List, чтобы меньше сбрасывал клиентов при еще существующем сигнале)) Какое оборудование рекомендуете вы?

Но и суть вопроса не поменялась, раньше точки не отключались, а сейчас начали, буквально еще месяц назад все было нормально.  

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

13 часов назад, VladV сказал:

because of ident conflict with

В provisioning установить create-enabled вместо create-dynamic-enabled. После этого у Вас точки добавятся один раз и больше не будут добавляться. Это в разы сократит время переподключения и избавит от конфликтов, когда старый интерфейс ещё не потух, а точка создает новый и получает конфликт. Интерфейсы в капсмане после этого можно переименовать, очень удобно.

Дальше нужно определить точка отключается физически от ethernet или нет.

Смотрите логи точки и Капсмана

Изменено пользователем Корпич

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

21 минуту назад, VladV сказал:

Но и суть вопроса не поменялась, раньше точки не отключались, а сейчас начали, буквально еще месяц назад все было нормально.  

Дело в том что решение на Микротик теоретически можно подкрутить под существующую на данный момент ситуацию в сети ( количество клиентов, клиентские устройств, средняя нагрузка клиентов и трафика на точку доступа и др.) рассчитать зоны покрытия, границы зон сбрасывания клиентов, мощности точек доступа и др., так чтобы сеть как то работала. Но это все временно, ситуация постоянно меняется ( у клиентов меняются девайсы, растет нагрузка, появляются новые задачи и др)  и приходит время, что сеть валится и опять нужно все  подкручивать, и нередко это просто невозможно -  не то что  нет оптимального решения задачи, может быть так,что нет вообще работающего решения.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

24 минуты назад, VladV сказал:

Какое оборудование рекомендуете вы?

Access Point Enterprise c  функционалом:

-  max concurrent ( не путать с  associated) clients  100+

-  бесшовный роуминг   Opportunistic Key Caching (OKC)  - обязательно  и опционально  802.11r . Лучше если роуминг поддерживается  без использования внешнего контроллера.  Хочу обратить внимание, что роуминг нужен не столько для быстрого переключения клиентов, а именно для масштабирования сети.

- балансировка нагрузки 802.11k/v

- Band Steering

 -мониторинг и управление управление сетью (NMS) через облачный Cloud или корпоративный (on –Premises) сервер  (контроллер) .

И лучше если это будет устройство доступа нового стандарта 802.11ax(Wi-Fi 6).

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@slv700 

13 часов назад, VladV сказал:

я там временно подменяю, пока нет админа

 

13 часов назад, VladV сказал:

умер один порт, если это может что-то значить.

Позволяет предположить что в проводной сети существуют проблемы. Так что смотрите логи устройств и ошибки на портах. Иногда достаточно передернуть кабель в разъёме

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

10 минут назад, slv700 сказал:
30 минут назад, VladV сказал:

Какое оборудование рекомендуете вы?

Access Point Enterprise c  функционалом:

-  max concurrent ( не путать с  associated) clients  100+

-  бесшовный роуминг   Opportunistic Key Caching (OKC)  - обязательно  и опционально  802.11r . Лучше если роуминг поодерживается  без использования внешнего контроллера. 

- балансировка нагрузки 802.11k/v

Если я все верно понимаю, то для нормальной работы клиентские устройства тоже должны поддерживать 802.11 r/k/v ?

 

23 минуты назад, Корпич сказал:

В provisioning установить create-enabled вместо create-dynamic-enabled.

Спасибо, попробую

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

8 минут назад, VladV сказал:

нормальной работы клиентские устройства тоже должны поддерживать 802.11 r

Для роуминга 802.11r клиенты должны поддерживать  эту фичу. Все последние Apple  и Самсунги это имеют. 

Так как не все клиенты это могут, то должен быть обязательно роуминг OKC, который поддерживают все клиенты.

Если клиент поддерживает  802.11r, то он работает по  802.11r, если нет, то по OKC.

Балансировку нагрузки  802.11k/v поддерживают большинство клиентских устройств. 

ЗЫ

Любителям Ubiquiti просьба не беспокоиться. UniFi хоть и называет себя Enterprise, но у него

-max concurrent client <30

- бесшовный роуминг   только  802.11r, а это значит что очень много клиентов вообще не будет работать в роуминге 

- контроллер внешний и глючно геморный

-NMS в непонятной стадии разрабоки и невнятным функционалом.

UniFi типа  Enterprise сделан на платформе  Broadcom из-за паталогичексого желания Ubiquiti  быть дешевле конкурирующих продуктов. При этом нормальные и правильные AP Enterprise  обычно делаются на Quallcomm-Atheros или SDR и это стоит недешево.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В 28.09.2021 в 09:43, Корпич сказал:

В provisioning установить create-enabled вместо create-dynamic-enabled.

Спасибо, проблему это не решило, но смотрится приятнее))

Начал отслеживать, какие точки вылетают чаще всего, практически всегда одни и те же, исходя из этого можно предположить, что дело тут явно не в настройках, верно? Либо оборудование, которое питает эти точки, коммутатор POEшный, либо нагрузка на точки? Интересно мнение со стороны.

Так же сегодня увидел интересную штуку, раньше такого не было. В CAPsMAN в разделе Remote CAP в поле Address обычно отображаются MAC адреса точек, сегодня заметил, что одна из точек показывает свой IP адрес, это нормально? И почему раньше такого не было?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

 

1 час назад, VladV сказал:

тут явно не в настройках, верно?

Именно в них и дело.

Если с физической сетью все нормально то эта проблема зовётся "детской болезнью Капсмана"

Нужно зайти на точки и выкинуть все wlan интерфейсы из бриджей, не смотря на то, что они не активные. Это при условии что данные должен маршрутизировать Капсман

Либо в настройках пути данных включить Local Fogwarding, Если данные должна маршрутизировать точка.

1 час назад, VladV сказал:

показывает свой IP адрес, это нормально?

Это абсолютно нормально, как сисадмин точку настроил, так она и работает :). Если на точке в настройках САР задано искать Капсман по IP адресу, то точка регистрируется на нем по IP, если ничего не задано то регистрируется по МАС. Лично мне удобнее работать с IP, поэтому на всех точках прописываю адрес менеджера и в таблице регистрации у меня все точки с IP адресами, лично мне так удобнее, так как у точек своя IP подсеть и номер точки, совершенно случайно, совпадает с адресом типа САР25 IP XXX.XXX.XXX.025

Изменено пользователем Корпич

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@VladV И всё-таки проверьте статистику ошибок на проводных интерфейсах к точкам. Если кабельное соединение точки с маршрутизатором/коммутатором ненадежно, то и WiFi будет работать плохо.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

не прав

PS Пересмотрел приведенную ТС ошибку МАС адрес один и тот же очень похоже на флапающий интерфейс.

Изменено пользователем Корпич

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В 30.09.2021 в 12:43, Корпич сказал:

Нужно зайти на точки и выкинуть все wlan интерфейсы из бриджей, не смотря на то, что они не активные. Это при условии что данные должен маршрутизировать Капсман

Либо в настройках пути данных включить Local Fogwarding, Если данные должна маршрутизировать точка.

Наконец добрался до объекта, чтобы не удалять ничего удаленно. Я правильно понял, все WlanЫ, которые есть тут удалить? Фото прилагаю. А как тогда трафик с lan в wlan будет попадать?

mikrotik-cap-ac-bridge.jpg

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Если не включен Local Fogwarding то данные по шифрованному туннелю передаются на Capsman  и трафик разруливает он.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Насколько я читал в документации, то при большом кол-ве клиентов, рекомендуют все таки включать Local Forwarding, чтобы снять нагрузку с роутера. Или так стабильнее?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Так чем дело закончилось? Удалось выяснить причину отвала точек?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В 20.12.2021 в 23:51, Inst46nd сказал:

Так чем дело закончилось? Удалось выяснить причину отвала точек?

Цитата

достаточно часто

removing stale connection [08:55:31:5F:AC:F2/4/e293,Run,[08:55:31:5F:AC:FА]] because of ident conflict with [08:55:31:5F:AC:FА/4/86e3,Join,[08:55:31:5F:AC:FА]]

Эта проблема решилась заменой POE коммутатора, проблема была в питании. Две остальных проблемы пока не решились, но и жить особо не мешают. Прошу прощения, что сразу не отписался, как-то все руки не доходили.

Изменено пользователем VladV

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Как дополнение к этому вопросу, при 6 ТД под управлением CapsMan одна упорно отваливается, (т.е. при просмотре wirelles интерфейсов на этой точке они переходят в режим fowrarding). В логах постоянно идёт сообщение - 24:18:C6:B5:6B:00@cap6 reassociating. Что бы это могло значить?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.