Jump to content
Калькуляторы

FreeBSD и LSI SAS 1068 Проблема с установкой и уходы в ребут

Всем доброго дня!

 

Имеется старенький сервер с материнской платой Intel S5000PALR и железным RAID контроллером LSI SAS 1068 в виде Midplane board, а также проблемой с установкой на него FreeBSD 9.3 amd64 или 10.0 amd64(симптомы одинаковые).

В процессе установки возникали проблемы в виде перезагрузок сервера начиная с пункта разметки раздела, когда удалось его миновать, сервер перезагрузился в момент проверки и распаковки архивов системы, потом на пункте выбора сетевой карточки.

В конечном итоге, систему все же удалось установить, но после ее загрузки, в среднем минут через 10-15 работы, сервер самопроизвольно уходит в перезагрузку, при этом в логе выдал вот что:

Oct 16 14:18:12 web kernel: sdt_probe_stub: Why did this get called?
Oct 16 14:18:12 web kernel: sdt_probe_stub: Why did this get called?

В другой раз таких записей в логе уже не было...

 

Такое ощущение, что система, возможно, некорректно работает с этим хардовым RAID контроллером, полазив по Инету в поисках информации, частенько видел упоминание о проблемах такого рода.

 

Кстати, года 4 назад я без проблем установил на этот же сервер FreeBSD 7.2 Stable i386

 

Прошу помощи у более опытных коллег, подскажите пожалуйста, у кого какие мысли возникают на сей счет?

Edited by NeXuSs

Share this post


Link to post
Share on other sites

Я бы для начала память проверил. Вынуть, почистить контакты и обратно.

Можно еще тесты памяти прогнать.

Share this post


Link to post
Share on other sites

Ок, спасибо, попробую и напишу о результатах.

Edited by NeXuSs

Share this post


Link to post
Share on other sites

Всего имеется 4 планки по 1Gb, сначала оставил одну - сервер ушел в перезагрузку после ~15 минут работы. Оставил вторую планку 1Gb, сервер поработал какое-то время (меня на работе уже не было), а потом опять перезагрузился. Обнаружил я его утром в наглухо зависшем состоянии (см. фото).

Установил FreeBSD 10.0 i386 - результат тот же, перезагрузка через 10 - 15 минут работы.

post-110366-053013000 1413520962_thumb.jpg

Edited by NeXuSs

Share this post


Link to post
Share on other sites

Странно.

Можно для проверки линух поставить. Он часто более совместим по железу и с него тесты погонять.

Share this post


Link to post
Share on other sites

Вобщем, сейчас с диска CentOS'а тестирую оперативную память, все 4 Гигабайта, оставлю на выходные и посмотрю перезагрузится или нет. Но уже часа 3 работает стабильно, не перезагружался.

Кстати, до того пытался поставить тот же CentOS 6.4 64-bit, прошел настройку сетевушки и ввод рутового пароля, далее установщик ругнулся на что-то, связанное с процессором, и отказался устанавливаться, к сожалению, не успел зафиксировать ошибку. В Понедельник выложу что он написал.

Edited by NeXuSs

Share this post


Link to post
Share on other sites

Судя по скриншоту, там не только память, но и диски.

Пробуйте инстал 10.1 или для детекта железа MfsBSD на осннове 10-ки.

Share this post


Link to post
Share on other sites

LSI 3041 очень капризны к шлейфам (к примеру шлейф работал на набортном контроллере норм, нв 3041 - начал отсыхать винт), может и тут такая же история.

Share this post


Link to post
Share on other sites

Вот результаты 66-ти часового теста памяти

post-110366-070027400 1413779862_thumb.jpg

Share this post


Link to post
Share on other sites

Вот еще несколько скриншотов, относящихся к теме. Выводы dmesg и pciconf.

Кстати, загрузился с mfsBSD 10.0-RELEASE-amd64, чтобы посмотреть железо, так вот, после 15 минут сервер ушел в ребут, хотя грузилось все только в память

It is completely loaded into memory.

Не исключаю опроса устройства при этом конечно, если в этом дело вобще. Даже не знаю что и думать, может отдать север в сервис, пусть проверят?

post-110366-009823900 1413782208_thumb.jpg

post-110366-092191200 1413782212_thumb.jpg

post-110366-025362800 1413782218_thumb.jpg

post-110366-017508900 1413782224_thumb.jpg

post-110366-075899200 1413782229_thumb.jpg

post-110366-093963000 1413782235_thumb.jpg

Edited by NeXuSs

Share this post


Link to post
Share on other sites

А вот как ругнулся CentOS в процессе установки, ругнулся на процессор:

post-110366-001881800 1413800655_thumb.jpg

Share this post


Link to post
Share on other sites

Обновить биос, поиграть с настройками ACPI в биосе и потом в конкретной системе, например отлючить совсем.

Share this post


Link to post
Share on other sites

Температура проца в норме после 15 минут работы?

Share this post


Link to post
Share on other sites

Вобщем, выяснил я в чем причина, почему-то сразу до меня не дошло поочередно проверить сами процессоры на стабильность работы сервера. Один из процессоров вышел из строя и приводил к перезагрузкам, второй живой и с ним система работает стабильно. А железный RAID контроллер оказался вобще не при чем.

Всем спасибо за участие!

Share this post


Link to post
Share on other sites

А железный RAID контроллер оказался вобще не при чем.

 

Я неделю голову ломал на таком-же железе, только контроллер 1064. И не мог понять, почему 8.0 ставится, а при обновлении до 9.x и 10.x исчезают диски вообще. Этот недоделанный raid - полупрограммным оказался. Пришлось выключить его вообще...

Share this post


Link to post
Share on other sites

Когда я отключал этот контроллер в BIOS, то диски переставали видеться любой системой вобще. Ну это и понятно, RAID мидпланом реализован, да еще и SAS контроллер отдельный.

Share this post


Link to post
Share on other sites

Коллеги, приветствую. Случился очень не приятный случай, есть сервер супермикро, на нем установлена w2016, RAID-1 из двух ссд дисков, контроллер LSI 9361. Один из них ушел в offline, не могу сказать когда. попытались его перевести в Online, массив развалился, восстановить не получилось, такое ощущение, что плохой диск затер хороший, кто-то может объяснить такое поведение. 

Share this post


Link to post
Share on other sites

Другой контроллер, другая ОС.

Не говоря о том, что хз что и как вы делали.

Вам к гадалке.

Share this post


Link to post
Share on other sites

В итоге пообщались с вендором, и тот подтвердил, что такое поведение контроллера может быть, и нужно было диск занулить, а потом либо его сделать Hotspare, либо сделать через Foreign, как вот тут, но кот кто же знал-то

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this