Перейти к содержимому
Калькуляторы

FreeBSD и LSI SAS 1068 Проблема с установкой и уходы в ребут

Всем доброго дня!

 

Имеется старенький сервер с материнской платой Intel S5000PALR и железным RAID контроллером LSI SAS 1068 в виде Midplane board, а также проблемой с установкой на него FreeBSD 9.3 amd64 или 10.0 amd64(симптомы одинаковые).

В процессе установки возникали проблемы в виде перезагрузок сервера начиная с пункта разметки раздела, когда удалось его миновать, сервер перезагрузился в момент проверки и распаковки архивов системы, потом на пункте выбора сетевой карточки.

В конечном итоге, систему все же удалось установить, но после ее загрузки, в среднем минут через 10-15 работы, сервер самопроизвольно уходит в перезагрузку, при этом в логе выдал вот что:

Oct 16 14:18:12 web kernel: sdt_probe_stub: Why did this get called?
Oct 16 14:18:12 web kernel: sdt_probe_stub: Why did this get called?

В другой раз таких записей в логе уже не было...

 

Такое ощущение, что система, возможно, некорректно работает с этим хардовым RAID контроллером, полазив по Инету в поисках информации, частенько видел упоминание о проблемах такого рода.

 

Кстати, года 4 назад я без проблем установил на этот же сервер FreeBSD 7.2 Stable i386

 

Прошу помощи у более опытных коллег, подскажите пожалуйста, у кого какие мысли возникают на сей счет?

Изменено пользователем NeXuSs

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Я бы для начала память проверил. Вынуть, почистить контакты и обратно.

Можно еще тесты памяти прогнать.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Ок, спасибо, попробую и напишу о результатах.

Изменено пользователем NeXuSs

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Всего имеется 4 планки по 1Gb, сначала оставил одну - сервер ушел в перезагрузку после ~15 минут работы. Оставил вторую планку 1Gb, сервер поработал какое-то время (меня на работе уже не было), а потом опять перезагрузился. Обнаружил я его утром в наглухо зависшем состоянии (см. фото).

Установил FreeBSD 10.0 i386 - результат тот же, перезагрузка через 10 - 15 минут работы.

post-110366-053013000 1413520962_thumb.jpg

Изменено пользователем NeXuSs

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Странно.

Можно для проверки линух поставить. Он часто более совместим по железу и с него тесты погонять.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вобщем, сейчас с диска CentOS'а тестирую оперативную память, все 4 Гигабайта, оставлю на выходные и посмотрю перезагрузится или нет. Но уже часа 3 работает стабильно, не перезагружался.

Кстати, до того пытался поставить тот же CentOS 6.4 64-bit, прошел настройку сетевушки и ввод рутового пароля, далее установщик ругнулся на что-то, связанное с процессором, и отказался устанавливаться, к сожалению, не успел зафиксировать ошибку. В Понедельник выложу что он написал.

Изменено пользователем NeXuSs

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Судя по скриншоту, там не только память, но и диски.

Пробуйте инстал 10.1 или для детекта железа MfsBSD на осннове 10-ки.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

LSI 3041 очень капризны к шлейфам (к примеру шлейф работал на набортном контроллере норм, нв 3041 - начал отсыхать винт), может и тут такая же история.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вот результаты 66-ти часового теста памяти

post-110366-070027400 1413779862_thumb.jpg

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вот еще несколько скриншотов, относящихся к теме. Выводы dmesg и pciconf.

Кстати, загрузился с mfsBSD 10.0-RELEASE-amd64, чтобы посмотреть железо, так вот, после 15 минут сервер ушел в ребут, хотя грузилось все только в память

It is completely loaded into memory.

Не исключаю опроса устройства при этом конечно, если в этом дело вобще. Даже не знаю что и думать, может отдать север в сервис, пусть проверят?

post-110366-009823900 1413782208_thumb.jpg

post-110366-092191200 1413782212_thumb.jpg

post-110366-025362800 1413782218_thumb.jpg

post-110366-017508900 1413782224_thumb.jpg

post-110366-075899200 1413782229_thumb.jpg

post-110366-093963000 1413782235_thumb.jpg

Изменено пользователем NeXuSs

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А вот как ругнулся CentOS в процессе установки, ругнулся на процессор:

post-110366-001881800 1413800655_thumb.jpg

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Обновить биос, поиграть с настройками ACPI в биосе и потом в конкретной системе, например отлючить совсем.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Температура проца в норме после 15 минут работы?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вобщем, выяснил я в чем причина, почему-то сразу до меня не дошло поочередно проверить сами процессоры на стабильность работы сервера. Один из процессоров вышел из строя и приводил к перезагрузкам, второй живой и с ним система работает стабильно. А железный RAID контроллер оказался вобще не при чем.

Всем спасибо за участие!

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

А железный RAID контроллер оказался вобще не при чем.

 

Я неделю голову ломал на таком-же железе, только контроллер 1064. И не мог понять, почему 8.0 ставится, а при обновлении до 9.x и 10.x исчезают диски вообще. Этот недоделанный raid - полупрограммным оказался. Пришлось выключить его вообще...

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Когда я отключал этот контроллер в BIOS, то диски переставали видеться любой системой вобще. Ну это и понятно, RAID мидпланом реализован, да еще и SAS контроллер отдельный.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Коллеги, приветствую. Случился очень не приятный случай, есть сервер супермикро, на нем установлена w2016, RAID-1 из двух ссд дисков, контроллер LSI 9361. Один из них ушел в offline, не могу сказать когда. попытались его перевести в Online, массив развалился, восстановить не получилось, такое ощущение, что плохой диск затер хороший, кто-то может объяснить такое поведение. 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Другой контроллер, другая ОС.

Не говоря о том, что хз что и как вы делали.

Вам к гадалке.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В итоге пообщались с вендором, и тот подтвердил, что такое поведение контроллера может быть, и нужно было диск занулить, а потом либо его сделать Hotspare, либо сделать через Foreign, как вот тут, но кот кто же знал-то

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.