Перейти к содержимому
Калькуляторы

Расширяемый софтовый сторадж, как сделать лучше

У нас тут возникла задача хранить видео с камер в рамках одного-двух линуксовых серверов. Для начала около 30 ТБ на каждой коробке, а дальше будет видно. Нагрузки небольшие - порядка 300 Мбит/с на запись и около 150 на чтение. Поэтому главная цель - сделать хранилку не столько быстро, сколько более-менее надежной и  максимально удобно расширяемой без плясок с бубном и ребилдов массивов по 70 Тб. Все осложняется тем, что пока неясны конечные объемы т.к. дело может взлетит, а может и нет. А еще в силу специфики работы нам особо не приходилось сталкиваться с большими хранилками.

 

Можно, конечно, поступить по старинке - полка, набитая дисками и рейд-контроллер с внешним SAS-портом. Но это мало того что стоит денег (где-то 400к с дисками, полкой и контроллером), так еще и нифига не удобно в плане обслуги.  В общем, дело даже не в стоимости, а в адски неудобной эксплуатации. Диски летят, контроллеры иногда умирают, массив надо расширять по мене роста - все это крааааайне медленно происходит на больших объемах. Для примера - RAID-6 из 24 дисков по 4 Тб у нас билдился что-то около трех суток. А тут еще планируются регулярные расширения. Короче классический решения в топку, хочу посмотреть в сторону софтовых решений.

 

В итоге ковыряния по интернету для себя выделил два решения:

1. ZFS on Linux. Вроде как все хорошо и работает, выглядит вкусно (расширение на лету, встроенная отказоустойчивость RAID-Z, кеширование и т.д.). Но смущает ряд негативных отзывов о том, что у кого-то развалился пул, у кого-то хромает кэш, у кого-то адово тормозит дедупликация (хотя нам она не нужна совсем).

2. Ceph в режиме RADOS Block Device с файловой системой поверх. Тут все то же самое, но с сетевухами и свитчами.

 

Одним словом все как всегда. Прямо как у админов, которые или еще не делают бэкапов, или уже делают. Только здесь народ или доволен, или пляшет с бубном.

В общем, было бы неплохо услышать мнение общественности по поводу того как купть EMC за много денег и подцепить его по iscsi и не парить себе мозги решать подобную задачу.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

c Ceph  был случай что после выхода из строя диска ребаланс занял просто невозможное время (дни)
Подробностей не помню, в разборе проблемы я участвовал чуть-чуть но что такое возможно (или было возможно на версиях годичной давности) точно

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Ну про Ceph и гораздо больше историй про "развалился в дрова", чем про ZFS.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Вот и я склоняюсь к ZFS. Единстевенное что пока напрягает - требования к памяти, но это в целом не беда.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

ИМХО решения мало пересекаются, если один ящик - то zfs, если ящиков много (3- это не много), то ceph

 

P.S. в zfs raid5/6 нельзя расширить добавлением одиночных дисков, можно только создать ещё один рядом.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

4 часа назад, megahertz0 сказал:

У нас тут возникла задача хранить видео с камер в рамках одного-двух линуксовых серверов. Для начала около 30 ТБ на каждой коробке, а дальше будет видно. Нагрузки небольшие - порядка 300 Мбит/с на запись и около 150 на чтение. Поэтому главная цель - сделать хранилку не столько быстро, сколько более-менее надежной и  максимально удобно расширяемой без плясок с бубном и ребилдов массивов по 70 Тб. Все осложняется тем, что пока неясны конечные объемы т.к. дело может взлетит, а может и нет. А еще в силу специфики работы нам особо не приходилось сталкиваться с большими хранилками.

 

Можно, конечно, поступить по старинке - полка, набитая дисками и рейд-контроллер с внешним SAS-портом. Но это мало того что стоит денег (где-то 400к с дисками, полкой и контроллером), так еще и нифига не удобно в плане обслуги.  В общем, дело даже не в стоимости, а в адски неудобной эксплуатации. Диски летят, контроллеры иногда умирают, массив надо расширять по мене роста - все это крааааайне медленно происходит на больших объемах. Для примера - RAID-6 из 24 дисков по 4 Тб у нас билдился что-то около трех суток. А тут еще планируются регулярные расширения. Короче классический решения в топку, хочу посмотреть в сторону софтовых решений.

 

В итоге ковыряния по интернету для себя выделил два решения:

1. ZFS on Linux. Вроде как все хорошо и работает, выглядит вкусно (расширение на лету, встроенная отказоустойчивость RAID-Z, кеширование и т.д.). Но смущает ряд негативных отзывов о том, что у кого-то развалился пул, у кого-то хромает кэш, у кого-то адово тормозит дедупликация (хотя нам она не нужна совсем).

2. Ceph в режиме RADOS Block Device с файловой системой поверх. Тут все то же самое, но с сетевухами и свитчами.

 

Одним словом все как всегда. Прямо как у админов, которые или еще не делают бэкапов, или уже делают. Только здесь народ или доволен, или пляшет с бубном.

В общем, было бы неплохо услышать мнение общественности по поводу того как купть EMC за много денег и подцепить его по iscsi и не парить себе мозги решать подобную задачу.

 

А почему вы просто не возьмете  synology ? По сути дела и ОС нормальная, а по цене не дороже обычного компа выходит. Т.е. нет смысла покупать Серверное решение, если просто нужно складировать данные.   Цепанете по NFSу раздел и вперед.  

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Если коробок действительно мало, то ZFS будет предпочтительнее. Ceph на малом количестве нод не очень хорошие результаты у меня показывал на запись. Хотя это возможно из-за того, что я плохо умею его готовить, ведь крутилок там очень много.

ZFS использовал не в таких объёмах, конечно, но проблем с ним не было.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

у меня zfsonlinux работает в два раза медленнее чем zfs freebsd на одном и том же хранилище)

цепь на трех серверах, каждый 27х3Тб работает на ура, выдает несколько сотен мбайт/с.

а ребилд винта на любом хранилище будет занимать много времени

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

3 часа назад, Renaissance87 сказал:

 

А почему вы просто не возьмете  synology ?

Вроде бы автор не производит впечатления что он туповат и ему надо чтоб тот же самый линукс кто-то завернул в красивую обёртку и продал ему втридорога.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

1 минуту назад, rm_ сказал:

Вроде бы автор не производит впечатления что он туповат и ему надо чтоб тот же самый линукс кто-то завернул в красивую обёртку и продал ему втридорога.

 

Так я же написал, что не выходит там в тридорого,  вы получаете все то же самое,  с красивыми форточками и без вопросов "ZFS" или "Ceph" просто рабочий девайс. Да еще и с 3х летней гарантией.  

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

4 минуты назад, Renaissance87 сказал:

и без вопросов "ZFS" или "Ceph" просто рабочий девайс. Да еще и с 3х летней гарантией.  

Данифигасебе, аж с трёхлетней! И самому думать, разбираться и понимать как что работает под капотом -- не надо.

Я уверен последнее особенно поможет при траблшутинге развалившегося хранилища, да.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

18 минут назад, rm_ сказал:

Данифигасебе, аж с трёхлетней! И самому думать, разбираться и понимать как что работает под капотом -- не надо.

Я уверен последнее особенно поможет при траблшутинге развалившегося хранилища, да.

Ну у Вас наверное большой опыт эксплуатации данного девайса, спорить не буду. Просто есть прициденты 3года uptima с iSCSI

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

24 минуты назад, MMM сказал:

про btrfs уже писали?

Btrfs в многодевайсном режиме пока не готово к применению.

Да и в однодевайсном у неё не очень здорово с производительностью. Набор фич таких как снапшоты и сжатие в некоторых сценариях более низкую скорость работы оправдывает, но нужны ли они автору.

 

Ил родных линуксовых решений можно ещё вспомнить mdadm RAID. Вот это могло бы сработать, а дабы ребилды всю малину не портили, бить на несколько сравнительно небольших рейдов, штук 8-10 дисков на один RAID6.

Изменено пользователем rm_

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

На мой вкус зеркала должны быть снизу.

Те в начале делаем диски парами, а потом уже из них городим страйпы или ещё что.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

17 часов назад, rm_ сказал:

Btrfs в многодевайсном режиме пока не готово к применению.

Да и в однодевайсном у неё не очень здорово с производительностью. Набор фич таких как снапшоты и сжатие в некоторых сценариях более низкую скорость работы оправдывает, но нужны ли они автору.

 

Ил родных линуксовых решений можно ещё вспомнить mdadm RAID. Вот это могло бы сработать, а дабы ребилды всю малину не портили, бить на несколько сравнительно небольших рейдов, штук 8-10 дисков на один RAID6.

По поводу btrfs думал, но по многодисковому режиму там оказалось слишком много негативных отзывов. Видимо пока рановато в продакшен ставить.

15 часов назад, Ivan_83 сказал:

На мой вкус зеркала должны быть снизу.

Те в начале делаем диски парами, а потом уже из них городим страйпы или ещё что.

Так вот от этого и хочется уйти. Можно связку md + LVM использовать, что я в общем-то вовсю и делаю т.к. работает хорошо и надежно. Но на небольших количествах дисков (штук до 8). Дальше сложность слежения за этим хозяйством растет по экспоненте. ZFS как раз и привлекает тем, что объединяет в себе и менеджер томов, и аналог md.

21 час назад, Renaissance87 сказал:

 

Так я же написал, что не выходит там в тридорого,  вы получаете все то же самое,  с красивыми форточками и без вопросов "ZFS" или "Ceph" просто рабочий девайс. Да еще и с 3х летней гарантией.  

Я как раз сторонник девайсов "поставил-работает". Но с Синолоджи и подобными НАСами есть вот какие моменты, которые меня напрягают.

  1. Ценник. Навскидку такая коробка на 16 3,5 дисков (RackStation RS4017xs+) стоит около 5500 USD за бугром. У нас она будет стоит около 400к и это без дисков. И это всего 32 Тб (исходя из RAID-10 на ходовых 4 Тб дисках).
  2. ЗИП. Никакая 100500-летняя гарантия не отменяет наличие запасного железа. По уму надо такую коробку иметь вторую. Это еще затраты. При этом та же полка от Супермикро стоит 30 тысяч за БУ, контроллер еще тысяч 15 и тазик 1U с нужным нам конфигом еще 60-80 тысяч. Т.е. максимум за 125к получаем 100% резерв. Диски в расчет не берем, их резервируем априори.
  3. Вендор лок. Диски с этой коробки не переставишь в линуксовый тазик и не соберешь массив на коленке т.к. там скорее всего будет какая-нибудь самодельная ФС или самодельный софтовый рейд.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Ceph, особых вариантов за разумные деньги нет. Тем более, если смотреть на тенденцию его развития и кто за ним стоит.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В 14.09.2017 в 19:51, rm_ сказал:

Вроде бы автор не производит впечатления что он туповат и ему надо чтоб тот же самый линукс кто-то завернул в красивую обёртку и продал ему втридорога.

Так есть же xpenology.me/downloads/   - открытая сборка той же операционки что на фирменных synology  , ставится на любой обычный сервак с корзинами.

операционка отлизанная и заточенная под хранение.

+ там вроде есть пакет https://www.synology.com/en-us/surveillance   

который типа видеорегистратор , заходить смотреть видеоархив можно и.т.п.  , может и оно в дело пойдет.

Давно хочу поставить и посмотреть, руки не доходят.

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

mhddfs, как вариант. Работало на файловой помойке (около 100 ТБ). Отработало нормально с парой но:

1. другие сервера к единому серверу монтировались по sshfs
2. всё это чувствительно к физическому состоянию диска - ОСь может размонтировать без уведомления в любой момент.

3. Зато расширяемо)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

sshfs это такое мэдленное-медленно fuse глюкалово которое файл еще и выгружает полностью в /tmp перед любым открытием?

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В 16.09.2017 в 21:42, default_vlan сказал:

mhddfs, как вариант. Работало на файловой помойке (около 100 ТБ). Отработало нормально с парой но:

1. другие сервера к единому серверу монтировались по sshfs
2. всё это чувствительно к физическому состоянию диска - ОСь может размонтировать без уведомления в любой момент.

3. Зато расширяемо)

А как быстро этак конструкция работает? С ксеона E56хх 2,4 ГГц я выжимаю в одну сторону где-то 25 Мегабайт/с через SCP. При этом процесс работает в один поток и упирается в частоту одного ядра, а не их количество.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В 16.09.2017 в 19:59, LostSoul сказал:

Так есть же xpenology.me/downloads/   - открытая сборка той же операционки что на фирменных synology  , ставится на любой обычный сервак с корзинами.

операционка отлизанная и заточенная под хранение.

+ там вроде есть пакет https://www.synology.com/en-us/surveillance   

который типа видеорегистратор , заходить смотреть видеоархив можно и.т.п.  , может и оно в дело пойдет.

Давно хочу поставить и посмотреть, руки не доходят.

 

Честно говоря, первый раз слышу о такой штуке... Как-то больше на слуху FreeNAS. Я бы из еще посмотрел на Nexenta Stor, вроде выглядит приятно. Но вот эта история напрягает. Хотя прошло уже 4 с лишним года и много воды могло утечь. С другой стороны офигительных историй с кошкой и лампой полно и по ZFS, и по Ceph и даже по ext4, которой сто лет в обед )). Видимо, дело в распространенности и частоте использования.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

расскажите, пожалуйста, как zfs масштабируется? на несколько серверов хранения.

 

у ceph с этим проблем нет.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

5 часов назад, megahertz0 сказал:

А как быстро этак конструкция работает? С ксеона E56хх 2,4 ГГц я выжимаю в одну сторону где-то 25 Мегабайт/с через SCP.

1 Гбит/с, без нагрузки от пользователей. Но всё это чувствительно к целостности самого диска.

 

В 17.09.2017 в 00:45, LostSoul сказал:

sshfs это такое мэдленное-медленно fuse глюкалово которое файл еще и выгружает полностью в /tmp перед любым открытием?

В принципе, можно и так сказать, но в tmp ни разу не валялось ни одного файла, хотя замечалась странность, что запускаешь файл с киношкой и в этот же момент удаляешь его. Файла нет, а киношка идет. Даже стоп-плэй работает, А новый никто подцепиться не мог. Проект сдох, когда пользователям перестало это быть интересным.

В соседней конторе настроил это дело, они туда свои архивы сливают. Орали поначалу, сейчас все норм

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

2 часа назад, boco сказал:

расскажите, пожалуйста, как zfs масштабируется? на несколько серверов хранения.

А как NTFS масштабируется? на несколько серверов хранения.

А ext4? у ext4 явно есть проблемы с масштабированием на несколько серверов хранения!

оспаде вы о чём вообще

 

37 минут назад, default_vlan сказал:

мечалась странность, что запускаешь файл с киношкой и в этот же момент удаляешь его. Файла нет, а киношка идет. Даже стоп-плэй работает, А новый никто подцепиться не мог.

Это нормальное поведение в *nix, открытые файлы можно удалять, но по факту пока они открыты место не освобождается, и можно спокойно читать-писать этот файл сколько угодно.

По закрытию последним юзером удалится с концами.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 смайлов.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.