Jump to content
Калькуляторы

Расширяемый софтовый сторадж, как сделать лучше

У нас тут возникла задача хранить видео с камер в рамках одного-двух линуксовых серверов. Для начала около 30 ТБ на каждой коробке, а дальше будет видно. Нагрузки небольшие - порядка 300 Мбит/с на запись и около 150 на чтение. Поэтому главная цель - сделать хранилку не столько быстро, сколько более-менее надежной и  максимально удобно расширяемой без плясок с бубном и ребилдов массивов по 70 Тб. Все осложняется тем, что пока неясны конечные объемы т.к. дело может взлетит, а может и нет. А еще в силу специфики работы нам особо не приходилось сталкиваться с большими хранилками.

 

Можно, конечно, поступить по старинке - полка, набитая дисками и рейд-контроллер с внешним SAS-портом. Но это мало того что стоит денег (где-то 400к с дисками, полкой и контроллером), так еще и нифига не удобно в плане обслуги.  В общем, дело даже не в стоимости, а в адски неудобной эксплуатации. Диски летят, контроллеры иногда умирают, массив надо расширять по мене роста - все это крааааайне медленно происходит на больших объемах. Для примера - RAID-6 из 24 дисков по 4 Тб у нас билдился что-то около трех суток. А тут еще планируются регулярные расширения. Короче классический решения в топку, хочу посмотреть в сторону софтовых решений.

 

В итоге ковыряния по интернету для себя выделил два решения:

1. ZFS on Linux. Вроде как все хорошо и работает, выглядит вкусно (расширение на лету, встроенная отказоустойчивость RAID-Z, кеширование и т.д.). Но смущает ряд негативных отзывов о том, что у кого-то развалился пул, у кого-то хромает кэш, у кого-то адово тормозит дедупликация (хотя нам она не нужна совсем).

2. Ceph в режиме RADOS Block Device с файловой системой поверх. Тут все то же самое, но с сетевухами и свитчами.

 

Одним словом все как всегда. Прямо как у админов, которые или еще не делают бэкапов, или уже делают. Только здесь народ или доволен, или пляшет с бубном.

В общем, было бы неплохо услышать мнение общественности по поводу того как купть EMC за много денег и подцепить его по iscsi и не парить себе мозги решать подобную задачу.

Share this post


Link to post
Share on other sites

c Ceph  был случай что после выхода из строя диска ребаланс занял просто невозможное время (дни)
Подробностей не помню, в разборе проблемы я участвовал чуть-чуть но что такое возможно (или было возможно на версиях годичной давности) точно

 

Share this post


Link to post
Share on other sites

Ну про Ceph и гораздо больше историй про "развалился в дрова", чем про ZFS.

Share this post


Link to post
Share on other sites

Вот и я склоняюсь к ZFS. Единстевенное что пока напрягает - требования к памяти, но это в целом не беда.

Share this post


Link to post
Share on other sites

ИМХО решения мало пересекаются, если один ящик - то zfs, если ящиков много (3- это не много), то ceph

 

P.S. в zfs raid5/6 нельзя расширить добавлением одиночных дисков, можно только создать ещё один рядом.

Share this post


Link to post
Share on other sites
4 часа назад, megahertz0 сказал:

У нас тут возникла задача хранить видео с камер в рамках одного-двух линуксовых серверов. Для начала около 30 ТБ на каждой коробке, а дальше будет видно. Нагрузки небольшие - порядка 300 Мбит/с на запись и около 150 на чтение. Поэтому главная цель - сделать хранилку не столько быстро, сколько более-менее надежной и  максимально удобно расширяемой без плясок с бубном и ребилдов массивов по 70 Тб. Все осложняется тем, что пока неясны конечные объемы т.к. дело может взлетит, а может и нет. А еще в силу специфики работы нам особо не приходилось сталкиваться с большими хранилками.

 

Можно, конечно, поступить по старинке - полка, набитая дисками и рейд-контроллер с внешним SAS-портом. Но это мало того что стоит денег (где-то 400к с дисками, полкой и контроллером), так еще и нифига не удобно в плане обслуги.  В общем, дело даже не в стоимости, а в адски неудобной эксплуатации. Диски летят, контроллеры иногда умирают, массив надо расширять по мене роста - все это крааааайне медленно происходит на больших объемах. Для примера - RAID-6 из 24 дисков по 4 Тб у нас билдился что-то около трех суток. А тут еще планируются регулярные расширения. Короче классический решения в топку, хочу посмотреть в сторону софтовых решений.

 

В итоге ковыряния по интернету для себя выделил два решения:

1. ZFS on Linux. Вроде как все хорошо и работает, выглядит вкусно (расширение на лету, встроенная отказоустойчивость RAID-Z, кеширование и т.д.). Но смущает ряд негативных отзывов о том, что у кого-то развалился пул, у кого-то хромает кэш, у кого-то адово тормозит дедупликация (хотя нам она не нужна совсем).

2. Ceph в режиме RADOS Block Device с файловой системой поверх. Тут все то же самое, но с сетевухами и свитчами.

 

Одним словом все как всегда. Прямо как у админов, которые или еще не делают бэкапов, или уже делают. Только здесь народ или доволен, или пляшет с бубном.

В общем, было бы неплохо услышать мнение общественности по поводу того как купть EMC за много денег и подцепить его по iscsi и не парить себе мозги решать подобную задачу.

 

А почему вы просто не возьмете  synology ? По сути дела и ОС нормальная, а по цене не дороже обычного компа выходит. Т.е. нет смысла покупать Серверное решение, если просто нужно складировать данные.   Цепанете по NFSу раздел и вперед.  

 

Share this post


Link to post
Share on other sites

Если коробок действительно мало, то ZFS будет предпочтительнее. Ceph на малом количестве нод не очень хорошие результаты у меня показывал на запись. Хотя это возможно из-за того, что я плохо умею его готовить, ведь крутилок там очень много.

ZFS использовал не в таких объёмах, конечно, но проблем с ним не было.

Share this post


Link to post
Share on other sites

у меня zfsonlinux работает в два раза медленнее чем zfs freebsd на одном и том же хранилище)

цепь на трех серверах, каждый 27х3Тб работает на ура, выдает несколько сотен мбайт/с.

а ребилд винта на любом хранилище будет занимать много времени

Share this post


Link to post
Share on other sites
3 часа назад, Renaissance87 сказал:

 

А почему вы просто не возьмете  synology ?

Вроде бы автор не производит впечатления что он туповат и ему надо чтоб тот же самый линукс кто-то завернул в красивую обёртку и продал ему втридорога.

Share this post


Link to post
Share on other sites
1 минуту назад, rm_ сказал:

Вроде бы автор не производит впечатления что он туповат и ему надо чтоб тот же самый линукс кто-то завернул в красивую обёртку и продал ему втридорога.

 

Так я же написал, что не выходит там в тридорого,  вы получаете все то же самое,  с красивыми форточками и без вопросов "ZFS" или "Ceph" просто рабочий девайс. Да еще и с 3х летней гарантией.  

Share this post


Link to post
Share on other sites
4 минуты назад, Renaissance87 сказал:

и без вопросов "ZFS" или "Ceph" просто рабочий девайс. Да еще и с 3х летней гарантией.  

Данифигасебе, аж с трёхлетней! И самому думать, разбираться и понимать как что работает под капотом -- не надо.

Я уверен последнее особенно поможет при траблшутинге развалившегося хранилища, да.

Share this post


Link to post
Share on other sites
18 минут назад, rm_ сказал:

Данифигасебе, аж с трёхлетней! И самому думать, разбираться и понимать как что работает под капотом -- не надо.

Я уверен последнее особенно поможет при траблшутинге развалившегося хранилища, да.

Ну у Вас наверное большой опыт эксплуатации данного девайса, спорить не буду. Просто есть прициденты 3года uptima с iSCSI

Share this post


Link to post
Share on other sites
24 минуты назад, MMM сказал:

про btrfs уже писали?

Btrfs в многодевайсном режиме пока не готово к применению.

Да и в однодевайсном у неё не очень здорово с производительностью. Набор фич таких как снапшоты и сжатие в некоторых сценариях более низкую скорость работы оправдывает, но нужны ли они автору.

 

Ил родных линуксовых решений можно ещё вспомнить mdadm RAID. Вот это могло бы сработать, а дабы ребилды всю малину не портили, бить на несколько сравнительно небольших рейдов, штук 8-10 дисков на один RAID6.

Edited by rm_

Share this post


Link to post
Share on other sites

На мой вкус зеркала должны быть снизу.

Те в начале делаем диски парами, а потом уже из них городим страйпы или ещё что.

Share this post


Link to post
Share on other sites
17 часов назад, rm_ сказал:

Btrfs в многодевайсном режиме пока не готово к применению.

Да и в однодевайсном у неё не очень здорово с производительностью. Набор фич таких как снапшоты и сжатие в некоторых сценариях более низкую скорость работы оправдывает, но нужны ли они автору.

 

Ил родных линуксовых решений можно ещё вспомнить mdadm RAID. Вот это могло бы сработать, а дабы ребилды всю малину не портили, бить на несколько сравнительно небольших рейдов, штук 8-10 дисков на один RAID6.

По поводу btrfs думал, но по многодисковому режиму там оказалось слишком много негативных отзывов. Видимо пока рановато в продакшен ставить.

15 часов назад, Ivan_83 сказал:

На мой вкус зеркала должны быть снизу.

Те в начале делаем диски парами, а потом уже из них городим страйпы или ещё что.

Так вот от этого и хочется уйти. Можно связку md + LVM использовать, что я в общем-то вовсю и делаю т.к. работает хорошо и надежно. Но на небольших количествах дисков (штук до 8). Дальше сложность слежения за этим хозяйством растет по экспоненте. ZFS как раз и привлекает тем, что объединяет в себе и менеджер томов, и аналог md.

21 час назад, Renaissance87 сказал:

 

Так я же написал, что не выходит там в тридорого,  вы получаете все то же самое,  с красивыми форточками и без вопросов "ZFS" или "Ceph" просто рабочий девайс. Да еще и с 3х летней гарантией.  

Я как раз сторонник девайсов "поставил-работает". Но с Синолоджи и подобными НАСами есть вот какие моменты, которые меня напрягают.

  1. Ценник. Навскидку такая коробка на 16 3,5 дисков (RackStation RS4017xs+) стоит около 5500 USD за бугром. У нас она будет стоит около 400к и это без дисков. И это всего 32 Тб (исходя из RAID-10 на ходовых 4 Тб дисках).
  2. ЗИП. Никакая 100500-летняя гарантия не отменяет наличие запасного железа. По уму надо такую коробку иметь вторую. Это еще затраты. При этом та же полка от Супермикро стоит 30 тысяч за БУ, контроллер еще тысяч 15 и тазик 1U с нужным нам конфигом еще 60-80 тысяч. Т.е. максимум за 125к получаем 100% резерв. Диски в расчет не берем, их резервируем априори.
  3. Вендор лок. Диски с этой коробки не переставишь в линуксовый тазик и не соберешь массив на коленке т.к. там скорее всего будет какая-нибудь самодельная ФС или самодельный софтовый рейд.

Share this post


Link to post
Share on other sites

Ceph, особых вариантов за разумные деньги нет. Тем более, если смотреть на тенденцию его развития и кто за ним стоит.

Share this post


Link to post
Share on other sites
В 14.09.2017 в 19:51, rm_ сказал:

Вроде бы автор не производит впечатления что он туповат и ему надо чтоб тот же самый линукс кто-то завернул в красивую обёртку и продал ему втридорога.

Так есть же xpenology.me/downloads/   - открытая сборка той же операционки что на фирменных synology  , ставится на любой обычный сервак с корзинами.

операционка отлизанная и заточенная под хранение.

+ там вроде есть пакет https://www.synology.com/en-us/surveillance   

который типа видеорегистратор , заходить смотреть видеоархив можно и.т.п.  , может и оно в дело пойдет.

Давно хочу поставить и посмотреть, руки не доходят.

 

Share this post


Link to post
Share on other sites

mhddfs, как вариант. Работало на файловой помойке (около 100 ТБ). Отработало нормально с парой но:

1. другие сервера к единому серверу монтировались по sshfs
2. всё это чувствительно к физическому состоянию диска - ОСь может размонтировать без уведомления в любой момент.

3. Зато расширяемо)

Share this post


Link to post
Share on other sites

sshfs это такое мэдленное-медленно fuse глюкалово которое файл еще и выгружает полностью в /tmp перед любым открытием?

 

Share this post


Link to post
Share on other sites
В 16.09.2017 в 21:42, default_vlan сказал:

mhddfs, как вариант. Работало на файловой помойке (около 100 ТБ). Отработало нормально с парой но:

1. другие сервера к единому серверу монтировались по sshfs
2. всё это чувствительно к физическому состоянию диска - ОСь может размонтировать без уведомления в любой момент.

3. Зато расширяемо)

А как быстро этак конструкция работает? С ксеона E56хх 2,4 ГГц я выжимаю в одну сторону где-то 25 Мегабайт/с через SCP. При этом процесс работает в один поток и упирается в частоту одного ядра, а не их количество.

Share this post


Link to post
Share on other sites
В 16.09.2017 в 19:59, LostSoul сказал:

Так есть же xpenology.me/downloads/   - открытая сборка той же операционки что на фирменных synology  , ставится на любой обычный сервак с корзинами.

операционка отлизанная и заточенная под хранение.

+ там вроде есть пакет https://www.synology.com/en-us/surveillance   

который типа видеорегистратор , заходить смотреть видеоархив можно и.т.п.  , может и оно в дело пойдет.

Давно хочу поставить и посмотреть, руки не доходят.

 

Честно говоря, первый раз слышу о такой штуке... Как-то больше на слуху FreeNAS. Я бы из еще посмотрел на Nexenta Stor, вроде выглядит приятно. Но вот эта история напрягает. Хотя прошло уже 4 с лишним года и много воды могло утечь. С другой стороны офигительных историй с кошкой и лампой полно и по ZFS, и по Ceph и даже по ext4, которой сто лет в обед )). Видимо, дело в распространенности и частоте использования.

Share this post


Link to post
Share on other sites

расскажите, пожалуйста, как zfs масштабируется? на несколько серверов хранения.

 

у ceph с этим проблем нет.

Share this post


Link to post
Share on other sites
5 часов назад, megahertz0 сказал:

А как быстро этак конструкция работает? С ксеона E56хх 2,4 ГГц я выжимаю в одну сторону где-то 25 Мегабайт/с через SCP.

1 Гбит/с, без нагрузки от пользователей. Но всё это чувствительно к целостности самого диска.

 

В 17.09.2017 в 00:45, LostSoul сказал:

sshfs это такое мэдленное-медленно fuse глюкалово которое файл еще и выгружает полностью в /tmp перед любым открытием?

В принципе, можно и так сказать, но в tmp ни разу не валялось ни одного файла, хотя замечалась странность, что запускаешь файл с киношкой и в этот же момент удаляешь его. Файла нет, а киношка идет. Даже стоп-плэй работает, А новый никто подцепиться не мог. Проект сдох, когда пользователям перестало это быть интересным.

В соседней конторе настроил это дело, они туда свои архивы сливают. Орали поначалу, сейчас все норм

Share this post


Link to post
Share on other sites
2 часа назад, boco сказал:

расскажите, пожалуйста, как zfs масштабируется? на несколько серверов хранения.

А как NTFS масштабируется? на несколько серверов хранения.

А ext4? у ext4 явно есть проблемы с масштабированием на несколько серверов хранения!

оспаде вы о чём вообще

 

37 минут назад, default_vlan сказал:

мечалась странность, что запускаешь файл с киношкой и в этот же момент удаляешь его. Файла нет, а киношка идет. Даже стоп-плэй работает, А новый никто подцепиться не мог.

Это нормальное поведение в *nix, открытые файлы можно удалять, но по факту пока они открыты место не освобождается, и можно спокойно читать-писать этот файл сколько угодно.

По закрытию последним юзером удалится с концами.

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now