Эльбрус МЦСТ

ttttt

Опубликовано 11 мая, 2015 · Жалоба

Это когда эрланг стал динамическим?

Когда родился вообще-то.

А остальное - это вообще :facepalm:, компиляторы посложнее, чем вы их себе представляете.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

vodz

Опубликовано 12 мая, 2015 · Жалоба

простейший тест цпу, который мне нравится тем, что везде есть и ничего ставить не надо:
dd if=/dev/zero bs=1M count=1024 | md5sum
тест ЦПУ и аппаратного ускорения шифрования (которого нету):
openssl speed
Было бы интересно узнать результаты.

Справедливости ради такой тест надо обернуть в многотредовую конструкцию, иначе протестируем одно ядро, которое сейчас уже почти что виртуальное. Да и скорость между моделями будет сильно гулять в зависимости от векторной оптимизации, ведь в соверменных процах целый раунд шифрования может быть одной инструкцией, причём сразу над целым вектором впаралель.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Tosha

Опубликовано 12 мая, 2015 · Жалоба

Справедливости ради такой тест надо обернуть в многотредовую конструкцию, иначе протестируем одно ядро, которое сейчас уже почти что виртуальное. Да и скорость между моделями будет сильно гулять в зависимости от векторной оптимизации, ведь в соверменных процах целый раунд шифрования может быть одной инструкцией, причём сразу над целым вектором впаралель.

Паралельность тестить не так интересно в данном случае. А вот ядро в связи с отличием принципов - очень.

Векторные операции это только кажущаяся одна команда. Внутреннее RISC ядро там накручивает банальный цикл. И разве только не тратит времени на выборку х86 команд и их распознавание.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Sergey Gilfanov

Опубликовано 12 мая, 2015 · Жалоба

Векторные операции это только кажущаяся одна команда. Внутреннее RISC ядро там накручивает банальный цикл. И разве только не тратит времени на выборку х86 команд и их распознавание.

Векторные операции которые для шифрования вполне могут быть и отдельным блоком логики сделаны. Стандартные же. Как раз для того, чтобы во внутренний цикл не разворачивать. Во всяких сетевых процессорах с аппаратным шифрованием так ведь, вроде, и сделано?

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

vodz

Опубликовано 12 мая, 2015 · Жалоба

Векторные операции которые для шифрования вполне могут быть и отдельным блоком логики сделаны. Стандартные же. Как раз для того, чтобы во внутренний цикл не разворачивать. Во всяких сетевых процессорах с аппаратным шифрованием так ведь, вроде, и сделано?

Да какие сетевые процессоры... Отдельным блоком, в обычных процессорах. https://software.intel.com/en-us/articles/improving-the-performance-of-the-secure-hash-algorithm-1

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Tosha

Опубликовано 12 мая, 2015 · Жалоба

Векторные операции которые для шифрования вполне могут быть и отдельным блоком логики сделаны. Стандартные же. Как раз для того, чтобы во внутренний цикл не разворачивать. Во всяких сетевых процессорах с аппаратным шифрованием так ведь, вроде, и сделано?

В специализированных - да, бывает. В общих процессорах - очень редко. И даже далеко не во всех маршрутизаторах есть.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

vodz

Опубликовано 12 мая, 2015 · Жалоба

Паралельность тестить не так интересно в данном случае. А вот ядро в связи с отличием принципов - очень.

Увы. Ядро теперь понятие виртуальное. Я как-то тестил количество тредов для расчёта биткойнов на куче разных процесорах, AMD, Intel-86, Intel-Itanium... При увеличении количество тредов до количество физицеских ядер скорость растёт линейно, потом с учётом гипертрединга растёт незначительно, но растёт, и максимум получается где-то количество гипертреёдинговых ядер минус два. Причём при увеличиении тредов более количество гипертрейдинговых ядер скорость сразу не убывает от значения равному количетву виртуальных ядер. Можете потренироваться объяснить. Занятное чтиво между прочим.

В специализированных - да, бывает. В общих процессорах - очень редко. И даже далеко не во всех маршрутизаторах есть.

В маршрутизаторах - да, а вот на столе... Проверьте, поддерживает ли sse4.2/avx2 ваш настольный.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Tosha

Опубликовано 12 мая, 2015 · Жалоба

Да какие сетевые процессоры... Отдельным блоком, в обычных процессорах. https://software.int...ash-algorithm-1

The overall performance improvement of this implementation over the best known scalar implementations ranges from ~1.2X to ~1.5X

Это не отдельный блок, это как раз вызываемая RISC подпрограмма, оптимизированная под данный тип процессора. Да, она будет работать быстрее эквивалентного кода на x86.

Инженеры Intel успешно пытаются без аппаратуры, чисто на микрокоде выжимать максимум эффективности.

Вот настоящая аппаратура даст выигрыш на порядок минимум.

В этой связи как раз и интересно что в аппаратном плане сделали или могут сделать в МЦСТ и каков потенциал при выходе на окрестности 2 ГГц.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

vodz

Опубликовано 12 мая, 2015 · Жалоба

Вот настоящая аппаратура даст выигрыш на порядок минимум.

Я неглядя не ту ссылку дал. Вот поновее. https://software.intel.com/en-us/articles/intel-sha-extensions

Все sha-1 (любой битности) делается одной инструкцией. (В табличке безусловно 4 инструкции, но куда деваться, подготовка, раунд, последний раунд и завершение). Проц теперь уже самый обычный.

И внутри не RISC сейчас, а каша из risc-vliw, как бы странно не было такое сочетание.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Tosha

Опубликовано 12 мая, 2015 · Жалоба

И внутри не RISC сейчас, а каша из risc-vliw, как бы странно не было такое сочетание.

Вот и поглядим у кого получится risc-vliw лучше в итоге. :)

То что в цене Интел не догнать это понятно, массовости не будет. А вот концептуально - интересно.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

ttttt

Опубликовано 12 мая, 2015 (изменено) · Жалоба

Увы. Ядро теперь понятие виртуальное. Я как-то тестил количество тредов для расчёта биткойнов на куче разных процесорах, AMD, Intel-86, Intel-Itanium... При увеличении количество тредов до количество физицеских ядер скорость растёт линейно, потом с учётом гипертрединга растёт незначительно, но растёт, и максимум получается где-то количество гипертреёдинговых ядер минус два. Причём при увеличиении тредов более количество гипертрейдинговых ядер скорость сразу не убывает от значения равному количетву виртуальных ядер. Можете потренироваться объяснить. Занятное чтиво между прочим.

С ядром ничего не меняется, суть HT в том, чтобы загрузить ядро полезными вычислениями, пока оно ждет памяти для каких-то других или зависимых инструкций. Если это дает прирост производительности, то софт просто плохо оптимизирован, без prefetch'ей в правильных местах, без разворачивания циклов, без разделения зависимостей. Софт должен оптимизироваться так, чтобы всегда успевал посчитать все, что надо, пока ждет памяти, в таком случае HT будет только добавлять ненужный оверхед и замедлять выполнение.

Изменено 12 мая, 2015 пользователем ttttt

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

vIv

Опубликовано 13 мая, 2015 · Жалоба

Они это совместно в DEPO что ли пилят?

http://www.depo.ru/FileStorage/q%5C1%5C8%5CQ18002544.jpg

Это стандартный корпус SuperMicro ещё начала века.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

vodz

Опубликовано 13 мая, 2015 · Жалоба

С ядром ничего не меняется, суть HT в том, чтобы загрузить ядро полезными вычислениями, пока оно ждет памяти для каких-то других или зависимых инструкций. Если это дает прирост производительности, то софт просто плохо оптимизирован, без prefetch'ей в правильных местах, без разворачивания циклов, без разделения зависимостей. Софт должен оптимизироваться так, чтобы всегда успевал посчитать все, что надо, пока ждет памяти, в таком случае HT будет только добавлять ненужный оверхед и замедлять выполнение.

Бла-бла-бла. Расчёт биткойнов производится блоком sse, чтобы получить максимальную загрузку процессора надо чередовать инструкции sse с обычными. Но это легко сказать. Вот есть крипто-формула, для пущего ускорения делаются однотипные операции с разными данными и потому хорошо векторизируются. То есть все данные уже в векторных регистрах и обычных инструкций там не родить. Формула короткая, переходов почти нет. Код вылизан так, что представляет собой десяток одинаковых функций по результату, вызов которых выбирается в зависимости от наличия в процессоре sse4/sse4.1/sse4.2/avx/avx2. Никакой компилятор такой оптимизации не осилит. Расчёт там ведётся потактово, путём чередования расчётных и читающих/записывающих инструкции (это тоже даёт выигрыш тактов). Уж поверте, я тоже пытался написать код со своим алгоритмом, бился за каждый такт.

Почти линейный рост от задействовании ядер объясняется тривиально, рост от НТ объясняется тем, что как не чередуй инструкции, всё равно формула есть формула, если надо несколько подряд расчётных действий сделать а потом только получить результат для засовывания в память - никуда от этого не деться. А НТ и спасает. После компилятора код работает раз в 100 медленнее, на интерниках - раз в 20. Руками добивался раза в 1.5 медленнее от асов-оригиналов, полгода бился, добился где-то 1.1 и плюнул :)

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Tosha

Опубликовано 13 мая, 2015 · Жалоба

Интересно, можно ли на эльбрусе 4с биткоины хорошо считать? 23 команды за такт на ядро. Если их все загрузить в паралель - должно неплохо плучится?

Хотя процессорный расчет там уже давно не актуален, и даже видеокарты не рулят. Там теперь надо на ASIC считать или хотя бы на PLIS

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Sergey Gilfanov

Опубликовано 13 мая, 2015 · Жалоба

Интересно, можно ли на эльбрусе 4с биткоины хорошо считать? 8 АЛУ на ядро, итого 32 АЛУ Если их все загрузить в паралель - должно неплохо плучится?

Если электричество и железо девать некуда - то уж лучше в folding@home вступать. Все пользы больше.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

thodin

Опубликовано 13 мая, 2015 · Жалоба

Интересно, можно ли на эльбрусе 4с биткоины хорошо считать?

Биткоины в РФ запрещены, а в организациях, где ставят Э. и подавно.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Sergeylo

Опубликовано 13 мая, 2015 · Жалоба

Биткоины в РФ запрещены

А вот это враньё. Один вопрос, что в качестве платёжного средства их использовать сложно.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

thodin

Опубликовано 13 мая, 2015 · Жалоба

А вот это враньё. Один вопрос, что в качестве платёжного средства их использовать сложно.

http://www.cbr.ru/press/pr.aspx?file=27012014_1825052.htm

Согласно статье 27 Федерального закона «О Центральном банке Российской Федерации (Банке России)» выпуск на территории Российской Федерации денежных суррогатов запрещается.

Вот и не выпускайте.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Sergeylo

Опубликовано 13 мая, 2015 · Жалоба

Они выпускаются и используются на правах фантиков. Как платёжное средство использовать не получится, но меняться фантиками пока не запретили. (Пока)

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

rm_

Опубликовано 13 мая, 2015 · Жалоба

А вот это враньё. Один вопрос, что в качестве платёжного средства их использовать сложно.

http://www.cbr.ru/press/pr.aspx?file=27012014_1825052.htm

Согласно статье 27 Федерального закона «О Центральном банке Российской Федерации (Банке России)» выпуск на территории Российской Федерации денежных суррогатов запрещается.

Вот и не выпускайте.

С юридической т.з. этот текст не более чем пространные рассуждения в духе "небо синее, поэтому дважды два четыре". Сам законопроект по биткоинам ещё только готовится, причём варианты возможны разные: http://bitnovosti.com/2014/03/04/net-zapreta-bitcoina-v-rossii/

Впрочем всё это к теме мало относится, в том числе и потому, что хоть какой там ни будь 23-команды-за-такт Эльбрус, по сравнению с нынешними ASIС, производительность будет смехотворно мала. Навскидку, не оправдает и десятой части энергопотребления.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

ttttt

Опубликовано 13 мая, 2015 · Жалоба

Расчёт там ведётся потактово, путём чередования расчётных и читающих/записывающих инструкции (это тоже даёт выигрыш тактов). Уж поверте, я тоже пытался написать код со своим алгоритмом, бился за каждый такт.

Пытались или нет, но оптимизировать под инструкции - плохая идея, оптимизировать надо под архитектуру.

А то иногда sse может работать медленнее mmx. В этой теме где-то линк на книжку по оптимизации уже давал, почитайте.

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

thodin

Опубликовано 13 мая, 2015 · Жалоба

С юридической т.з. этот текст не более чем пространные рассуждения в духе "небо синее, поэтому дважды два четыре".

Как оно выглядит с юридической точки зрения можно узнать только после соответствующего судебного процесса или просто выполнения предписания.

Банк России свою позицию высказал. Спорить с ним я лично не намерен.

Готовы попробовать на своей шкуре?

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

vodz

Опубликовано 13 мая, 2015 · Жалоба

Пытались или нет, но оптимизировать под инструкции - плохая идея, оптимизировать надо под архитектуру.

А то иногда sse может работать медленнее mmx. В этой теме где-то линк на книжку по оптимизации уже давал, почитайте.

И всё же майнинг специфическая задача, никакими архитектурными ухищрениями не побить идеально подходящее под эту задачу sse. Там sse просто первёт этот mmx за счёт увеличения регистров вдвое, а уж с avx2... Результат превзойти можно только ещё большим количеством тупых процессоров выполняющих небольшую программу параллельно типа gpu/asic. Но и тест безусловно так себе. :)

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

NN----NN

Опубликовано 19 мая, 2015 · Жалоба

В продажу поступили ПК и серверы на базе процессоров «Эльбрус-4С»

http://habrahabr.ru/company/ua-hosting/blog/258235/

Войти

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Поделиться сообщением

Ссылка на сообщение

Поделиться на других сайтах

Join the conversation