Опубликованы результаты бенчмарков Nvidia H100 ‘Hopper’

MLCommons, отраслевая группа, специализирующаяся на оценке производительности оборудования для искусственного интеллекта и машинного обучения, пополнила свою базу данных результатами новейших ускорителей ИИ и машинного обучения, опубликовав, по сути, первые показатели производительности вычислительных процессоров Nvidia H100 и Biren BR104, определенные на основе серии стандартных отраслевых тестов. Результаты сравнивались с Sapphire Rapids от Intel, AI 100 от Qualcomm и X220 от Sapeon.

Опубликованы результаты бенчмарков Nvidia H100 'Hopper'

MLPerf от MLCommons – это набор эталонов обучения и вывода, признанных десятками компаний, которые поддерживают организации и предоставляют результаты тестирования своего оборудования в базу данных MLPerf. Набор эталонов MLPerf Inference Version 2.1 включает сценарии использования в центрах обработки данных и в пригородах, а также такие рабочие нагрузки, как классификация изображений (ResNet 50 v1.5), обработка естественного языка (BERT Large), распознавание речи (RNN-T), медицинская визуализация (3D U-Net), распознавание объектов (RetinaNet) и рекомендации (DLRM).

Машины, участвующие в этих тестах, оцениваются в двух режимах: в режиме сервера запросы поступают партиями, а в автономном режиме все данные предоставляются сразу, поэтому производительность явно выше в автономном режиме. Кроме того, провайдеры могут представить результаты, полученные при двух условиях: В закрытой категории каждый должен запустить математически эквивалентные нейронные сети, в то время как в открытой категории они могут модифицировать их, чтобы оптимизировать для своего оборудования, сообщает IEEE Spectrum.

Результаты MLPerf описывают не только чистую производительность ускорителей (например, H100, A100, Biren BR104 и т.д.), но и их масштабируемость и производительность на ватт, что дает более подробную картину. Все результаты доступны в базе данных, но Nvidia собрала результаты производительности каждого ускорителя на основе собственных данных и данных, представленных сторонними производителями.

Конкуренты Nvidia еще не представили все свои результаты, поэтому график, опубликованный Nvidia, не содержит некоторых результатов. Тем не менее, мы можем почерпнуть некоторую интересную информацию из графика, опубликованного компанией Nvidia (но помните, что Nvidia является заинтересованным лицом, поэтому все следует воспринимать с щепоткой соли).

Учитывая, что H100 от Nvidia является самым сложным и передовым ускорителем AI/ML, опирающимся на сложнейшее программное обеспечение, оптимизированное для архитектуры CUDA от Nvidia, неудивительно, что в настоящее время это самый быстрый GPU для вычислений, в 4,5 раза быстрее, чем A100 от Nvidia.

Однако BR104 от Biren Technology, производительность которого примерно в два раза ниже, чем у флагманского BR100, показывает большие перспективы в классификации изображений (ResNet-50) и обработке естественного языка (BERT-Large). Если BR100 будет в два раза быстрее BR104, то он даже превзойдет H100 от Nvidia в задачах классификации изображений, по крайней мере, с точки зрения производительности на один ускоритель.

X220-Enterprise от Sapeon и Cloud AI 100 от Qualcomm даже не сравнимы с A100 от Nvidia, который был выпущен около двух лет назад. Масштабируемый процессор Intel Xeon 4-го поколения, “Sapphire Rapids”, может выполнять рабочие нагрузки AI/ML, но не похоже, что код был достаточно оптимизирован для этого процессора, поэтому результаты довольно низкие.

Nvidia ожидает, что со временем процессор H100 будет еще лучше справляться с рабочими нагрузками AI/ML, увеличивая разрыв с процессором A100 по мере того, как инженеры научатся использовать новую архитектуру.

Пока неясно, насколько со временем улучшится производительность таких ускорителей вычислений, как BR100/BR104 от Biren, X220-Enterprise от Sapeon и Cloud AI 100 от Qualcomm. Реальным конкурентом H100 от Nvidia станет вычислительный GPU от Intel под кодовым названием Ponte Vecchio, который предназначен как для суперкомпьютеров, так и для приложений AI/ML. Также будет интересно проверить в MLPerf производительность Instinct MI250 от AMD – который, вероятно, будет оптимизирован в первую очередь для суперкомпьютеров. Но пока, по крайней мере, Nvidia удерживает корону производительности AI/ML.

Popular