Производительность кластера ANT на тесте Linpack
Документ подготовлен 18 апреля 2005 г.
Здесь собраны данные по производительности 160-процессорного кластера Ant на процессорах AMD Opteron, полученные в марте-апреле 2005 года.
Содержание
- Конфигурация кластера ANT.
- Использованное программное обеспечение.
- Производительность процессора.
- Производительность кластера.
Конфигурация кластера ANT
Характеристика | Кластер ANT |
---|---|
Процессор | AMD Opteron 248 |
Тактовая частота процессора | 2200 МГц |
Процессоров на узле | 2 |
Объем памяти на узле | 4 Гбайт |
Узлов в кластере | 80 |
Коммуникационная сеть | Mellanox Infiniband Switch 84-Port |
Транспортная сеть | Gigabit Ethernet: ProCurve Switch 4160gl 100-Port |
Сервисная сеть | Fast Ethernet: HP ProCurve Switch 2524 24-Port |
Использованное программное обеспечение
Была использована общедоступная параллельная реализация теста LINPACK - HPL 1.0a, которая реализована на языке Си, причем обмены между процессорами выполняются через процедуры интерфейса MPI, а вычисления на каждом процессоре - с помощью вызовов процедур BLAS. В наших экспериментах на кластере Ant в качестве BLAS использовалась библиотека ATLAS 3.6.0, откомпилированная с использованием компилятора GCC, а в качестве реализации MPI для сети Infiniband - библиотека mvapich.
Производительность процессора
На тесте LINPACK с размером матрицы 15000x15000 была получена производительность одного процессора AMD Opteron/2.2 ГГц, равная 3.8 Gflop/s (86.4% пиковой производительности).
Производительность кластера
На кластере Ant была получена максимальная производительность равная 512 Gflop/s (72.7% пиковой производительности) при решении задачи размером 160000x160000 на всех 160 процессорах. Это примерно в 134.7 раз лучше производительности на одном процессоре Opteron/2.2 ГГц (на задаче размером 15000x15000).
Результаты тестирования кластера Ant на тесте Linpack приведены на следующем графике. Здесь самый верхний график ("пик") показывает пиковую производительность кластера, второй ("идеал") - производительность при идеальной масштабируемости, последующие графики - реальную производительность кластера при соответствующих размерах задачи.
Как изменяется производительность при увеличении размера задачи?
Чему равна эффективность использования кластера?
Графики эффективности приводятся для задачи размером 15000x15000 и для размеров задач, на которых получены максимальные значения.
Из этого графика видно, что при фиксированном размере задачи эффективность падает c увеличением числа процессоров от 1 до 128. Если же одновременно увеличивать и размер задачи, то эффективность использования кластера удается существенно увеличить и удерживать на уровне примерно 90%.