Компания Amazon Web Services (AWS) на днях объявила об общедоступности инстансов Amazon Elastic Compute Cloud (Amazon EC2) P4d на базе GPU Nvidia. Напомним, под инстансом понимают экземпляр виртуальной машины, запущенный в облаке, предоставляющем сервис «инфраструктура как услуга» (IaaS), который реализует такую модель обслуживания в облачных вычислениях, когда пользователю предоставляются некий типовой ресурс с конкретными возможностями. По оценке AWS, инстансы P4d обеспечивают в 3 раза более высокую производительность и предоставляют в 2,5 раза больше памяти графического процессора для машинного обучения и суперкомпьютерных рабочих нагрузок по сравнению с инстансами P3 предыдущего поколения. И все это — при меньшей стоимости (в зависимости от конфигурации и тарифного плана экономия может доходить до 60%).
Экземпляр P4d обеспечивает доступ к восьми графическим процессорами Nvidia A100 Tensor Core и сети с пропускной способностью 400 Гбит/с (в 16 раз больше, чем у P3). Используя AWS Elastic Fabric (EFA) и Nvidia GPUDirect RDMA (удаленный прямой доступ к памяти), заказчики могут объединять экземпляры P4d в кластеры EC2 UltraClusters. Это позволяет получить доступ к производительности суперкомпьютерного класса, масштабируя инстансы P4d более чем до 4000 графических процессоров A100 (вдвое больше, чем у любого другого поставщика облачных услуг) за счет использования неблокирующей сетевой инфраструктуры петабитного масштаба, разработанной AWS и интегрированной с высокопроизводительным хранилищем Amazon FSx for Lustre.
Повышенная производительность P4d ускоряет обучение моделей машинного обучения, а дополнительная память графического процессора помогает клиентам обучать более крупные и сложные модели. Клиенты могут запускать на инстансах P4d контейнерные приложения с помощью AWS Deep Learning Containers с библиотеками для Amazon Elastic Kubernetes Service (Amazon EKS) или Amazon Elastic Container Service (Amazon ECS). Для более полного управления клиенты могут использовать инстансы P4d через Amazon SageMaker, предоставляя разработчикам и специалистам по обработке данных возможность быстро создавать, обучать и развертывать модели машинного обучения. В P4d есть поддержка всех основных инфраструктур машинного обучения, включая TensorFlow, PyTorch и Apache MXNet, что дает клиентам гибкость в выборе среды, которая лучше всего подходит для конкретного приложения.