banner

소식

Apr 07, 2023

Facebook의 확장되는 기계 학습 인프라

여기 The Next Platform에서는 주요 하이퍼스케일러가 대규모 및 점점 더 복잡한 워크로드를 지원하기 위해 인프라를 어떻게 발전시키는지 면밀히 관찰하는 경향이 있습니다.

얼마 전까지만 해도 핵심 서비스는 상대적으로 표준적인 트랜잭션 및 운영이었지만 복잡한 딥 러닝 모델에 대한 훈련 및 추론이 추가되면서(하드웨어에 대한 양손 접근 방식이 필요함) 하이퍼스케일 하드웨어 스택은 다음 단계를 가속화해야 했습니다. 대규모 머신러닝의 새로운 성능 및 효율성 요구 사항을 충족하세요.

맞춤형 하드웨어 측면에서 Google과 동일한 방식으로 혁신을 이루지는 않았지만 Facebook은 자체 데이터 센터를 미세 조정하는 데 있어 몇 가지 주목할만한 진전을 공유했습니다. 고유한 분할 네트워크 백본, 신경망 기반 시각화 시스템부터 서버 팜의 대규모 업그레이드 및 GPU 사용 연마 작업에 이르기까지 인프라 측면에서 집중할 부분이 많습니다. 우리에게 있어서 Facebook의 가장 앞선 발전 중 하나는 2017년 말 현재 20억 개 이상의 계정을 제공하는 자체 서버 설계, 특히 최신 GPU로 포장된 Open Compute 기반 접근 방식입니다.

작년 OCP Summit에서 공개된 회사의 "Big Basin" 시스템은 소셜 미디어 대기업이 2015년 12월 신경 정보 처리 시스템 컨퍼런스에서 공개한 1세대 "Big Sur" 시스템의 후속 제품입니다. 아키텍처를 자세히 살펴보면 Big Sur 시스템에는 PCI-Express 3.0 x16 슬롯에 들어가고 CUDA 애플리케이션을 재생할 수 있는 12GB의 GDDR5 프레임 버퍼 메모리가 있는 Nvidia의 Tesla M40 가속기 8개와 "Haswell" Xeon 2개가 들어 있습니다. E5 프로세서를 상당히 높은 섀시에 담았습니다. 그 이후로 최신 Nvidia Volta V100 GPU를 지원하도록 디자인이 확장되었습니다.

Facebook은 또한 Big Sur와 비교하여 최신 V100 Big Basin 플랫폼이 "7테라플롭에서 15.7테라플롭으로 증가한 GPU당 단정밀도 부동 소수점 연산 및 고대역폭 메모리( HBM2)는 900GB/s 대역폭(Big Sur의 3.1배)을 제공합니다." 엔지니어링 팀은 처리량을 더욱 향상시키기 위해 이 새로운 아키텍처를 통해 반정밀도도 두 배로 향상되었다고 지적합니다.

"Big Basin은 더 큰 산술 처리량과 12GB에서 16GB로 증가한 메모리 덕분에 30% 더 큰 모델을 훈련할 수 있습니다. 고대역폭 NVLink GPU 간 통신을 통해 분산 훈련도 향상됩니다."라고 팀은 덧붙입니다. .

Facebook은 "Big Basin"으로의 전환으로 ResNet-50의 Big Sur에 비해 처리량이 300% 향상되었으며 이러한 결과에 만족하면서도 여전히 새로운 하드웨어 설계와 기술을 평가하고 있다고 밝혔습니다.

그러나 현재로서는 기계 학습 인프라가 표준 CPU와 GPU로만 구성되어 있습니다. 비즈니스 목표의 차이를 고려할 때 대규모 딥 러닝을 위한 자체 맞춤형 ASIC을 구축하기 위해 Google 경로를 택하지 않은 것은 놀라운 일이 아니지만 Facebook은 당분간 Nvidia와 Intel을 고수하고 있다고 해도 무방합니다. 다른 하이퍼스케일러들은 AMD의 Epyc을 통해 CPU 분야에서 다각화를 모색하고 있습니다.

Facebook은 방금 발표한 현재 하드웨어 인프라에 대한 자세한 설명에서 특정 서비스에 매핑되는 8가지 주요 컴퓨팅 및 스토리지 랙 유형을 지원하는 방법을 간략하게 설명합니다.

"새로운 서비스는 자체 랙 설계를 보장할 수 있는 수준에 도달할 때까지 기존 랙 유형에 매핑되는 경향이 있습니다."라고 인프라 설계자는 두 가지 다른 서버 유형이 포함된 세 개의 슬라이드를 보유하는 2U 섀시의 아래 예를 가리키며 지적합니다. 하나는 처리량 지향 상태 비저장 워크로드인 웹 계층에 대해 지원되는 단일 소켓 CPU를 가지며 메모리와 플래시가 적은 Xeon D와 같은 저전력 CPU에서 효율적으로 실행할 수 있습니다. 다른 슬레드 옵션은 더 강력한 Broadwell 또는 Skylake 프로세서와 훨씬 더 많은 DRAM을 갖춘 더 큰 듀얼 소켓 CPU 서버로, 계산 및 메모리 사용량이 많은 워크로드를 처리합니다.

공유하다