banner

소식

Dec 24, 2023

기계 학습으로 Facebook의 재해 복구 변화 주도

하이퍼스케일러에는 서비스에 무료로 액세스할 수 있는 수십억 명의 사용자가 있지만 재미있는 점은 이러한 사용자가 비용을 지불하는 것처럼 행동하고 이러한 서비스가 변명의 여지없이 항상 사용 가능하기를 기대한다는 것입니다.

조직과 소비자 역시 자신이 지불하는 서비스를 위해 Facebook, Google, Microsoft, Amazon, Alibaba, Baidu 및 Tencent에 의존하고 있으며, 자신의 데이터가 항상 즉시 액세스 가능하고 안전하며, 서비스가 항상 사용 가능하고, 검색 결과는 쿼리가 입력된 후 항상 밀리초 단위로 표시되며, 추천 사항은 개인화됩니다. 이러한 하이퍼스케일러는 데이터와 서비스가 고객에게 가까이 있고 대기 시간이 문제가 되지 않도록 전 세계에 대규모 데이터 센터 네트워크를 구축했습니다.

이 모든 것을 고려할 때 재해 복구는 비즈니스의 중요한 부분이 됩니다. 대규모 기업은 데이터 센터가 중단되더라도 비즈니스가 평소와 같이 계속될 수 있는지 확인해야 합니다. 지리적 영역 내에 위치한 여러 가용성 영역을 사용하여 데이터 센터를 사용할 수 없는 경우 다른 데이터 센터를 통해 데이터, 서비스 및 워크로드에 액세스할 수 있도록 합니다. 140개 국가에서 Azure를 사용할 수 있도록 하는 Microsoft와 같은 하이퍼스케일러에는 장애 도메인 전체의 역할 관리부터 사용자 지역이 사용자가 Azure를 지리적으로 복제할 수 없는 경우 다른 지역으로의 사용자 트래픽 자동 장애 조치에 이르기까지 다른 재해 복구 계획도 마련되어 있습니다. 보조 지역에 대한 스토리지.

21억 명의 사용자와 캘리포니아주 산타클라라, 버지니아주 애쉬번, 스웨덴 룰레아, 덴마크 오덴세에 이르는 글로벌 데이터 센터를 보유한 Facebook의 경우 재해 복구는 운영에 중요할 뿐만 아니라 거대 소셜 네트워킹 회사에서도 중요합니다. 끊임없이 일합니다.

Facebook 엔지니어 그룹은 회사 인프라에 대한 최근 논문에서 "Facebook의 글로벌 컴퓨팅, 스토리지 및 네트워크 공간의 일부 손실을 원활하게 처리하는 능력은 Facebook 인프라의 오랜 목표였습니다."라고 썼습니다. "내부적으로 우리 재해 복구 팀은 글로벌 인프라 및 소프트웨어 스택에서 가장 취약한 링크를 식별하고 해결하기 위한 훈련을 정기적으로 수행합니다. 파괴적인 조치에는 글로벌 인프라 및 소프트웨어 스택의 손실을 확인하기 위해 사전 통지 없이 전체 데이터 센터를 오프라인으로 전환하는 것이 포함됩니다. 데이터 센터를 사용하면 비즈니스 중단이 최소화됩니다."

고가용성을 보장하는 것은 항상 운영에 중요하지만 회사 운영 내에서 인공 지능(AI)과 기계 학습의 역할이 더욱 보편화되면서 더욱 중요해졌습니다. Facebook은 뉴스피드 순위 및 검색부터 특정 사용자를 겨냥한 광고 표시, 얼굴 인식을 위한 Facer, 언어 번역, 음성 인식, 이상 탐지를 위한 Sigma와 같은 내부 작업에 이르기까지 광범위한 서비스에서 기계 학습을 활용하고 있습니다. 또한 이 회사는 심층 신경망, 로지스틱 회귀, 지원 벡터 머신을 포함한 여러 머신 러닝 모델을 사용합니다. Caffe2 및 PyTorch와 같은 딥 러닝 프레임워크와 FBLearner Feature Store, FBLearner Flow 및 FBLearner Prediction과 같은 서비스형 기계 학습 기능이 있습니다.

The Next Platform에서 언급했듯이 Facebook의 분산되고 확장 가능한 기계 학습 인프라의 대부분은 Big Basin GPU 서버와 같이 자체적으로 설계된 시스템을 기반으로 하며 훈련을 위해 Intel의 CPU와 Nvidia의 GPU에 크게 의존합니다. 그리고 추론. 논문 작성자에 따르면 Facebook 운영 전반에 걸쳐 기계 학습 기능이 성장하면서 재해 복구에 대한 중요성이 더욱 높아졌습니다.

그들은 "기계 학습의 훈련과 추론 부분 모두에서 재해 대비의 중요성을 과소평가할 수 없습니다"라고 썼습니다. "여러 주요 프로젝트를 추진하기 위한 추론의 중요성은 놀라운 일이 아니지만, 여러 주요 제품에서 측정 가능한 성능 저하를 알아차리기 전에 빈번한 교육에 대한 잠재적으로 놀라운 의존성이 있습니다."

공유하다