Jul 14, 2023
Meta, MIT, 기타 광학 AI 인프라에서 로봇 팔 테스트
작성자 Agam Shah 2023년 4월 19일 Meta, MIT 및 기타 기관의 연구원들은 광학 스위치와 로봇 팔을 갖춘 12개의 Nvidia GPU로 서버를 연결하여 다음과 같은 새로운 상호 연결을 고안했습니다.
작성자: 아감 샤
2023년 4월 19일
Meta, MIT 및 기타 기관의 연구원들은 광학 스위치와 로봇 팔을 갖춘 12개의 Nvidia GPU가 있는 서버를 연결하여 기계 학습에 사용할 수 있는 새로운 상호 연결을 고안했습니다. "TopoOpt"라고 불리는 패브릭은 컴퓨팅 요구 사항에 따라 즉시 네트워크 토폴로지를 생성할 수 있습니다. 이 기술은 Microsoft의 AI 슈퍼컴퓨팅의 한계를 테스트하는 ChatGPT와 같은 AI 기술의 광범위한 채택으로 인해 고성능 컴퓨터가 부담을 받고 있는 가운데 나온 것입니다.
이번 주에 개최된 네트워크 시스템 설계 및 구현에 관한 USENIX 심포지엄에서 이 기술에 관한 논문이 발표되었습니다.
TopoOpt는 알고리즘을 사용하여 처리 요구 사항, 사용 가능한 컴퓨팅 리소스, 데이터 라우팅 기술 및 네트워크 토폴로지와 같은 정보를 기반으로 가장 빠른 병렬 컴퓨팅 기술을 찾습니다. 연구원들은 또한 GPU와 다른 구성 요소 간의 통신 시간을 최소화하는 Nvidia의 AllReduce 기능을 개선했습니다.
"TopoOpt는 재구성 가능한 광학 스위치와 패치 패널을 사용하여 각 훈련 작업에 대한 전용 파티션을 생성하고 각 파티션 내에서 토폴로지 및 병렬화 전략을 공동으로 최적화합니다."라고 연구원은 썼습니다.
연구원들은 각각 A100 GPU 1개, HPE NIC 및 100Gbps Mellanox ConnectX5 NIC가 장착된 12개의 Asus ESC4000A-E10 서버를 사용하여 Meta 인프라 내에서 TopoOpt를 테스트했습니다. NIC에는 브레이크아웃 광섬유가 있는 광트랜시버가 있었습니다.
"TopoOpt는 ML 워크로드에 대한 토폴로지 및 병렬화 전략을 공동 최적화하는 최초의 시스템이며 현재 Meta에서 배포를 위해 평가 중입니다."라고 연구원은 말했습니다.
이 설정은 또한 "송신 측의 광섬유를 잡고 이를 수신 측의 광섬유에 연결하는 로봇 팔"을 사용하여 네트워크를 재구성하는 Teleescent의 패치 패널을 사용한다고 신문은 밝혔습니다. 소프트웨어로 제어되는 로봇 팔은 위아래로 움직여 시스템의 어느 곳에서나 전송 광섬유와 수신기 광섬유를 연결합니다. 이는 네트워크를 신속하게 재구성하는 데 필요한 유연성과 탄력성을 제공합니다. 패치 패널은 이미 상업용 응용 분야에서 널리 사용되고 있지만 현재는 데이터 센터에서도 사용하도록 제안되고 있습니다.
Google은 최근 광학 회로 스위치가 있는 AI 슈퍼컴퓨터를 사용하여 TPU v4 칩의 훈련 속도를 향상시키면서 전력 소비를 낮추는 방법을 자세히 설명하는 논문을 발표했습니다. Google 설정의 광학 회로 스위칭(OCS)은 로봇 팔만큼 이동성이 없지만 거울을 사용하여 입력 및 출력 광섬유 사이를 전환합니다. Google 설정은 또한 4,096개의 TPU에 대규모로 배포되는 더 큰 테스트 베드였습니다.
연구원들은 Google 스타일의 광 스위치가 "5배 더 비싸고" 더 적은 수의 포트를 지원한다는 점에서 패치 패널을 선택했습니다. 동시에 연구원들은 Google에서 사용되는 것과 같은 OCS 기술이 대규모 배포를 위한 것이라고 말했습니다. 연구원들은 “OCS의 가장 큰 장점은 재구성 대기 시간이 패치 패널보다 4배 더 빠르다는 것입니다.”라고 썼습니다.
TopoOpt는 컴퓨팅 및 네트워크 요구 사항을 사전 프로비저닝하고 서버가 준비되고 작업을 배포할 준비가 되면 바로 사용할 수 있습니다. 연구원들은 "우리는 작업 도착 순서와 각 작업에 필요한 서버 수를 이미 알고 있습니다."라고 썼으며 "이 설계를 통해 각 서버는 두 개의 독립적인 토폴로지에 참여할 수 있습니다."라고 덧붙였습니다.
연구원들은 TopoOpt가 네트워킹 백본이 인프라의 중심이고 코어 네트워킹 백엔드를 연결하는 여러 계층의 정적 스위치에 데이터를 처리하는 "팻 트리"라는 또 다른 기술보다 3.4배 더 빠른 훈련 반복 시간을 제공한다고 결론지었습니다. 하드웨어부터 프런트 엔드 서버까지. 그 기술은 오늘날 널리 사용됩니다.
데이터센터에서 광 네트워킹을 사용하는 것은 새로운 개념이며, 연구자들은 AI 네트워킹 인프라를 구축하는 저렴한 방법으로 로봇 팔과 새로운 통신 프로토콜을 도입하고 있습니다. 이 기술의 실행 가능성은 Meta에서 테스트 중입니다.