인텔 데모 8

블로그

홈페이지홈페이지 / 블로그 / 인텔 데모 8

Jun 14, 2023

인텔 데모 8

7nm 칩에는 코어당 66개의 스레드가 있으며 1TB/s의 광학 I/O를 푸시합니다. Intel은 Hot Chips 2023 칩 컨퍼런스에서 최초의 직접 메시-투 메시 포토닉 패브릭을 공개하며 다음 단계를 향한 진전을 강조했습니다.

7nm 칩에는 코어당 66개의 스레드가 있으며 1TB/s의 광학 I/O를 푸시합니다.

Intel은 Hot Chips 2023 칩 컨퍼런스에서 최초의 직접 메시-투-메시 포토닉 패브릭을 공개하여 Nvidia 및 Ayar Labs 등이 옹호하는 광학 칩-칩 상호 연결의 미래를 향한 진전을 강조했습니다. 그러나 인텔이 시연에 사용한 8코어 528스레드 칩은 최대 1TB/s의 데이터 처리량을 지원하기 위해 코어당 66스레드를 지원하는 독특한 아키텍처로 인해 주목을 받았습니다. 놀랍게도 이 칩은 75W의 전력만 소비하며 전력의 최대 60%는 광학 상호 연결에 사용되지만 이 설계를 통해 결국 200만 개의 코어가 있는 시스템을 400ns 미만의 대기 시간으로 직접 연결할 수 있습니다.

Intel의 PUMA(Programmable Unified Memory Architecture) 칩은 초희소 워크로드에서 와트당 성능을 1000배 향상시키기 위해 페타바이트 규모 그래프 분석 작업의 성능 향상에 중점을 두는 DARPA HIVE 프로그램의 일부입니다.

놀랍게도 Intel과 같은 x86 중심 회사의 경우 테스트 칩은 그래프 분석 워크로드의 성능을 간소화하기 위해 맞춤형 RISC 아키텍처를 활용하여 단일 스레드 성능을 8배 향상시킵니다. 이 칩은 또한 Intel 자체 내부 노드가 아닌 TSMC의 7nm 프로세스를 사용하여 생성됩니다.

Intel은 대상 워크로드를 특성화한 후 워크로드로 인해 생성된 메모리 하위 시스템, 딥 파이프라인, 분기 예측기 및 비순차적 논리에 대한 극심한 스트레스와 관련된 문제를 해결하는 아키텍처를 제작해야 한다는 결론을 내렸습니다.

Intel의 맞춤형 코어는 8개의 코어 각각에 대해 66개의 하드웨어 스레드, 대형 L1 명령 및 데이터 캐시, 코어당 4MB의 스크래치패드 SRAM을 조정하는 극도의 병렬성을 사용합니다. 8코어 칩에는 각각 32GB/s/dir로 작동하는 32개의 광학 I/O 포트가 있어 총 대역폭은 1TB/s입니다. 칩은 8소켓 OCP 서버 슬레드에 들어가 시스템에 대해 최대 16TB/s의 총 광학 처리량을 제공하며 각 칩에는 32GB의 맞춤형 DDR5-4000 DRAM이 공급됩니다.

인텔은 316mm^2 다이에 걸쳐 276억 개의 트랜지스터를 사용하여 TSMC의 7nm 공정에서 칩을 제조했습니다. 12억 개의 트랜지스터를 소비하는 8개의 코어는 다이 중앙을 따라 뻗어 있으며, 그 옆에는 8바이트 액세스 세분화를 갖춘 8개의 맞춤형 메모리 컨트롤러가 있습니다. 통신 라우터는 칩의 '빈' 중앙을 채웁니다. 이 칩은 또한 내부 전기 신호를 외부 광 상호 연결에 연결하는 4개의 고속 8채널 광 I/O 칩렛(다이 상단과 하단에 각각 2개씩)을 갖추고 있습니다. . 이 장치는 Intel의 EMIB 패키징을 통해 연결되며 AIB 프로토콜을 사용합니다. 이 칩에는 호스트 시스템과 통신하기 위한 PCIe 4.0 x8 연결도 있습니다.

528개의 스레드에서 생성된 엄청난 양의 데이터를 다이 주위로 이동하려면 최적화된 상호 연결이 필요하므로 인텔은 코어, 메모리 컨트롤러 및 실리콘 포토닉스 상호 연결 간에 데이터를 섞기 위해 16개의 라우터가 있는 2D 다이 내 메시를 설계했습니다. CPU 코어는 6개 라우터는 전적으로 데이터 이동에만 사용됩니다.

위 앨범에서 볼 수 있듯이 포토닉스 커넥터는 칩 패키지에 통합되어 있으며 다른 칩에 외부 연결하기 위해 칩 측면에 걸려 있습니다. 칩은 개별 처리 코어에 대한 전체 연결을 제공하는 외부 'HyperX' 광 네트워크에 연결됩니다. 이 놀라운 네트워크를 통해 최대 200만 개의 코어를 400ns 미만의 대기 시간으로 직접 연결할 수 있습니다.

최종 결과는 인상적입니다. 칩은 단 75W를 소비하며 예산의 59%는 실리콘 포토닉스에 할당되고 21%는 코어에 할당됩니다. Intel은 광 네트워크의 향상된 성능을 통해 1개에서 1000개 코어까지 거의 완벽한 선형 성능 확장이 가능하다고 주장합니다.

업계에서는 기존 칩 간 통신 기술에 비해 우수한 대역폭, 대기 시간 및 전력 소비 특성을 제공하는 미래의 데이터 전송 방법을 모색하면서 광학 상호 연결의 가능성으로 인해 집중적인 연구에 박차를 가하고 있습니다. 광학 칩 상호 연결의 주류 배포가 계속 진행되고 있지만 Intel, Nvidia 및 Ayar Labs가 옹호하는 것과 같은 특수 구현은 가까운 미래에 대규모 배포를 위한 준비가 거의 완료되었습니다.