본문 바로가기
AI Server

GIGABYTE G494-SB1-AAP2 실사용 후기 | H200 NVL 8장 AI 서버, 직접 써보니

by UpDream- 2026. 3. 4.

이 글은 AI 서버를 직접 설치하고 운영하는 인프라 엔지니어, MLOps 담당자, 시스템 관리자 관점에서 작성했습니다.


왜 이 서버를 선택했나

사내 LLM 파인튜닝 환경을 클라우드에서 온프레미스로 전환하면서 GPU 서버를 직접 검토하게 됐습니다. 조건은 단순했습니다. H200 NVL을 최대한 많이 꽂을 수 있고, PCIe 대역폭이 병목이 되지 않아야 하며, 4U 안에 모든 걸 해결할 것.

GIGABYTE G494-SB1-AAP2가 그 조건에 맞았습니다.

 

 

 


랙에 올리기 전에 알았으면 좋았을 것들

무게부터 각오해야 합니다

GPU 8장이 들어가는 4U 서버입니다. H200 NVL 8장만 해도 상당한 무게인데, 섀시와 PSU까지 합치면 혼자 랙에 올리는 건 무리입니다. 최소 2인 1조로 작업하세요. 레일킷은 기본 패키지에 L-shape 타입이 포함되어 있습니다.

C19 전원 코드, 미리 준비하세요

전원 코드가 기본 패키지에 포함되지 않습니다. PSU가 C19 규격이라 일반 C13/C14 케이블은 맞지 않습니다. PDU 소켓이 C20인지 사전에 확인하고 코드를 미리 준비해두지 않으면 설치 당일에 낭패를 봅니다. 경험담입니다.

600W GPU 구성이라면 팬킷은 필수

기본 팬 구성으로 H200 NVL 8장을 풀로드로 돌리면 온도 경고가 뜹니다. *8080 팬킷(P/N: 6NG494ZBXK002AFN001)은 선택이 아니라 필수**입니다. 서버 발주할 때 같이 주문하세요. 나중에 따로 구하려면 시간이 걸립니다.


설치하면서 확인한 것들

GPU 슬롯 구조

후면 슬롯이 10개인데, 이 중 **8개가 GPU 전용(FHFL PCIe Gen5 x16)**입니다. 나머지 2개(FHHL)는 전면에 있어서 네트워크 카드나 스토리지 카드 용도로 씁니다. GPU 8장 다 꽂으면 추가 PCIe 카드 자리가 넉넉하지 않으니, 네트워크 구성을 미리 계획해두는 게 좋습니다.

NVLink 브릿지 연결 순서가 있습니다

H200 NVL 8장은 4+4로 두 그룹이 나뉘어 각각 4-way NVLink 브릿지로 연결됩니다.

GPU 0~3  →  NVLink 브릿지 Set #1
GPU 4~7  →  NVLink 브릿지 Set #2

브릿지 연결 방향과 슬롯 순서가 맞지 않으면 nvidia-smi topo 결과가 이상하게 나옵니다. 매뉴얼의 GPU 배치도를 보고 설치 순서를 지키세요.

SATA / SAS 쓰려면 카드가 필요합니다

스토리지 베이가 12개나 되는데, NVMe만 카드 없이 바로 쓸 수 있습니다. SATA나 SAS 드라이브를 쓰려면 PCIe 슬롯에 스토리지 카드(HBA 또는 RAID 카드)를 먼저 꽂아야 합니다. 기존 서버에서 SAS HDD를 옮겨올 계획이라면 카드를 미리 준비해두세요.


실제 운영하면서 느낀 점

NVLink의 체감 차이는 실제로 큽니다

같은 H200이라도 NVLink 없이 PCIe만으로 GPU 간 통신을 하는 구성과 비교하면, 텐서 병렬화 적용 시 체감 차이가 납니다. 그룹 내 4장은 NVLink로 약 3.6 TB/s 대역폭으로 통신하고, 그룹 간은 PCIe를 통하므로 워크로드 분배 시 NVLink 그룹을 의식해서 설정하는 게 중요합니다.

nvidia-smi topo -m 명령어로 현재 연결 상태를 꼭 확인하세요.

$ nvidia-smi topo -m

NVLink로 연결된 GPU끼리는 NV4, PCIe로 연결된 GPU끼리는 PIX 또는 SYS로 표시됩니다.

메모리 구성은 CPU 선택과 세트로 생각해야 합니다

DDR5 RDIMM이면 최대 6,400 MT/s, MRDIMM이면 최대 8,000 MT/s입니다. 단, MRDIMM은 Intel Xeon 6 P-core 계열 CPU + 채널당 1개(1DPC) 구성일 때만 동작합니다. CPU를 E-core 계열로 골랐다면 MRDIMM을 꽂아도 인식이 안 되거나 하위 속도로 동작하니 주의하세요.

팬 소음은 각오해야 합니다

GPU 서버 특성상 풀로드 시 소음이 상당합니다. 사무실이나 일반 서버룸에 설치한다면 방음 처리나 별도 공간 분리가 필요합니다. 데이터센터 코로케이션 환경이라면 크게 신경 쓸 필요는 없습니다.

BMC 관리 인터페이스는 편합니다

ASPEED AST2600 기반 BMC에 GIGABYTE Management Console 웹 인터페이스가 올라갑니다. 원격으로 전원 제어, 온도 모니터링, iKVM 접속까지 웹 브라우저에서 가능합니다. GPU 온도와 팬 RPM을 실시간으로 보면서 냉각 상태를 확인할 수 있어서 운영 편의성이 좋습니다.


AI 학습 환경 구성 시 참고할 점

데이터 로딩 병목을 먼저 잡으세요

H200 8장이 놀지 않으려면 데이터 공급 속도가 뒷받침돼야 합니다. Gen5 NVMe를 여러 개 묶어서 학습 데이터셋 전용으로 구성하는 게 효과적입니다. VROC 기능을 쓰면 별도 RAID 카드 없이 CPU 레벨에서 NVMe RAID를 구성할 수 있습니다.

체크포인트 저장 전략

대형 모델 학습에서 체크포인트 하나가 수백 GB를 넘기도 합니다. Gen5 NVMe 몇 개를 체크포인트 전용으로 할당해두면 저장 시간으로 인한 학습 중단을 줄일 수 있습니다. 장기 보관이 필요하다면 SAS HDD를 별도 스토리지 카드와 함께 구성하는 것도 방법입니다.

네트워크는 여유 있게 계획하세요

기본 탑재 LAN이 10GbE 2포트입니다. 멀티 노드 분산 학습을 계획한다면 노드 간 InfiniBand 또는 고속 이더넷 카드를 PCIe 슬롯에 추가해야 합니다. GPU 8장 다 채우면 슬롯이 빠듯하니 설계 단계에서 미리 고려하세요.


운영 환경 체크리스트

□ nvidia-smi topo -m 으로 NVLink 연결 상태 확인
□ MRDIMM 사용 시 dmidecode --type 17 로 메모리 속도 확인
□ BMC 웹 접속 후 팬 RPM / GPU 온도 모니터링 설정
□ VROC 사용 시 BIOS에서 VROC 키 헤더 활성화 확인
□ SATA/SAS 카드 장착 후 OS에서 드라이브 인식 여부 확인
□ C19 전원 코드 PDU 연결 및 PSU 상태 LED 확인
□ 600W GPU 구성 시 팬킷 장착 후 온도 정상 범위 확인
□ 분산 학습 시 GPU 그룹(NVLink 4+4) 단위 토폴로지 설정

정리

좋았던 점과 불편했던 점을 솔직하게 정리하면 이렇습니다.

항목 평가

PCIe Gen5 풀 대역폭 ✅ GPU-CPU 간 병목 없음
NVLink 4-way 구성 ✅ 그룹 내 텐서 병렬화 효율 우수
BMC 관리 편의성 ✅ 웹 기반 원격 관리 편리
SATA/SAS 기본 미지원 ⚠️ 스토리지 카드 추가 필요
600W GPU 팬킷 별도 구매 ⚠️ 처음부터 같이 주문해야 함
C19 전원 코드 미포함 ⚠️ 사전 준비 필요
무게 / 설치 난이도 ⚠️ 2인 이상 작업 필수
소음 ⚠️ 풀로드 시 데이터센터 수준

H200 NVL 8장을 온프레미스에서 안정적으로 운영하고 싶다면 충분히 선택할 만한 서버입니다. 다만 주변 인프라(전원, 냉각, 스토리지 카드, 팬킷)를 처음부터 함께 설계하지 않으면 설치 후 추가 작업이 생깁니다. 이 글이 그 삽질을 줄이는 데 도움이 됐으면 합니다.


본 포스팅은 GIGABYTE 공개 스펙 및 실제 운영 경험을 바탕으로 작성되었습니다. 구성 환경에 따라 실제 수치는 다를 수 있습니다.

 



  서버플레이스 | 서버 및 워크스테이션 제품 문의

  제이씨현시스템(주) 서버사업팀   T. 02-2105-9255   E. server@jchyun.com