테슬라 AI데이에서 나온 D1칩 성능은 어느 정도일까

최근 테슬라 AI데이가 있었다. 엔비디아와 아크 인베스트에서 일했고, 현재는 블록체인 사업 중인 James Wang은 테슬라 ai데이를 두고 2007년 스티브 잡스의 아이폰 프레젠테이션 이후 가장 위대한 기술 프레젠테이션이라고 평가함. 무엇이 이들을 이렇게 열광시켰는지 알아보자.

테슬라 D1칩

전기차를 만들던 회사가 AI칩을 만들고, 그 플랫폼을 개발 중이기에 사람들의 관심이 쏠렸다. D1 칩을 소개한 Ganesh Venkataramanan은 테슬라 반도체를 담당하며, '도조 프로젝트'의 책임자임. 현재 테슬라에서 근무한 지 5년이 지났으며, 이전 커리어로는 AMD에서 15년간 CPU 설계팀을 이끌었음.

테슬라가 내 놓은 D1 칩은 머신러닝에만 사용되는 칩으로 슈퍼컴퓨터 도조의 가장 기본이 되는 칩임. 같은 7 나노 공정 칩들과 비교해보면, 타사의 머신러닝 칩들의 다이 크기보다 훨씬 작음.

		칩 다이 크기
테슬라	D1	645㎟
엔비디아	A100	826㎟
그래프코어	GC2	823㎟
삼바노바	SN10	708㎟

인공지능 훈련에는 최소 수천 개의 칩들이 필요하기에 이는 커다란 효율성의 차이를 보여줄 것이다. 현시점에서 D1 칩과 비교할만한 것은 엔비디아의 A100 80GB SXM 모델과 AMD임.

	테슬라 D1	엔비디아 A100	AMD 라데온 MI100
연산력 (FP32기준(TFLOPs)	22.6	19.5	23.1
On-Chip 대역폭	10TBps	2.039TBps	1.228TBps
다이 사이즈 (㎟)	645	826	750
전력소모량	400W	400W	300W

먼저 엔비디아와 직접 비교해보면, 연산력은 엔비디아의 a100 보다 15.8% 높았고, D1의 On-Chip 대역폭은 5배나 빨라 초당 처리할 수 있는 데이터량이 A100의 5배에 달한다. 칩의 다이 사이즈는 21.9% 더 작음. 엔비디아의 A100보다 연산력과 사이즈에서 우세하며, 특히 대역폭에서는 속도 차이가 압도적이다.

이제 AMD의 라데온 MI100과 비교해보자. 연산력과 전력소모량은 AMD가 테슬라의 D1보다 좋으나 On-Chip 대역폭은 거의 10배가 차이나며, 다이 사이즈도 테슬라의 D1 칩이 16.2% 작다.

테슬라의 도조는 초당 처리할 수 있는 데이터의 양을 늘리기 위해 대역폭 속도를 끌어올리기에 집중한 것으로 보임. 이번 D1 칩의 핵심은 전력 소모 효율이 타사보다 1.3배 높다는 점이다. 결국 연산력은 어떤 칩을 쓰더라도 그 수를 늘리면, 지속적으로 키울 수 있기에 가장 핵심은 전력 소모량, 가격, 효율적인 냉각 시스템의 여부인데,

같은 비용이라면, 4배의 연산력을 보여준다는 것을 보아 테슬라는 칩의 가격을 낮추는데 자신 있어 보인다. 테슬라는 D1 칩 25개를 하나로 묶어 하나의 타일로 만든다. 칩 하나당 400w를 사용하기에 하나의 타일은 10kw의 전력을 소모함. 그리고 타일마다 15kw 쿨러를 장착해 냉각시키는 방식을 채택함.

기본 단위마다 쿨러를 장착해 효율적인 열 관리가 가능해짐. 테슬라는 이에 대해 다른 추가적인 쿨링 수단이 필요 없을 정도로 모듈에 설치된 이 쿨러만으로 충분하다고 언급했다.

같은 비용으로 비교하는 것은 실제 생산시 가격이 예상만큼 낮아질지 논쟁의 여지가 있기에 조금 더 지켜봐야 할 부분이지만, 전력 소모가 적고, 쿨링이 훈련 타일마다 여유롭게 장착된 것은 탄탄하고, 정교한 테슬라의 칩 설계 능력을 알 수 있는 대목이었다.

테슬라의 인공지능

위와 같이 놀라운 칩 설계능력이 있다면, AI 트레이닝에서의 우위만 얻는 것이 아닌 다양한 사업 기회가 열린다. 또 구글이 2021년 6월 발표한 인공지능을 학습시켜 ASIC 칩을 설게 한 것처럼 테슬라 역시 범용 AI를 ASIC 칩 설계에 사용할 가능성도 있다.

컴퓨터 칩은 수십개의 블록으로 나뉘며, 이 블록들은 메모리, 연산장치, 논리게이트를 포함하는 셀 등으로 구성되어 있음. 구글팀은 칩 설계하는 데 있어 강화 학습을 도입하면, 인간 개발자가 수 주에 걸리는 개발 시간이 6시간으로 줄어든다고 발표했음.

즉, 과거의 칩 설계 경험은 새로운 칩을 설계하는 데에 양분이 되어 더 빠르고, 효율적으로 배치하게 도와줌. 파괴적 기술에 중점적으로 투자하는 벤처 캐피탈 회사를 설립했고, 현재는 스페이스 X와 테슬라의 이사직에 있는 Steve Jurvetson은 $1당 연산 수를 기준으로 무어의 법칙이 여전히 지켜지고 있으며,

그 최전선에는 테슬라 D1칩이 있다고 언급함. 인텔, 엔비디아, AMD가 아닌 전기차 회사 테슬라가 이 계보를 잇는 걸 보니 참으로 놀라움.

정리하자면, 테슬라는 연산력과 전력효율에서 선두업체와 견줄만한 머신러닝 칩을 설계했다. On/Off-Chip 대역폭은 타사보다 월등히 빠르고, 다이 사이즈가 가장 작으며, 모듈 단위별로 쿨링이 충분해 연산력을 키우기 위한 작업에도 굉장히 유리하다는 점 등을 고려하면, 테슬라 ai데이의 발표는 인공지능 기업의 시작에 걸맞은 것이었다.