생활 유용 정보

엔비디아, HPC(슈퍼컴퓨팅)을 위한 가속기 테슬라 P100 발표(30배 가속)

혼새미로 2016. 6. 27. 16:55
반응형

엔비디아는 최근 출시된 "파스칼" GP100을 머신러닝 시스템과 같은 기존 HPC 작업을 처리하기 위해 성능의 극한까지 사용하는 슈퍼컴퓨터 분야에서도 적용되길 원한다.

이것을 이루기 위해, 엔비디아는 파스칼 GPU를 다른 시스템 폼으로 이루어진 다수의 디바이스에 넣길 원하고, 여러 판매가를 통해 다양한 스펙으로 제공하고자 한다.

독일의 프랑크프루트에서 열린 국제 슈퍼컴퓨팅 컨퍼런스에서 엔비디아는 표준 PCI-Express 슬롯을 사용하여 시스템으로 연결한 파스칼 GPU 계열의 새로운 테슬라 가속기 2개에 대한 베일을 벗었다. 이 제품은 NVLink를 지원하지 않는다.

HPC 클러스터가 테슬라 P100을 통해 딥러닝에 필요한 작업을 수행하는 것이 목적이다.

P100 카드는 NVLink를 지원하는 버전과 따로 이름을 분리하지 않는다.

P100 카드의 PCI-Express 버전은 약간 낮은 클럭 스피드로 작동하며, 이에 따라 낮은 성능을 보이지만 발열이 적다.


파스칼 계열 테슬라 카드의 PCI 버전은 또한 낮은 가격으로 제공되며, 이에 따라 NVLink는 필요없지만 부동소수점 연산의 성능을 높이고 싶은 소비자에게 매력적일 수 있다.(가격 대비 전력 소모, 계산 성능이 좋음)

가격은 성능보다 더 빠르게 떨어지고 있으며, 이는 P100 카드의 PCI-Express용 버전은 현재 테슬라 라인업에서 가장 돈을 효과적으로 사용할 수 있는 제품이 될 것이다. - 적어도 가격면에서는 말이다.


엔비디아가 가까운 시일 내에 "케플러"와 "맥스웰" 계열의 테슬라 가속기 제품도 판매할 것이라 말한 것을 보면, 이는 파스칼 계열 제품이 내년초까지 원활한 공급이 어려울 것이라는 것을 알 수 있다.

왜냐하면 파스칼 계열 제품은 당연하게도 느려지기 때문이다 - 새로운 제조 공정과 패키징 기술이 사용된 복잡한 제품이다 - 이는 파스칼이 이전 테슬라 카드의 가격 저하를 가속화하지는 않는다는 의미가 된다

그러나, 이와 동시에, 인텔은 제온 파이 프로세서인 "나이츠 랜딩"의 생산을 증가시키기 시작했고, 이는 결과적으로 PCI 기반의 가속기 시장에 진입하는 것을 의미한다. 그리고 이 경쟁은 엔비디아에게 적잖은 압박으로 이어지므로, 기업은 인텔의 제품이 대규모 병렬 작업을 위한 제품의 대안으로 나오는 것을 원하지 않는다. 

테슬라 시장은 빠르게 증가하고 있고, 엔비디아의 사업에 가장 많은 수익을 내고 있다. 따라서, 우리가 말한 수 있는 것은 소비자로부터의 요구에 대응하여 세 개의 제품의 공급 사이의 적절한 균형을 유지하여 경쟁력을 갖는 것이다.

이 압박은 나이츠 랜딩 칩이 대규모로 시장에 진입했기 때문이고, 이는 인텔이 단일 패키지에 FPGA 가속기와 브로드웰 계열 제온 코어를 혼합한 하이브리드 테온 칩을 꺼낼 때 장기화 될 것이다.

소비자에게 가장 좋은 점은 옵션이 생기는 것이고, 가격 대비 좋은 성능의 제품을 선택할 수 있다는 것이다


연산과 속도


테슬라 계열에서 새로운 두 가지 PCI-Express 가속기 카드에서 사용된 파스칼 GP100의 변형 제품은 GPU 테크놀로지 컨퍼런스에서 4월에 발표한, NVLink를 지원하는 P100의 버전과 같은 수의 코어를 갖는다.

파스칼 GP100 GPU는 60개의 스트리밍 멀티프로세서를 갖고, 칩 수익을 이유로, 오직 이 중 56개만 작업을 위해 사용된다.

GP100은 반정도, 단정도 부동소수점을 위해 3,584개의 CUDA 코어를 갖는다. 그리고 배정도(double-precision)을 지원하기 위해 그들 옆에 1,792개의 FP64의 64비트 부동 소수점 유닛이 존재한다.

NVLink가 가능한 카드에서 사용된 GP100은 GPU 부스트 속도로 1.48GHz를 갖는 1.33GHz에서 작동하며, 최대 성능으로 배정도에서 5.3 테라플롭스, 단정도에서 10.6 테라플롭스, 그리고 반정도에서 21.2 테라플롭스를 갖는다.

(반정도는 딥러닝, 신호 처리 등에서 유용하다)


파스칼 계열의 PCI-Express 변형 제품인 P100 테슬라 카드는 다른 그래픽 카드 또는 가속기처럼 x16 슬롯에 꽂는다. 

그리고 엔비디아의 가속화 계산의 부사장인 이안 벅은 파스칼 가속기의 PCI 버전인 차세대 플랫폼은 최상위 제품인 케플러 K80 가속기를 지원하는 어떤 시스템에도 사용될 수 있도록 설계되었다. 케플러 K80 가속기는 두 개의 케플러 GK210B GPU가 단일 카드에 들어있고, 맥스웰 M40은 하나의 GM200 GPU가 카드에 포함되어 있다.

K80카드는 300와트를 소비하고, M40은 250와트를 소비한다.

흥미롭게도, K80은 괜찮은 배정도 성능을 갖지만 FP16의 16비트 반정도 산술 연산이 지원되지 않는다. 이는 가끔씩 딥러닝에서 필요한 연산이다

M40은 약간의 배정도를 지원(차이는 별로 없음)하고, FP16은 마찬가지로 지원하지 않는다.



파스칼 GPU는 또한 파스칼에서 새로운 기능인 페이지 이동 엔진을 포함한다. 이는 프로그래머가 각 요소를 수동으로 동기화해줄 필요 없이 시스템 노드에서 CPU와 GPU가 스스로 통합 메모리 일관성을 유지해주는 페이지 폴트 메카니즘이다.

이 페이지 이동 엔진은 PCI-Express와 NVLink 연결을 통해 작동된다.


P100의 PCI-Express 버전은 많은 소비자에게 최고의 선택이 될 것이며, 특히 작업의 다양성이 존재하고, 애플리케이션이 노드의 확장이 크게 필요하지 않을 경우 적절하다.

기존 HPC 또는 딥러닝 부분과 관련된 조직은 가속기를 선택하기 쉬울 것이며, 제한된 K80 또는 M40 대신 P100과 같은 범용 GPU를 사용할 수 있다.


엔비디아는 SM의 수를 아마 줄일 수 있고, 이에 따라 CUDA 코더와 FP64 코어는 차별화된 제품을 위해 파스칼 계열의 테슬라 카드의 PCI-Express 버전에서 제공될 수 있다. 그러나 굳이 이렇게까지 하지 않아도 충분히 수익을 얻을 것 같아 보인다.

사실, 시간이 지나면 엔비디아가 60개의 SM을 모두 사용할 것이고, 7퍼센트 이상의 성능 향상을 가져오며, 이와 함께 열 상승을 감내할 수 있는 개선안을 제공할 것이라고 기대한다.


우리는 4월에 엔비디아가 P80이라 부리는 파스칼 계열의 테슬라 카드를 선보일 수 있다고 추측한다. P80은 오리지날 파스칼 계열 테슬라 P100 카드에서 사용된 스택 메모리인 HBM2 대신에 GDDR5 메모리를 사용하였을 것이다.

그러나 이 추측은 틀렸으며, 엔비디아가 발표한 PCI-Express 버전의 파스칼 카드는 12GB의 HBM2 메모리를 탑재하였고, 540GB/s의 메모리 대역폭을 지원한다.

왜 250와트로 작동하는 16GB를 사용하지 않았는지는 확실하지 않지만, 12GB가 16GB보다 더 발열이 적을거라 생각한다.

얇은 카드에서의 대역폭은 초당 720GB의 대역폭을 갖고, 16GB의 HBM2 메모리를 갖는 최상위 파스칼 카드에서 만큼 높지는 않지만, 테슬라 M40에서 전송하는 288GB/s의 메모리 대역폭 보다는 크게 높으며, M40은 알고리즘 데이터를 저장하기 위해 24GB의 GDDR5 프레임 버퍼 메모리를 갖으며, 또한 듀얼 GPU K80 카드 상에서 GPU 당 240GB/s보다 높은 성능을 갖는다.  K80은 카드안에서 GPU 당 12GB의 GDDR5 메모리를 갖는다.

아래 표는 과거 테슬라 카드의 3개의 세대에 대한 정보를 나타낸다.


 


적절한 테슬라 가속기를 고르는 것은 정말로 까다롭다.


(중간 부분은 가격 비교라 생략)


한편, 당신은 노드 내부에서 NVLink를 사용하지 않고 확장할 수 있다. 그리고 엔비디아는 인텔 제온 CPU와 K80 가속기 쌍에 대하여 어떻게 PCI-Express P100들을 여러 개 사용하는지 보였다.

아래의 차트를 보면, 스케일링 팩터는 애플리케이션에 의존하는 것을 볼 수 있다.


 


(뒷 부분은 벤치마크 분석 내용이므로 생략합니다.)


자세한 사항은 아래의 링크를 참조하시기 바랍니다.

http://www.nextplatform.com/2016/06/20/nvidia-rounds-pascal-tesla-accelerator-lineup/ 







반응형