물  품  규  격  서

순 번

품   명

단 위

수 량

비   고

1

국문

GPU Watercooling System

EA

1

상당품

영문

-


1. 물품의 구성

-  Water Cooling Cluster Node

-  Parallel GPUs 2EA

-  System Water Cooling Parts


2. 장비의 성능

-  System의 냉각 방식은 수냉 쿨링 방식이여야 한다. (All parts that are overheating)

-  Deep- learning Full load 운전 시 냉방시설이 없는 내부에서도 Nvidia- Smi로 측정하였을 때 각각의 GPU 온도가 섭씨 60℃ 미만으로 7일 이상 유지되어야 하며 45dB 이하(FAN RPM 2000 이하로 구동)의 소음으로 구동되어야 한다.

-  365일 24시간 모니터링, 장애 발생 시 시스템의 정보를 원격으로 전송할 수 있는 Report 기능을 제공해야 한다. (글로벌 모니터링 및 유지보수 기능 지원)

-  해당 구매건의 GPU는 2장이지만, 추후 확장성을 고려하여 GPU 8장까지 확장 가능해야한다. (8장 장착 시 PCIe x 16으로 동작.)



2. 장비의 규격

품목

품명

수량

CPU

20 core, 40 thread, Max 4.0GHz, Base 2.1GHz

1

GPU

6,912 CUDA core, 432 Tensor core, 80GB GPU Memory

(추후 MAX 8GPU Install 가능하도록 GPU Install Kit 포함)

2

RAM

DDR4 64GB (PC4- 25600) 3.2GHz Clock

2

POWER

750W (이중화 및 핫스왑 가능)

1

Cooling

System

Water Cooling System -  All parts that are overheating

(System 온도를 낮추기 위한 설계 필요, 소음 45dB 이하)

1

Management

-  원격 H/W 관리, 전원 ON/OFF 기능 제공, 상태 모니터링

-  Command level interface 형태 & GUI -  IPMItool 을 이용한 기능 제공

-  IPMI 원격관리 기능 제공 (BMC 호환) -  OpenIPMI 사용 가능

-  Open IPMI version 2.0 이상을 지원하는 Hardware Platform

-  Serial Over LAN 기능 사용 가능 (Remote Access Console) -  운영 중 ROM BIOS 설정 변경 기능 제공

-  IPMI 또는 ILO 이용해서 변경하는 것은 아닌 Linux OS (Ubuntu 20.04) 

상에서 Local CLI 명령을 통한 변경 기능 제공

-  통합 관리 툴 제공 (Online Web Management Tool Interface) -  실시간 CPU, Fan, Power, Memory, System Temperature 모니터링 및 

관리 기능 제공

Warranty

3년 무상보증 (분기별 방문점검 H/W, S/W 유지, 보수)

규격

440 x 900 x 180 (mm 기준)



3. 장비의 환경

구축 요구사항

HPC Multi Node Cluster System

-  구축개요

∙ OpenHPC 2.x building and slurm job Scheduler, docker for Slurm, OpenMPI. RUN AI, NVIDIA DCGM, ALTAIR 설치

∙ Linux(Ubnutu Ver). HPC GPU Deep learning Cluster Server System 신규 구축으로 추후 System 확장을 고려한 안정적인 System Update 기반 O/S 및 S/W 구축 필요. 

∙ 사용자 및 관리자는 간편하게 Clustering System을 사용, 유지, 관리 할 수 있는 기능을 통해 실시간으로 자원을 모니터링, 제어, 관리 가능하다.

-  Implementation

∙ OS : Ubuntu Install ∙ Deep learning Library : Tensorflow, Pytorch

∙ Cuda : All Cuda capible on GPU

∙ Cuda development Tools : NVCC

∙ IO lib: cuDNN for GPU acceleration

∙ Job Manager: Slurm

∙ 응용프로그램 및 개발 코드 실행환경 구축 간소화

∙ Environment Modules, Anaconda, Docker

∙ 다중 사용자를 위한 자원관리 기능

∙ Slurm, OpenStack or k8s, jupyter notebook, jupyter hub

∙ Online Web을 통한 실시간 모니터링과 자원사용량 제한 가능

-  시스템 유지보수

∙ 시스템 중단 없이 온라인으로 펌웨어 및 소프트웨어 업그레이드 제공. 

∙ 시스템 주요 구성 요소 이중화 및 핫스왑 관리 제공 (Power Supply, FAN, 전원 등) 

∙ 24*365 모니터링, 장애 발생시 Report기능 제공 (글로벌 모니터링 및 유지보수 기능 지원)

∙ System 과 Storage Alertmanage Config가 모두 가능 하여야 한다. 

-  시스템 교육

∙ Docker architecture, image, container, repository 생성 및 관리

∙ Docker Machine, Docker Compose 등 구성 및 사용방법

∙ CUDA Manaul 제공 및 교육, Sample Test 시행

∙ Clustering 기본 운용 교육, 사용 매뉴얼 제공

-  하자보증조건

∙ 하드웨어와 소프트웨어의 무상하자보증기간은 검사완료일로부터 3년으로 한다.

∙ 하드웨어와 소프트웨어에 대해 장애 발생 시 계약대상자는 24시간 연중무휴로 A/S에 응대하여야 하며 익일 이내의 현장방문으로 장애 해결작업을 시작해야 한다.

∙ Warranty Service기간 내 분기별 1회 방문(12회 방문/3년) After Service를 반드시 이행한다. 

∙ 무상하자보증기간 후에도 영구적인 A/S를 반드시 이행한다. 

-  설치 및 검수조건

∙ HPC Building을 위해 H/W, S/W 등 모든 제반 사항을 장비 운영 관리담당 연구원과 협의하여 지정 시간, 지정 장소에서 지원하고 모든 구축 완료 전 시스템 시험, 성능시험, 통합시험 등에 대한 방안을 상세히 제시하여야 한다.

∙ 발생 가능한 상황에 대해서 가 데이터를 입력하여 시험하여야 하며 각종 유형별 시험 계획서를 구체적으로 작성하여 제출하여야 한다. (시험 계획서에 시험 인력, 시험 데이터, 시험 절차/방법, 시험 일정/주기, 시스템 튜닝 등을 포함하여야 한다.)

∙ 최종 산출물 및 테스트 결과물을 첨부하여 발주자에게 승인 검사 및 테스트를 요청하여야 하며, 승인검사 및 테스트 과정에서 발견된 하자 사항은 만족한 결과를 얻을 때까지 보완, 테스트를 반복적으로 실시해야 한다.



4. 기타 조건(Remarks)

가. 원활한 장비 운영 및 기술 지원이 가능하도록 업체는 서버 및 Deep learning Cluster System 분야의 솔루션 구축 경험이 있는 업체로 이를 증빙할 수 있는 자료를 제출한다. (시스템 구축 사례, 시스템 구축 설계도, 사업수행 조직도, 업무별 인력투입 계획표 등)

나. GPU full- load 시 GPU 온도 60℃ 이하, 소음 40dB 이하로 동작함을 증빙할 수 있는 자료를 제출한다.

다. System 납품 및 설치, 구축 완료 후 System A/S 지원에 대한 계획서를 제출해야 한다. (지원 계획서, 설치 운용 계획서, 시스템 장비 관리 대장 등)

라. 납품업체는 안정적인 유지보수를 위해 서버 제조사의 정품 공급증명원 및 3년 기술확약서를 제출

마. 입찰 참가업체는 공고규격을 바탕으로 입찰사양서를 작성하여 수요 부서 담당자 서명 받아야하며, 입찰 마감 전까지 제출한다.

바. Cluster 구축 중요도에 따른 증빙 서류로 “소프트웨어 사업자” 및 컴퓨터 서버 “직접생산확인서”를 제출하여야 한다.

사. 주요 단위 부품을 공급사에서 개별 구매하여 시스템을 구성한 제품(일명 ‘조립제품’, 베어본, 임의생산제품)을 납품할 수 없다.

아. 냉각장치 및 제품 성능에 대한 문제 발생 시, 총 수리 기간이 7일을 넘지 않아야 하며, 자체 수리 능력 및 기술 능력을 증빙해야 한다. (수냉각 장치 자체 수리 증빙 서류, 기술 특허 등) 


5. 기타

가. 납품: 현장납품도

나. 하자보증: 납품 후 3년 무상 A/S

다. 배송비: 배송비는 물품단가에 포함

라. 물품 관련 문의: 인공지능학과 송주환(063- 220- 2912/2040)

마. 대금 지급조건: 납품 및 검수 후 현금 결제

※ 상기 규격을 만족하는 동급 또는 동급이상의 타사 제품으로 견적제출 가능 (사업부서 확인 후 견적 제출)

※ 입찰자가 면세사업자인 경우, 견적서는 반드시 부가가치세를 포함한 가격을 제출해야 하며, 입찰결과 낙찰자가 면세사업자인 경우 낙찰금액에서 부가가치세 상당액을 차감한 금액을 계약금액으로 한다.