1. 물품의 구성
- Water Cooling Cluster Node
- Parallel GPUs 2EA
- System Water Cooling Parts
2. 장비의 성능
- System의 냉각 방식은 수냉 쿨링 방식이여야 한다. (All parts that are overheating)
|
- Deep- learning Full load 운전 시 냉방시설이 없는 내부에서도 Nvidia- Smi로 측정하였을 때 각각의 GPU 온도가 섭씨 60℃ 미만으로 7일 이상 유지되어야 하며 45dB 이하(FAN RPM 2000 이하로 구동)의 소음으로 구동되어야 한다.
|
- 365일 24시간 모니터링, 장애 발생 시 시스템의 정보를 원격으로 전송할 수 있는 Report 기능을 제공해야 한다. (글로벌 모니터링 및 유지보수 기능 지원)
|
- 해당 구매건의 GPU는 2장이지만, 추후 확장성을 고려하여 GPU 8장까지 확장 가능해야한다. (8장 장착 시 PCIe x 16으로 동작.)
|
2. 장비의 규격
품목
|
품명
|
수량
|
CPU
|
20 core, 40 thread, Max 4.0GHz, Base 2.1GHz
|
1
|
GPU
|
6,912 CUDA core, 432 Tensor core, 80GB GPU Memory
(추후 MAX 8GPU Install 가능하도록 GPU Install Kit 포함)
|
2
|
RAM
|
DDR4 64GB (PC4- 25600) 3.2GHz Clock
|
2
|
POWER
|
750W (이중화 및 핫스왑 가능)
|
1
|
Cooling
System
|
Water Cooling System - All parts that are overheating
(System 온도를 낮추기 위한 설계 필요, 소음 45dB 이하)
|
1
|
Management
|
- 원격 H/W 관리, 전원 ON/OFF 기능 제공, 상태 모니터링
- Command level interface 형태 & GUI - IPMItool 을 이용한 기능 제공
- IPMI 원격관리 기능 제공 (BMC 호환) - OpenIPMI 사용 가능
- Open IPMI version 2.0 이상을 지원하는 Hardware Platform
- Serial Over LAN 기능 사용 가능 (Remote Access Console) - 운영 중 ROM BIOS 설정 변경 기능 제공
- IPMI 또는 ILO 이용해서 변경하는 것은 아닌 Linux OS (Ubuntu 20.04)
상에서 Local CLI 명령을 통한 변경 기능 제공
- 통합 관리 툴 제공 (Online Web Management Tool Interface) - 실시간 CPU, Fan, Power, Memory, System Temperature 모니터링 및
관리 기능 제공
|
|
Warranty
|
3년 무상보증 (분기별 방문점검 H/W, S/W 유지, 보수)
|
|
규격
|
440 x 900 x 180 (mm 기준)
|
|
3. 장비의 환경
구축 요구사항
|
HPC Multi Node Cluster System
|
- 구축개요
∙ OpenHPC 2.x building and slurm job Scheduler, docker for Slurm, OpenMPI. RUN AI, NVIDIA DCGM, ALTAIR 설치
∙ Linux(Ubnutu Ver). HPC GPU Deep learning Cluster Server System 신규 구축으로 추후 System 확장을 고려한 안정적인 System Update 기반 O/S 및 S/W 구축 필요.
∙ 사용자 및 관리자는 간편하게 Clustering System을 사용, 유지, 관리 할 수 있는 기능을 통해 실시간으로 자원을 모니터링, 제어, 관리 가능하다.
|
- Implementation
∙ OS : Ubuntu Install ∙ Deep learning Library : Tensorflow, Pytorch
∙ Cuda : All Cuda capible on GPU
∙ Cuda development Tools : NVCC
∙ IO lib: cuDNN for GPU acceleration
∙ Job Manager: Slurm
∙ 응용프로그램 및 개발 코드 실행환경 구축 간소화
∙ Environment Modules, Anaconda, Docker
∙ 다중 사용자를 위한 자원관리 기능
∙ Slurm, OpenStack or k8s, jupyter notebook, jupyter hub
∙ Online Web을 통한 실시간 모니터링과 자원사용량 제한 가능
|
- 시스템 유지보수
∙ 시스템 중단 없이 온라인으로 펌웨어 및 소프트웨어 업그레이드 제공.
∙ 시스템 주요 구성 요소 이중화 및 핫스왑 관리 제공 (Power Supply, FAN, 전원 등)
∙ 24*365 모니터링, 장애 발생시 Report기능 제공 (글로벌 모니터링 및 유지보수 기능 지원)
∙ System 과 Storage Alertmanage Config가 모두 가능 하여야 한다.
|
- 시스템 교육
∙ Docker architecture, image, container, repository 생성 및 관리
∙ Docker Machine, Docker Compose 등 구성 및 사용방법
∙ CUDA Manaul 제공 및 교육, Sample Test 시행
∙ Clustering 기본 운용 교육, 사용 매뉴얼 제공
|
- 하자보증조건
∙ 하드웨어와 소프트웨어의 무상하자보증기간은 검사완료일로부터 3년으로 한다.
∙ 하드웨어와 소프트웨어에 대해 장애 발생 시 계약대상자는 24시간 연중무휴로 A/S에 응대하여야 하며 익일 이내의 현장방문으로 장애 해결작업을 시작해야 한다.
∙ Warranty Service기간 내 분기별 1회 방문(12회 방문/3년) After Service를 반드시 이행한다.
∙ 무상하자보증기간 후에도 영구적인 A/S를 반드시 이행한다.
|
- 설치 및 검수조건
∙ HPC Building을 위해 H/W, S/W 등 모든 제반 사항을 장비 운영 관리담당 연구원과 협의하여 지정 시간, 지정 장소에서 지원하고 모든 구축 완료 전 시스템 시험, 성능시험, 통합시험 등에 대한 방안을 상세히 제시하여야 한다.
∙ 발생 가능한 상황에 대해서 가 데이터를 입력하여 시험하여야 하며 각종 유형별 시험 계획서를 구체적으로 작성하여 제출하여야 한다. (시험 계획서에 시험 인력, 시험 데이터, 시험 절차/방법, 시험 일정/주기, 시스템 튜닝 등을 포함하여야 한다.)
∙ 최종 산출물 및 테스트 결과물을 첨부하여 발주자에게 승인 검사 및 테스트를 요청하여야 하며, 승인검사 및 테스트 과정에서 발견된 하자 사항은 만족한 결과를 얻을 때까지 보완, 테스트를 반복적으로 실시해야 한다.
|
4. 기타 조건(Remarks)
가. 원활한 장비 운영 및 기술 지원이 가능하도록 업체는 서버 및 Deep learning Cluster System 분야의 솔루션 구축 경험이 있는 업체로 이를 증빙할 수 있는 자료를 제출한다. (시스템 구축 사례, 시스템 구축 설계도, 사업수행 조직도, 업무별 인력투입 계획표 등)
나. GPU full- load 시 GPU 온도 60℃ 이하, 소음 40dB 이하로 동작함을 증빙할 수 있는 자료를 제출한다.
다. System 납품 및 설치, 구축 완료 후 System A/S 지원에 대한 계획서를 제출해야 한다. (지원 계획서, 설치 운용 계획서, 시스템 장비 관리 대장 등)
라. 납품업체는 안정적인 유지보수를 위해 서버 제조사의 정품 공급증명원 및 3년 기술확약서를 제출
마. 입찰 참가업체는 공고규격을 바탕으로 입찰사양서를 작성하여 수요 부서 담당자 서명 받아야하며, 입찰 마감 전까지 제출한다.
바. Cluster 구축 중요도에 따른 증빙 서류로 “소프트웨어 사업자” 및 컴퓨터 서버 “직접생산확인서”를 제출하여야 한다.
사. 주요 단위 부품을 공급사에서 개별 구매하여 시스템을 구성한 제품(일명 ‘조립제품’, 베어본, 임의생산제품)을 납품할 수 없다.
아. 냉각장치 및 제품 성능에 대한 문제 발생 시, 총 수리 기간이 7일을 넘지 않아야 하며, 자체 수리 능력 및 기술 능력을 증빙해야 한다. (수냉각 장치 자체 수리 증빙 서류, 기술 특허 등)
5. 기타
가. 납품: 현장납품도
나. 하자보증: 납품 후 3년 무상 A/S
다. 배송비: 배송비는 물품단가에 포함
라. 물품 관련 문의: 인공지능학과 송주환(063- 220- 2912/2040)
마. 대금 지급조건: 납품 및 검수 후 현금 결제
|