Nvidia PlatFrom 2

[TensorRT] Tensort 기본개념

AI 서비스를 운영하는데 있어 비용적 측면은 매우 중요한 사항이 아닐 수 없다. AI의 성능은 성능적으로 매우 빠르게 증대되며, 그에 따라 VRAM과 전력소모와 같은 요구사항 스펙이 늘어날 수 밖에 없다. 이것을 상쇄시키기에 비싼 Nvidia Gpu를 많이 사용하고 싶지만, 그 비용은 Nvidia 주식가격(오늘 이 제일 쌉니다 ㅎㅎ) 만큼 비용이 많이 들것이다. 따라서 이 비용을 절감하기 위해서 효율적으로 서비스를 운영하기 위해 모델의 경량화는 필수일 것이다. 엔비디아에서는 이러한 Gpu를 사용하는 기기에서는 최적화 해주는 기능을 제공해주며, 이를 적극적으로 도입할 필요가 있다. TF-TRT(TensorFlow)나 torch2trt(Pytorch) 등을 딥러닝 프레임워크에서 지원해 주지만 최신의 모델이나..

[Triton Inference Server] Tirton Infernece Server 시작해보기

https://developer.nvidia.com/triton-inference-server Triton Inference Server Standardizes model deployment and delivers fast and scalable AI in production. developer.nvidia.com Triton Infernece Server는 Nvidia에서 딥러닝 모델을 배포하는 Triton Inference Server는 NVIDIA에서 개발한 오픈 소스 딥러닝 모델 추론을 위한 서버 프레임워크이다. AI모델들의 배포를 위한만큼 Pytorch, TensorFlow, Onnx 등 여러 딥러닝 프레림워크의 모델 로드를 지원한다. Inference를 위한 추론 서버 운영시, python기반..