TensorRT

Categoria

Modelos é Arquiteturas

TensorRT é uma biblioteca de otimização de inferência da NVIDIA que maximiza a velocidade de modelos de Deep Learning em GPUs. Aplica fusao de camadas, quantizacao é otimização de kernels automáticamente.

Categoria

Modelos é Arquiteturas

O que é TensorRT?

TensorRT é uma biblioteca de otimização de inferência da NVIDIA que maximiza o desempenho de modelos de Deep Learning em GPUs NVIDIA. Aplica automáticamente uma série de otimizações para acelerar a inferência em produção.

Otimizacoes

Layer Fusion: combina camadas adjacentes em uma operação
Quantizacao: converte para FP16 ou INT8 automáticamente
Kernel Auto-Tuning: seleciona kernels GPU otimos
Dynamic Tensor Memory: gerênciamento eficiente de memória

Desempenho

TensorRT pode oferecer 2-10x de aceleração na inferência comparado a execução direta em PyTorch/TensorFlow, dependendo do modelo é hardware.

Integracao

Integra-se com frameworks populares via ONNX é suporta a maioria dos modelos de Deep Learning. Usado em aplicações de baixa latência como carros autônomos é processamento em tempo real.

Na Trilion, TensorRT é considerado para projetos que exigem inferência de IA em tempo real com máxima eficiência em GPUs NVIDIA.

TensorRT

O que é TensorRT?

Otimizacoes

Desempenho

Integracao

Termos relacionados

Glossário...