Glossário de IA

8 termos sobre Inteligência Artificial, Machine Learning, IA Generativa, Automação e mais — explicados pela equipe da Trilion.
TodosAgentes e OrquestracaoAutomacao e RPADados e AnalyticsEtica e GovernancaFundamentos de IAIA GenerativaMarketing com IAMLOps e InfraestruturaModelos e ArquiteturasNegocios com IATermos Tecnicos Avancados
Termos Tecnicos Avancados
Async Inference
Async Inference e o modelo de inferencia assincrona onde requisicoes sao enviadas e processadas em background, com resultados recuperados posteriormente. Ideal para tarefas que nao precisam de resposta imediata, como analise de documentos e processamento em massa.
asyncassincronoinferenciafila
MLOps e Infraestrutura
Endpoint
Endpoint de IA e uma URL de API que expoe um modelo de machine learning para consumo em producao. Recebe dados de entrada via requisicao HTTP e retorna predicoes do modelo, sendo a interface entre aplicacoes de negocio e modelos de IA.
endpointapiinferenciaproducao
Modelos e Arquiteturas
GGUF
GGUF (GPT-Generated Unified Format) e um formato de arquivo para modelos de linguagem quantizados, otimizado para inferencia em CPU e GPU. Substitui o antigo GGML e e usado pelo llama.cpp.
#gguf#quantizacao#llamacpp#formato
MLOps e Infraestrutura
Inference Pipeline
Inference Pipeline e o fluxo de producao que recebe dados novos, aplica preprocessamento e executa o modelo treinado para gerar predicoes. Pode operar em modo batch (lotes periodicos) ou em tempo real (requisicao por requisicao).
inference-pipelineinferenciaproducaopredicao
Termos Tecnicos Avancados
KV Cache
KV Cache (Key-Value Cache) e uma tecnica de otimizacao de inferencia em Transformers que armazena os vetores Key e Value ja computados para evitar recalculo a cada novo token gerado. Essencial para inferencia rapida mas consome memoria significativa.
kv-cacheinferenciamemoriaotimizacao
Modelos e Arquiteturas
ONNX
ONNX (Open Neural Network Exchange) e um formato aberto e interoperavel para modelos de IA. Permite exportar modelos entre frameworks como PyTorch, TensorFlow e executar em diversos runtimes otimizados.
#onnx#interoperabilidade#formato#inferencia
Termos Tecnicos Avancados
Speculative Decoding
Speculative Decoding e uma tecnica de aceleracao de inferencia que usa um modelo menor e rapido para gerar rascunhos de tokens que sao verificados em paralelo pelo modelo grande. Acelera geracao em 2-3x sem alterar a qualidade das respostas.
speculativedecodingaceleracaodraft
Modelos e Arquiteturas
TensorRT
TensorRT e uma biblioteca de otimizacao de inferencia da NVIDIA que maximiza a velocidade de modelos de Deep Learning em GPUs. Aplica fusao de camadas, quantizacao e otimizacao de kernels automaticamente.
#tensorrt#nvidia#otimizacao#inferencia

Serviços de tecnologia ao Mercados de luxo

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.