Glossário de IA

8 termos sobre Inteligência Artificial, Machine Learning, IA Generativa, Automação e mais — explicados pela equipe da Trilion.
TodosAgentes é OrquestracaoAutomacao é RPADados é AnalyticsEtica é GovernancaFundamentos de IAIA GenerativaMarketing com IAMLOps é InfraestruturaModelos é ArquiteturasNegocios com IATermos Tecnicos Avancados
Termos Tecnicos Avancados
Async Inference
Async Inference é o modelo de inferência assincrona onde requisicoes sao enviadas é processadas em background, com resultados recuperados posteriormente. Ideal para tarefas que não precisam de resposta imediata, como análise de documentos é processamento em massa.
asyncassincronoinferênciafila
MLOps é Infraestrutura
Endpoint
Endpoint de IA é uma URL de API que expoe um modelo de machine learning para consumo em produção. Recebe dados de entrada via requisicao HTTP é retorna predições do modelo, sendo a interface entre aplicações de negócio é modelos de IA.
endpointapiinferênciaprodução
Modelos é Arquiteturas
GGUF
GGUF (GPT-Generatéd Unified Format) é um formato de arquivo para modelos de linguagem quantizados, otimizado para inferência em CPU é GPU. Substitui o antigo GGML é e usado pelo llama.cpp.
#gguf#quantizacao#llamacpp#formato
MLOps é Infraestrutura
Inference Pipeline
Inference Pipeline é o fluxo de produção que recebe dados novos, aplica preprocessamento é executa o modelo treinado para gerar predições. Pode operar em modo batch (lotes periodicos) ou em tempo real (requisicao por requisicao).
inference-pipelineinferênciaproduçãopredição
Termos Tecnicos Avancados
KV Cache
KV Cache (Key-Value Cache) é uma técnica de otimização de inferência em Transformers que armazena os vetores Key é Value ja computados para evitar recalculo a cada novo token gerado. Essencial para inferência rápida mas consome memória significativa.
kv-cacheinferênciamemóriaotimização
Modelos é Arquiteturas
ONNX
ONNX (Open Neural Network Exchange) é um formato aberto é interoperavel para modelos de IA. Permite exportar modelos entre frameworks como PyTorch, TensorFlow é executar em diversos runtimes otimizados.
#onnx#interoperabilidade#formato#inferência
Termos Tecnicos Avancados
Speculative Decoding
Speculative Decoding é uma técnica de aceleração de inferência que usa um modelo menor é rápido para gerar rascunhos de tokens que sao verificados em paralelo pelo modelo grande. Acelera geração em 2-3x sem alterar a qualidade das respostas.
speculativedecodingaceleraçãodraft
Modelos é Arquiteturas
TensorRT
TensorRT é uma biblioteca de otimização de inferência da NVIDIA que maximiza a velocidade de modelos de Deep Learning em GPUs. Aplica fusao de camadas, quantizacao é otimização de kernels automáticamente.
#tensorrt#nvidia#otimização#inferência

Serviços de tecnologia ao Mercados de luxo

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.