Glossário de IA

8 termos sobre Inteligência Artificial, Machine Learning, IA Generativa, Automação e mais — explicados pela equipe da Trilion.

Todos Agentes e Orquestracao Automacao e RPA Dados e Analytics Etica e Governanca Fundamentos de IA IA Generativa Marketing com IA MLOps e Infraestrutura Modelos e Arquiteturas Negocios com IA Termos Tecnicos Avancados

Termos Tecnicos Avancados

Async Inference

Async Inference e o modelo de inferencia assincrona onde requisicoes sao enviadas e processadas em background, com resultados recuperados posteriormente. Ideal para tarefas que nao precisam de resposta imediata, como analise de documentos e processamento em massa.

asyncassincronoinferenciafila

MLOps e Infraestrutura

Endpoint de IA e uma URL de API que expoe um modelo de machine learning para consumo em producao. Recebe dados de entrada via requisicao HTTP e retorna predicoes do modelo, sendo a interface entre aplicacoes de negocio e modelos de IA.

endpointapiinferenciaproducao

Modelos e Arquiteturas

GGUF (GPT-Generated Unified Format) e um formato de arquivo para modelos de linguagem quantizados, otimizado para inferencia em CPU e GPU. Substitui o antigo GGML e e usado pelo llama.cpp.

#gguf#quantizacao#llamacpp#formato

MLOps e Infraestrutura

Inference Pipeline

Inference Pipeline e o fluxo de producao que recebe dados novos, aplica preprocessamento e executa o modelo treinado para gerar predicoes. Pode operar em modo batch (lotes periodicos) ou em tempo real (requisicao por requisicao).

inference-pipelineinferenciaproducaopredicao

Termos Tecnicos Avancados

KV Cache (Key-Value Cache) e uma tecnica de otimizacao de inferencia em Transformers que armazena os vetores Key e Value ja computados para evitar recalculo a cada novo token gerado. Essencial para inferencia rapida mas consome memoria significativa.

kv-cacheinferenciamemoriaotimizacao

Modelos e Arquiteturas

ONNX (Open Neural Network Exchange) e um formato aberto e interoperavel para modelos de IA. Permite exportar modelos entre frameworks como PyTorch, TensorFlow e executar em diversos runtimes otimizados.

#onnx#interoperabilidade#formato#inferencia

Termos Tecnicos Avancados

Speculative Decoding

Speculative Decoding e uma tecnica de aceleracao de inferencia que usa um modelo menor e rapido para gerar rascunhos de tokens que sao verificados em paralelo pelo modelo grande. Acelera geracao em 2-3x sem alterar a qualidade das respostas.

speculativedecodingaceleracaodraft

Modelos e Arquiteturas

TensorRT e uma biblioteca de otimizacao de inferencia da NVIDIA que maximiza a velocidade de modelos de Deep Learning em GPUs. Aplica fusao de camadas, quantizacao e otimizacao de kernels automaticamente.

#tensorrt#nvidia#otimizacao#inferencia

Serviços de tecnologia ao Mercados de luxo

Cultura de resultados

Glossário...

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.

Vamos Conversar

Vamos Conversar