Ative o Javascript e os cookies do navegador para melhorar os recursos e o desempenho do site.

Chat ao vivo

Entre em contato conosco

Bem-vindo

Você está assinado como:

Meu Perfil
Sair

Por Favor, Confirme

Confirme seu país para acessar preços relevantes, ofertas especiais, eventos e informações de contato.

Comece sua cotação escolhendo um produto Selecione uma configuração

Como validar a latência da inferência de IA

Pedir cotação

Exibir resumo da solução

+ KAI Inference Builder

Identifique os limites de latência com antecedência

Validar a latência da inferência em inteligência artificial (IA) é um desafio, pois as implantações em produção precisam processar usuários simultâneos, prompts com contexto extenso e conversas com várias trocas de mensagens ao mesmo tempo, em vez de solicitações isoladas de benchmark. Essas condições de carga de trabalho podem aumentar a latência de resposta, reduzir a taxa de processamento, causar a perda ou o atraso de solicitações e resultar em uma utilização desigual dos recursos da unidade de processamento gráfico (GPU) nas diferentes etapas do pipeline de inferência, tornando difícil prever o desempenho no mundo real apenas com base em testes sintéticos.

Uma validação eficaz da latência de inferência de IA requer uma emulação de carga de trabalho repetível que reflita o comportamento realista das solicitações, a simultaneidade de usuários e os padrões de resposta, ao mesmo tempo em que mede o desempenho sensível ao tempo em toda a pilha. Os engenheiros precisam de visibilidade sobre métricas como tempo até o primeiro token, tempo até o último token, tokens por segundo, utilização do cache e telemetria da GPU para que possam identificar gargalos, avaliar limites de escalabilidade e compreender como as escolhas de projeto da infraestrutura afetam a experiência do usuário em condições semelhantes às de produção.

Solução para a latência na inferência de IA

Para testar e validar a latência da inferência de IA, é necessário gerar cargas de trabalho realistas que reflitam a forma como os usuários interagem com aplicativos de modelos de linguagem de grande porte (LLM) sob demanda contínua e pontual. O Keysight AI Inference Builder permite que equipes de engenharia emulem tráfego de inferência de alta fidelidade em escala, correlacionem métricas nativas de inferência com telemetria no nível do sistema e identifiquem gargalos de latência nas camadas de computação, memória, cache, rede e orquestração, ajudando a otimizar a infraestrutura de inferência de IA antes da implantação em produção.

Pedir cotação

Veja o diagrama de blocos da solução para latência de inferência de IA

Como validar a latência da inferência de IA

Conheça os produtos para a solução de latência de inferência de IA

Pacote KAI Inference Builder 952-1100 com 10 agentes e até 10.000 solicitações por segundo

Saiba mais Ver folha de dados
Pacote KAI Inference Builder 952-1010 com 10 agentes e até 1.000 solicitações por segundo

Saiba mais Ver folha de dados
Pacote KAI Inference Builder 952-1001 com 2 agentes e até 100 solicitações por segundo

Saiba mais Ver folha de dados

Descubra recursos e percepções

Recursos adicionais para a solução de latência de inferência de IA

Casos de uso relacionados

Ver todos os casos de uso

Entre em contato com um de nossos especialistas

Precisa de ajuda para encontrar a solução certa para você?

Contacte-nos

O que você está procurando?

Osciloscópios profissionais Analisadores de espectro portáteis Geradores de sinal compactos Encontre uma solução Obtenha suporte técnico Assista a uma aula Encontre-nos em eventos Equipamentos usados premium KeysightCare

No product matches found - System Exception

Interface
Tipos de licença	Assinatura
Portos
Protocolos
Tecnologia	Testes de IA Validação da inferência de IA
Fator de forma	Software

Interface
Tipos de licença	Assinatura
Portos
Protocolos
Tecnologia	Testes de IA Validação da inferência de IA
Fator de forma	Software

Interface
Tipos de licença	Assinatura
Portos
Protocolos
Tecnologia	Testes de IA Validação da inferência de IA
Fator de forma	Software

Como validar a latência da inferência de IA

Identifique os limites de latência com antecedência

Solução para a latência na inferência de IA

Veja o diagrama de blocos da solução para latência de inferência de IA

Conheça os produtos para a solução de latência de inferência de IA

Pacote KAI Inference Builder 952-1100 com 10 agentes e até 10.000 solicitações por segundo

Pacote KAI Inference Builder 952-1010 com 10 agentes e até 1.000 solicitações por segundo

Pacote KAI Inference Builder 952-1001 com 2 agentes e até 100 solicitações por segundo

Descubra recursos e percepções

O caminho mais rápido para o primeiro token de IA: explorando gêmeos digitais com o NVIDIA DSX Air e o Keysight Inference Builder

A forma das instruções: explorando seu efeito na infraestrutura de inferência

A pilha de inferência sabe falar — e podemos aprender muito ao ouvi-la

O caminho mais rápido para o primeiro token de IA: explorando gêmeos digitais com o NVIDIA DSX Air e o Keysight Inference Builder

A forma das instruções: explorando seu efeito na infraestrutura de inferência

A pilha de inferência sabe falar — e podemos aprender muito ao ouvi-la

Casos de uso relacionados

Entre em contato com um de nossos especialistas

Como validar a latência da inferência de IA

Identifique os limites de latência com antecedência

Solução para a latência na inferência de IA

Veja o diagrama de blocos da solução para latência de inferência de IA

Conheça os produtos para a solução de latência de inferência de IA

Pacote KAI Inference Builder 952-1100 com 10 agentes e até 10.000 solicitações por segundo

Pacote KAI Inference Builder 952-1010 com 10 agentes e até 1.000 solicitações por segundo

Pacote KAI Inference Builder 952-1001 com 2 agentes e até 100 solicitações por segundo

Pacote KAI Inference Builder 952-1100 com 10 agentes e até 10.000 solicitações por segundo

Especificações

Pacote KAI Inference Builder 952-1010 com 10 agentes e até 1.000 solicitações por segundo

Especificações

Pacote KAI Inference Builder 952-1001 com 2 agentes e até 100 solicitações por segundo

Especificações

Descubra recursos e percepções

O caminho mais rápido para o primeiro token de IA: explorando gêmeos digitais com o NVIDIA DSX Air e o Keysight Inference Builder

A forma das instruções: explorando seu efeito na infraestrutura de inferência

A pilha de inferência sabe falar — e podemos aprender muito ao ouvi-la

O caminho mais rápido para o primeiro token de IA: explorando gêmeos digitais com o NVIDIA DSX Air e o Keysight Inference Builder

A forma das instruções: explorando seu efeito na infraestrutura de inferência

A pilha de inferência sabe falar — e podemos aprender muito ao ouvi-la

Casos de uso relacionados

Como validar interconexões Ethernet em data centers

Como emular cargas de trabalho do data center de IA

Como validar a interoperabilidade e a resiliência de link em redes 800GE

Como validar interconexões Ethernet em data centers

Como emular cargas de trabalho do data center de IA

Como validar a interoperabilidade e a resiliência de link em redes 800GE

Entre em contato com um de nossos especialistas