🌿💻 The Packets Garden

❯

❯

Prompt Latency

🌱 Mar 22, 2026🪴 Mar 22, 2026⏱️ 1 min read

AI

Concepto principal

La latencia es qué tan rápido el modelo genera y devuelve una respuesta al usuario.

Aspectos clave

Factores que SÍ impactan la latencia

El tamaño del modelo — modelos más grandes son más lentos.
El modelo específico — por ejemplo, Llama tiene un rendimiento diferente que Claude para el mismo tipo de tarea.
El número de tokens en la entrada — mientras más grande el input, más lento.
El número de tokens en la salida — mientras más grande el output, más lento.

Factores que NO impactan la latencia

Los parámetros de inferencia como Temperatura, Top P y Top K NO afectan la latencia — solo afectan la calidad y creatividad de la respuesta.

Exam Domain

Domain 3, Task Statement 3.1: “Identify selection criteria to choose pre-trained models (for example, cost, modality, latency…).”
Domain 2, Task Statement 2.3: cost tradeoffs of AWS generative AI services (responsiveness, performance).

Conceptos relacionados

Inference Parameters
Criteria for Choosing a Foundation Model
Amazon Bedrock Pricing

Links / References

Graph View

Concepto principal
Aspectos clave
Factores que SÍ impactan la latencia
Factores que NO impactan la latencia
Exam Domain
Conceptos relacionados
Links / References

Backlinks

20250918T0602-aws-certified-ai-cloud-practitioner-certification

Created with Quartz v4.5.0 © 2026

LinkedIn
Github