Concepto principal
La latencia es qué tan rápido el modelo genera y devuelve una respuesta al usuario.
Aspectos clave
Factores que SĂŤ impactan la latencia
- El tamaño del modelo — modelos más grandes son más lentos.
- El modelo especĂfico — por ejemplo, Llama tiene un rendimiento diferente que Claude para el mismo tipo de tarea.
- El número de tokens en la entrada — mientras más grande el input, más lento.
- El número de tokens en la salida — mientras más grande el output, más lento.
Factores que NO impactan la latencia
- Los parámetros de inferencia como Temperatura, Top P y Top K NO afectan la latencia — solo afectan la calidad y creatividad de la respuesta.
Exam Domain
- Domain 3, Task Statement 3.1: “Identify selection criteria to choose pre-trained models (for example, cost, modality, latency…).”
- Domain 2, Task Statement 2.3: cost tradeoffs of AWS generative AI services (responsiveness, performance).