Concepto principal

La latencia es qué tan rápido el modelo genera y devuelve una respuesta al usuario.

Aspectos clave

Factores que SĂŤ impactan la latencia

  • El tamaño del modelo — modelos más grandes son más lentos.
  • El modelo especĂ­fico — por ejemplo, Llama tiene un rendimiento diferente que Claude para el mismo tipo de tarea.
  • El nĂşmero de tokens en la entrada — mientras más grande el input, más lento.
  • El nĂşmero de tokens en la salida — mientras más grande el output, más lento.

Factores que NO impactan la latencia

  • Los parámetros de inferencia como Temperatura, Top P y Top K NO afectan la latencia — solo afectan la calidad y creatividad de la respuesta.

Exam Domain

  • Domain 3, Task Statement 3.1: “Identify selection criteria to choose pre-trained models (for example, cost, modality, latency…).”
  • Domain 2, Task Statement 2.3: cost tradeoffs of AWS generative AI services (responsiveness, performance).

Conceptos relacionados