Todo lo que sabes de la latencia está mal

Lo que dice el articulo, para los que se cansan de leer:

Debes siempre preocuparte de la latencia del 99,99% de los requests y más si es necesario. Sacar promedios está mal. Preocuparse sólo del 99% más rápido está mal.

Una sola operación lenta hace que todo tu sitio sea lento.

Se debe calibrar el sistema haciendo ctrl Z y esperando 1 o 2 segundos para ver si el monitor de desempeño es capaz de capturar que el sistema no se está comportando bien. Debería mostrar que un request tomó más de un minuto, y los requests subsiguientes tienen el mismo problema.

Calibrar el sistema con datos reales. Por ejemplo, almacenar todos los requests de un día y volver a ejecutarlos al día siguiente en una máquina de staging, ya que la carga real es lo que queremos optimizar. La carga real implica que debemos medir el tiempo de respuesta desde el cliente, no el tiempo de servicio dentro del servidor. Cuando el servidor tiene un hipo, por ejemplo por recolección de basura, entonces no sólo uno de los tiempos de respuesta se ve afectado, sino todos los subsiguientes.

No tiene sentido medir los tiempos de respuesta cuando la carga es baja, lo importante es cuando la carga es alta, en un escenario real. Bueno, sí tiene sentido pero sólo como una medida de comparación para determinar cuándo el desempeño empeora lo suficiente cuando la carga es alta.