Parfois, l’optimisation prématurée est aussi amusante (2025)

En réduisant la structure d’enregistrement des ICMP Echo Request d’un système de surveillance de connectivité, l’usage mémoire du ring buffer est passé de 12 KiB à 4 KiB
En ne stockant pas à la fois sent_ns et received_ns, mais seulement la latence après réception via une union, la taille du tableau a été réduite à 8 KiB
Le passage d’une précision en nanosecondes à des unités de 100 microsecondes et la conversion de received en champ de bits n’ont apporté aucune réduction supplémentaire à cause du padding de structure
En remplaçant l’adresse source par une partie de la sémantique de l’identifier ICMP sous la forme d’un compteur sur 4 bits, la structure est passée à 8 octets et un tableau de 512 éléments à 4 KiB
L’application n’était pas contrainte en mémoire, donc il n’y avait pas de besoin pratique, mais cela a servi d’expérience d’optimisation sur la disposition des champs et jusqu’au coût d’accès aux bits

Mise en situation : comment stocker l’historique des ping

Le système de surveillance de connectivité envoie des ICMP Echo Request à plusieurs serveurs et observe les moyennes de latence et de perte de paquets sur des fenêtres de 1, 5 et 15 minutes
La première approche imaginée était un ring buffer de 512 entrées, chaque entrée contenant l’instant d’envoi, l’instant de réception, l’adresse source, le numéro de séquence et l’état de réception
La taille initiale du tableau de structures pings_rb[512] a été mesurée à 12 KiB

struct ping_timestamp {
    uint64_t sent_ns;
    uint64_t received_ns;
    in_addr_t source_addr;
    uint16_t seq_no;
    bool received;
};

Première réduction : fusionner l’instant d’envoi et le temps écoulé dans une union

La valeur réellement utile après réception est la latence received - sent, il n’est donc pas nécessaire de conserver simultanément l’instant d’envoi et le temps écoulé
La structure qui regroupe sent_ts et elapsed_ts dans une union utilise le même emplacement comme instant d’envoi avant réception, puis comme temps écoulé après réception
Après ce changement, la taille du tableau de 512 éléments est passée de 12 KiB à 8 KiB

struct ping_timestamp_2 {
    union {
        uint64_t sent_ts;
        uint64_t elapsed_ts;
    };
    in_addr_t source_addr;
    uint16_t seq_no;
    bool received;
};

Deuxième tentative : réduire la précision et utiliser des champs de bits

Les temps de ping se mesurent en dizaines, centaines ou milliers de millisecondes, il n’est donc pas nécessaire de stocker toute la précision à la nanoseconde
En passant à une unité de temps de 100 microsecondes, soit 0,1 ms, 43 bits suffisent pour suivre des ping sur une durée maximale de 20 ans
Utiliser 8 bits pour la valeur booléenne received est excessif, donc un champ de bits a été appliqué
Mais la taille du tableau de ping_timestamp_3 est restée de 8 KiB, sans réduction supplémentaire

struct ping_timestamp_3 {
    uint64_t sent_or_elapsed_ts: 43;
    uint64_t received: 1;
    uint64_t seq_no: 16;
    in_addr_t source_addr;
};

Une taille qui ne baisse pas à cause du padding de structure

ping_timestamp_2 reçoit à la fin des octets de padding pour satisfaire les contraintes d’alignement
ping_timestamp_3 place dans les 8 premiers octets le temps, l’état de réception et le numéro de séquence, mais il reste ensuite l’adresse source et du padding
Malgré l’usage de champs de bits, 36 bits de padding subsistent, ce qui empêche de réduire la taille totale de la structure
Réduire simplement un booléen à un bit ne suffit pas à résoudre les problèmes de disposition mémoire et d’alignement

Suppression de l’adresse source et compteur sur 4 bits

Comme le produit fonctionne sur des réseaux de données mobiles, l’adresse source change souvent ; la structure initiale stockait donc cette adresse
Quand l’adresse change, le numéro de séquence est aussi réinitialisé, et il est déjà arrivé que des paquets avec des adresses sources différentes mais le même numéro de séquence soient traités en même temps
Les ICMP Echo Request disposent d’un champ identifier sur 16 bits permettant à l’application d’identifier les paquets qu’elle a envoyés
Il n’est pas nécessaire d’utiliser les 16 bits entiers ; les 4 bits restants sont donc réutilisés comme compteur tournant, incrémenté quand l’adresse source change
Ce compteur est incrémenté en fonction des changements d’adresse source surveillés ailleurs dans l’application

struct ping_timestamp {
    uint64_t elapsed_or_sent_ts : 43;
    uint64_t received : 1;
    uint64_t counter: 4;
    uint64_t seq_no: 16;
};

Résultat final et disposition des champs

La structure finale supprime le champ d’adresse source et place le temps, l’état de réception, le compteur et le numéro de séquence dans 64 bits
Le tableau du ring buffer de 512 éléments tombe à 4 KiB, soit une seule page de données
Cela représente un gain total de 8 KiB par rapport aux 12 KiB initiaux
L’ordre des champs est ajusté pour que seq_no soit aligné sur une frontière de 16 bits, ce qui permet une lecture via une seule instruction ldrh sans décalage
La lecture de elapsed_or_sent_ts ne nécessite qu’un masque

Optimisation supplémentaire : réduire le coût d’accès au bit de réception

Dans l’ajout du 2025-06-21, inverser l’ordre de received et counter permet de faire en sorte que l’accès au bit received ne nécessite plus qu’un décalage, au lieu d’un décalage et d’un masque
Ce changement rend l’accès à received moins coûteux, mais impose ensuite de retirer le bit received par masque lors de la lecture de counter
Dans l’ajout du 2025-06-22, l’auteur exploite le fait que counter n’est lu que lorsque received vaut vrai
En inversant la signification de received pour en faire not_received, à l’intérieur de la condition qui vérifie que not_received vaut 0, le masque sur counter est entièrement supprimé par le compilateur

struct ping_timestamp {
    uint64_t elapsed_or_sent_ts : 43;
    uint64_t counter: 4;
    uint64_t not_received : 1;
    uint64_t seq_no: 16;
};

Conclusion

Le résultat de l’optimisation a réduit l’usage mémoire de 12 KiB à 4 KiB, mais l’application elle-même n’était pas limitée par la mémoire
Au-delà du besoin réel, cela a servi d’expérience sur la disposition des structures, le padding, les champs de bits et le coût d’accès au niveau des instructions
Dans le dernier commentaire, l’auteur précise aussi que le terme de « problème » est employé assez librement et qu’aucun benchmark n’a même été réalisé

Parfois, l’optimisation prématurée est aussi amusante (2025)

Mise en situation : comment stocker l’historique des ping

Première réduction : fusionner l’instant d’envoi et le temps écoulé dans une union

Deuxième tentative : réduire la précision et utiliser des champs de bits

Une taille qui ne baisse pas à cause du padding de structure

Suppression de l’adresse source et compteur sur 4 bits

Résultat final et disposition des champs

Optimisation supplémentaire : réduire le coût d’accès au bit de réception

Conclusion

1 commentaires

Avis sur Lobste.rs

Parfois, l’optimisation prématurée est aussi amusante (2025)

Mise en situation : comment stocker l’historique des ping

Première réduction : fusionner l’instant d’envoi et le temps écoulé dans une union

Deuxième tentative : réduire la précision et utiliser des champs de bits

Une taille qui ne baisse pas à cause du padding de structure

Suppression de l’adresse source et compteur sur 4 bits

Résultat final et disposition des champs

Optimisation supplémentaire : réduire le coût d’accès au bit de réception

Conclusion

À lire aussi

1 commentaires

Avis sur Lobste.rs