TP Optimisation serielle et Vectorisation

Certaines optimisation sont réalisées par les compilateurs, d’autres nécessitent une modification du code source par le programmeur. Chaque optimisation explicite est liée à un concept d’architecture, et équivaut à prendre en compte l’architecture de la machine depuis le code source. Cependant, la plupart de ces optimisations sont « standard » et sont valables sur la majorité des systèmes.

Diminution de la fréquence des ruptures de pipeline et début de vectorisation par "loop unrolling" :

Quelles sont les options de compilation agissant sur le « loop unrolling » (étudiez le « man » de gcc) ?
Compilez et testez avec chaque option de compilation de "loop unrolling", sans modifier votre code source.

Déroulez explicitement la (bonne) boucle d'un facteur 4, puis 8 (puis 16), compilez sans option de "loop unrolling" et testez.

Modifiez votre code (comme précédemment) ET compilez avec l'option de "loop unrolling" adaptée à votre programme, et testez.

Meilleur usage des unités vectorielles d'un coeur. Deux stratégies sont possibles :

Parallélisme inter-instructions : avec un "vecteur d'accumulateurs" rendez les instructions complètement indépendantes, afin que le compilateur puisse ré-agencer au mieux ces instructions.
Parallélisme intra-instruction : regrouper un maximum d'opérations en une seule instruction, afin que le compilateur puisse ré-agencer au mieux ces opérations.

Rmq : On peut aussi "guider le compilateur" pour qu'il l'enclenche plus facilement (mais l'utilisation du compilateur icc d'Intel n'est pas prévue dans ces BEs).

Autre stratégie de meilleur usage du cache ET des untiés vectorielles par interversion des boucles :

Revenez au code initial, et changez l'ordre des boucles de calcul pour diminuer les défauts de cache et favoriser la vectorisation (compilez toujours en -O3)

1.4 - Bilan des optimisations :

Tracez les temps d'exécution et les Gigaflops obtenus avec la succession des optimisations expérimentées, indiquez clairement la taille du problème associé à chaque mesure.
Tracez les accélérations calculées vis à vis du code naif compilé en -O0, et du code naif compilé en -O3.

En considérant la version la plus performante : quelle accélération avez-vous obtenue avec les optimisations automatiques seules ? puis avec les optimisations manuelles ? et en cumulant les deux ?
Finalement quelles sont les étapes primordiales à ne pas oublier lors d’une implantation d'un noyau de calcul intensif ?

Mineure CalHau1
Cours de 3ème année à CentraleSupélec

BE d'optimisations sérielles et de vectorisation

(Utilisation optimale d'un coeur de calcul)

Exercice 1 : optimisations sérielles manuelles et progressives d'un produit de matrices en C sous Linux/gcc

1.1 - Prenez connaissance du code

1.2 - Réalisez une première mesure de performances sur le kernel 0

1.3 - Optimisation du kernel 0

Mineure CalHau1 Cours de 3ème année à CentraleSupélec