Quelques infos à partager / capitaliser, suite à un échange Discord
Anthome nous a remonté que, pendant l'écriture des checkpoints par le client F@h, le GPU se mettait en pause (pouvant aller jusqu'a 20 secondes sur sa machine!)
Totow nous a précisé que c'était le CPU qui se chargeait de calculer le checkpoint et de faire son écriture, et donc qu'il fallait avoir des ressources CPU dispo pour qu'il ne prenne pas (trop) de temps (un disque SSD va également aider )
En complément, plus la WU aura d'atomes, plus ce checkpoint prendra du temps / plus la "pause" du GPU sera longue.
Un point d'attention : le paramètre de réglage de la fréquence du checkpoint dans FAHControl ne s'applique qu'aux cores CPU ...
Pour les calculs GPU, c'est un paramètre par projet, décidé par le chercheur (mais depuis quelques versions du core, ces réglages sont affichés au démarrage de la WU).
NB: j'ai eu une baisse des calculs lors d'un checkpoint, mais ça n'a duré qu'une fraction de seconde (pas de calculs sur le CPU + SSD NVMe)
@Anthome, je te laisse reprendre la main sur la suite de ce topic, si tu veux poursuivre les investigations
Anthome nous a remonté que, pendant l'écriture des checkpoints par le client F@h, le GPU se mettait en pause (pouvant aller jusqu'a 20 secondes sur sa machine!)
Totow nous a précisé que c'était le CPU qui se chargeait de calculer le checkpoint et de faire son écriture, et donc qu'il fallait avoir des ressources CPU dispo pour qu'il ne prenne pas (trop) de temps (un disque SSD va également aider )
En complément, plus la WU aura d'atomes, plus ce checkpoint prendra du temps / plus la "pause" du GPU sera longue.
Un point d'attention : le paramètre de réglage de la fréquence du checkpoint dans FAHControl ne s'applique qu'aux cores CPU ...
Pour les calculs GPU, c'est un paramètre par projet, décidé par le chercheur (mais depuis quelques versions du core, ces réglages sont affichés au démarrage de la WU).
NB: j'ai eu une baisse des calculs lors d'un checkpoint, mais ça n'a duré qu'une fraction de seconde (pas de calculs sur le CPU + SSD NVMe)
@Anthome, je te laisse reprendre la main sur la suite de ce topic, si tu veux poursuivre les investigations