BAD_WORK_UNIT et GPU AMD
#11
Bon courage JWhy ! Wink

J'ai eu pas mal de soucis avec ces changements/réinstallation/réinitialisation de pilotes (blocages clavier/souris, problème de détection sur le port DP après redémarrage...) , mais je devrais pouvoir fournir mes premiers points à l'alliance d'ici une heure, si tout va bien...
Répondre
#12
(07-04-2020 10:47:37)Osteofold a écrit : Je viens de relancer le client car au fur et mesure le délai entre les tentatives augmente... Le GPU a commencé à travailler mais quelques minutes seulement avant une nouvelle erreur, je te mets le log ci-dessous car je suis loin de tout comprendre ! Smile
Code :
*********************** Log Started 2020-04-07T09:34:19Z ***********************
09:34:27:FS01:Unpaused
09:34:27:WU01:FS01:Connecting to 65.254.110.245:8080
09:34:27:WARNING:WU01:FS01:Failed to get assignment from '65.254.110.245:8080': No WUs available for this configuration
09:34:27:WU01:FS01:Connecting to 18.218.241.186:80
09:34:28:WU01:FS01:Assigned to work server 40.114.52.201
09:34:28:WU01:FS01:Requesting new work unit for slot 01: READY gpu:0:Ellesmere XT [Radeon RX 470/480/570/580/590] from 40.114.52.201
09:34:28:WU01:FS01:Connecting to 40.114.52.201:8080
09:34:53:WU01:FS01:Downloading 29.70MiB
09:34:59:WU01:FS01:Download 39.99%
09:35:05:WU01:FS01:Download 82.93%
09:35:07:WU01:FS01:Download complete
09:35:07:WU01:FS01:Received Unit: id:01 state:DOWNLOAD error:NO_ERROR project:11777 run:0 clone:9482 gen:6 core:0x22 unit:0x0000000f287234c95e7432cf933d2a85
09:35:07:WU01:FS01:Starting
09:35:07:WU01:FS01:Running FahCore: "C:\Program Files (x86)\FAHClient/FAHCoreWrapper.exe" C:\Users\ADM20\AppData\Roaming\FAHClient\cores/cores.foldingathome.org/v7/win/64bit/Core_22.fah/FahCore_22.exe -dir 01 -suffix 01 -version 705 -lifeline 12280 -checkpoint 20 -gpu-vendor amd -opencl-platform 0 -opencl-device 0 -gpu 0
09:35:07:WU01:FS01:Started FahCore on PID 5116
09:35:07:WU01:FS01:Core PID:10660
09:35:07:WU01:FS01:FahCore 0x22 started
09:35:08:WU01:FS01:0x22:*********************** Log Started 2020-04-07T09:35:07Z ***********************
09:35:08:WU01:FS01:0x22:*************************** Core22 Folding@home Core ***************************
09:35:08:WU01:FS01:0x22:      Type: 0x22
09:35:08:WU01:FS01:0x22:      Core: Core22
09:35:08:WU01:FS01:0x22:    Website: https://foldingathome.org/
09:35:08:WU01:FS01:0x22:  Copyright: (c) 2009-2018 foldingathome.org
09:35:08:WU01:FS01:0x22:    Author: John Chodera <john.chodera@choderalab.org> and Rafal Wiewiora
09:35:08:WU01:FS01:0x22:            <rafal.wiewiora@choderalab.org>
09:35:08:WU01:FS01:0x22:      Args: -dir 01 -suffix 01 -version 705 -lifeline 5116 -checkpoint 20
09:35:08:WU01:FS01:0x22:            -gpu-vendor amd -opencl-platform 0 -opencl-device 0 -gpu 0
09:35:08:WU01:FS01:0x22:    Config: <none>
09:35:08:WU01:FS01:0x22:************************************ Build *************************************
09:35:08:WU01:FS01:0x22:    Version: 0.0.2
09:35:08:WU01:FS01:0x22:      Date: Dec 6 2019
09:35:08:WU01:FS01:0x22:      Time: 21:30:31
09:35:08:WU01:FS01:0x22: Repository: Git
09:35:08:WU01:FS01:0x22:  Revision: abeb39247cc72df5af0f63723edafadb23d5dfbe
09:35:08:WU01:FS01:0x22:    Branch: HEAD
09:35:08:WU01:FS01:0x22:  Compiler: Visual C++ 2008
09:35:08:WU01:FS01:0x22:    Options: /TP /nologo /EHa /wd4297 /wd4103 /Ox /MT
09:35:08:WU01:FS01:0x22:  Platform: win32 10
09:35:08:WU01:FS01:0x22:      Bits: 64
09:35:08:WU01:FS01:0x22:      Mode: Release
09:35:08:WU01:FS01:0x22:************************************ System ************************************
09:35:08:WU01:FS01:0x22:        CPU: AMD Ryzen 5 2600 Six-Core Processor
09:35:08:WU01:FS01:0x22:    CPU ID: AuthenticAMD Family 23 Model 8 Stepping 2
09:35:08:WU01:FS01:0x22:      CPUs: 12
09:35:08:WU01:FS01:0x22:    Memory: 15.95GiB
09:35:08:WU01:FS01:0x22:Free Memory: 8.58GiB
09:35:08:WU01:FS01:0x22:    Threads: WINDOWS_THREADS
09:35:08:WU01:FS01:0x22: OS Version: 6.2
09:35:08:WU01:FS01:0x22:Has Battery: true
09:35:08:WU01:FS01:0x22: On Battery: false
09:35:08:WU01:FS01:0x22: UTC Offset: 2
09:35:08:WU01:FS01:0x22:        PID: 10660
09:35:08:WU01:FS01:0x22:        CWD: C:\Users\ADM20\AppData\Roaming\FAHClient\work
09:35:08:WU01:FS01:0x22:        OS: Windows 10 Pro
09:35:08:WU01:FS01:0x22:    OS Arch: AMD64
09:35:08:WU01:FS01:0x22:********************************************************************************
09:35:08:WU01:FS01:0x22:Project: 11777 (Run 0, Clone 9482, Gen 6)
09:35:08:WU01:FS01:0x22:Unit: 0x0000000f287234c95e7432cf933d2a85
09:35:08:WU01:FS01:0x22:Reading tar file core.xml
09:35:08:WU01:FS01:0x22:Reading tar file integrator.xml
09:35:08:WU01:FS01:0x22:Reading tar file state.xml
09:35:08:WU01:FS01:0x22:Reading tar file system.xml
09:35:08:WU01:FS01:0x22:Digital signatures verified
09:35:08:WU01:FS01:0x22:Folding@home GPU Core22 Folding@home Core
09:35:08:WU01:FS01:0x22:Version 0.0.2
09:35:23:WU01:FS01:0x22:Completed 0 out of 2000000 steps (0%)
09:35:23:WU01:FS01:0x22:Temperature control disabled. Requirements: single Nvidia GPU, tmax must be < 110 and twait >= 900
09:37:36:WU01:FS01:0x22:Completed 20000 out of 2000000 steps (1%)
09:39:49:WU01:FS01:0x22:Completed 40000 out of 2000000 steps (2%)
09:42:05:WU01:FS01:0x22:Completed 60000 out of 2000000 steps (3%)
09:43:40:WU01:FS01:0x22:Bad State detected... attempting to resume from last good checkpoint. Is your system overclocked?
09:43:40:WU01:FS01:0x22:Following exception occured: Particle coordinate is nan
09:43:44:WU01:FS01:0x22:Bad State detected... attempting to resume from last good checkpoint. Is your system overclocked?
09:43:44:WU01:FS01:0x22:Following exception occured: Particle coordinate is nan
09:43:47:WU01:FS01:0x22:Bad State detected... attempting to resume from last good checkpoint. Is your system overclocked?
09:43:47:WU01:FS01:0x22:Following exception occured: Particle coordinate is nan
09:43:47:WU01:FS01:0x22:ERROR:114: Max Retries Reached
09:43:47:WU01:FS01:0x22:Saving result file ..\logfile_01.txt
09:43:47:WU01:FS01:0x22:Saving result file badstate-0.xml
09:43:47:WU01:FS01:0x22:Saving result file badstate-1.xml
09:43:47:WU01:FS01:0x22:Saving result file badstate-2.xml
09:43:47:WU01:FS01:0x22:Saving result file checkpointState.xml
09:43:48:WU01:FS01:0x22:Saving result file checkpt.crc
09:43:48:WU01:FS01:0x22:Saving result file positions.xtc
09:43:48:WU01:FS01:0x22:Saving result file science.log
09:43:48:WU01:FS01:0x22:Folding@home Core Shutdown: BAD_WORK_UNIT
09:43:48:WARNING:WU01:FS01:FahCore returned: BAD_WORK_UNIT (114 = 0x72)
09:43:48:WU01:FS01:Sending unit results: id:01 state:SEND error:FAULTY project:11777 run:0 clone:9482 gen:6 core:0x22 unit:0x0000000f287234c95e7432cf933d2a85

La ça ressemble plus à un GPU instable ... Sad

Si ça se reproduit à chaque fois, il va falloir investiguer ... par exemple on peut commencer par augmenter la ventilation manuellement si la courbe par défaut n'est pas assez agressive ...

(07-04-2020 13:55:04)JWhy a écrit : Purée, impossible d'installer les derniers drivers WHQL (20.2.2) ... quel looze...
Il me dit que le package est incomplet...

Je vais essayer la 20.4.1
Ca ne servira à rien ... le bug est pas encore corrigé.

Ah oui, et dans les listes des problèmes connus avec les GPUs AMD, il ne faut pas oublier celui là :
Citation :Known Issues
Running Folding@Home while also running an application using hardware acceleration of video content can cause a system hang or black screen. A potential workaround is disabling hardware acceleration for the application that has it enabled.
Répondre
#13
(07-04-2020 14:40:25)toTOW a écrit :
(07-04-2020 13:55:04)JWhy a écrit : Purée, impossible d'installer les derniers drivers WHQL (20.2.2) ... quel looze...
Il me dit que le package est incomplet...

Je vais essayer la 20.4.1
Ca ne servira à rien ...

Bah si quand même un petit peu Smile
Là j'étais revenu sur le driver générique Windows vu que la tentative d'install de la 20.2.2 avait tout supprimée Smile

(finalement, j'ai pu installer la 20.4.1)
Répondre
#14
(07-04-2020 11:47:24)JWhy a écrit : Et 3 de plus depuis mon dernier msg ...

J'ai fait ce que j'ai pu pour aider l'AF à rester dans le TOP 20 Redface
[Image: wu_faulty.png]
Répondre
#15
(07-04-2020 14:40:25)toTOW a écrit : La ça ressemble plus à un GPU instable ... Sad

Si ça se reproduit à chaque fois, il va falloir investiguer ... par exemple on peut commencer par augmenter la ventilation manuellement si la courbe par défaut n'est pas assez agressive ...

Ah oui, et dans les listes des problèmes connus avec les GPUs AMD, il ne faut pas oublier celui là :
Citation :Known Issues
Running Folding@Home while also running an application using hardware acceleration of video content can cause a system hang or black screen. A potential workaround is disabling hardware acceleration for the application that has it enabled.

Possible que c'était lié à l'accélération matériel, je l'avais activé dans les options du pilotes. Pas de soucis de température (maxi 70°C sur le GPU et 65°C sur le CPU).

J'ai réussi à terminer une autre WU sur le gpu et en refaire partir une autre mais en redémarrant le client 2 fois.

En fait, les 3 seules WU assignées avec succès au GPU ont toujours été acceptées lors de la première tentative après redémarrage du client.
Répondre
#16
1e transition réussie sans attente entre deux WU sur le GPU ! Smile

J'ai appliqué l'instruction "next-unit-percentage" à 90.

Je l'ai remis à 1350Mhz et ça ne semble pas poser de problème. edit : en fait si ça pose problème! A 1285Mhz c'est mieux Smile
Répondre
#17
Est-ce que vous recevez moins d'unités qui ne fonctionnent pas ?
Répondre
#18
Je n'ai que quelques jours de recul, mais depuis hier soir ça enchaine sans problème sur le cpu comme sur le gpu.
Répondre
#19
Code :
22:01:31:WU01:FS00:Sending unit results: id:01 state:SEND error:NO_ERROR project:11778 run:0 clone:9630 gen:18 core:0x22 unit:0x00000022287234c95e74323e905d7457
05:48:01:WU00:FS00:Sending unit results: id:00 state:SEND error:NO_ERROR project:11778 run:0 clone:25465 gen:0 core:0x22 unit:0x00000003287234c95e77489d2858c348
13:40:40:WU01:FS00:Sending unit results: id:01 state:SEND error:NO_ERROR project:11761 run:0 clone:11982 gen:2 core:0x22 unit:0x0000000380fccb0a5e71141282ce43cb

Aucune WU en erreur pour l'instant.
Et aucune provenant d'un des projects qui étaient FAULTY.
Donc on va dire que c'est les probables modifs d'assignement de WU, coté Stanford, qui ont résolu le pb, plutot que la reconfiguration de la CG/du driver Smile

Et pas de pb de WU qui n'arrivent pas , non plus !

Good job , Stanford Smile
Répondre
#20
Il n'y a plus rien à Stanford Wink
Répondre





Utilisateur(s) parcourant ce sujet : 1 visiteur(s)