[IGIRTC-91] CREAM v. 1.14.1 - certificazione Created: 24/Jul/12  Updated: 28/Sep/12  Due: 03/Sep/12  Resolved: 28/Sep/12

Status: Closed
Project: IGI-MW - Release-Testing-Certification
Component/s: None
Affects Version/s: None
Fix Version/s: None
Security Level: Public (Visbile by non-authn users.)

Type: Task Priority: Major
Reporter: Doina Cristina Duma Assignee: Sara Bertocco [X] (Inactive)
Resolution: Fixed Votes: 0
Labels: IGI-Testing
Remaining Estimate: 2 weeks
Time Spent: Not Specified
Original Estimate: 2 weeks


 Description   

CREAM v. 1.14.1 certificazione (EMI 2)

task:
https://savannah.cern.ch/task/?31337

repositories da usare - vedi info in:

https://wiki.italiangrid.it/twiki/bin/view/IGIRelease/IGITestCert#Certification_Repositories
(aggiornerò con i rpm necessari)

creare twiki con report test & certificazione in:
https://wiki.italiangrid.it/twiki/bin/view/IGIRelease/TestingCreamDgas

Pre-Certification report:
https://wiki.italiangrid.it/twiki/bin/view/CREAM/RegressionTestWorkPlan#Fixes_provided_with_CREAM_1_14_1



 Comments   
Comment by Doina Cristina Duma [ 28/Sep/12 ]

rilasciato con EMI 2 Update 3 (25.09.2012)

Comment by Lisa Zangrando [ 05/Sep/12 ]

ho controllato e vanno bene.
Ciao e grazie di tutto!
Lisa

Comment by Doina Cristina Duma [ 05/Sep/12 ]

Lisa,

dal nostro punto di vista consideriamo certificata la versione 1.14.1

potresti guardare i test report attacati al task savannah, e i link menzionati li?
Se va bene anche per te - puoi mettere il task in Certified.

Comment by Doina Cristina Duma [ 04/Sep/12 ]

Se in realtaà i test vanno - per adesso va bene cosi. Quando abbiamo tempo sarebbe da provare l'ultima versione.
Per la regression va bene, possiamo aspettare fino al pomeriggio (16) per il Certified.

Comment by Sara Bertocco [X] (Inactive) [ 04/Sep/12 ]

Sto usando una versione vecchia (patchata per l'autenticazione) cream_test-1.7-1 mentre e` uscita la 1.8 che comunque dovrebbe avere l'autenticazione con le chiavi e qualche test in piu`.
Si per la regression, vuol dire che non l'ho lanciata, ma posso farlo ora.

Comment by Doina Cristina Duma [ 04/Sep/12 ]

regression - vuole dire la regression testsuite non è stata usata?

Comment by Doina Cristina Duma [ 04/Sep/12 ]

avevo visto che i greci hanno rilasciato una nuova versione della testsuite - stai usando quella?

Comment by Sara Bertocco [X] (Inactive) [ 04/Sep/12 ]

Ho fatto il test a mano e sembra andare, ci deve essere qualche problema su come sono gestiti degli sleep. Penso si possa mettere certified, io non ho trovato altri errori. Non sono ancora fatti i regression test.

Comment by Doina Cristina Duma [ 04/Sep/12 ]

non vedo commenti di Sergio spiegando il mottivo dell'esclusione di quei test - mettiamoli nella lista di TODO apena finito anche WMS 3.4
Aparte questi due test exclusi, ci sono altri errori?

Possiamo considerare..."certificato"?

Comment by Sara Bertocco [X] (Inactive) [ 04/Sep/12 ]

Per quanto riguarda i functionality tests vedo che Sergio per pbs ha
su SL5: pybot -e glue -e Job_man cream_test_suite.html
su SL6: pybot -e glue -e Job_man -e proxy_purge -e cpu_alloc cream_test_suite.html
quindi per ottenere un risultato pulito ha escluso il test sulla purge del proxy su SL6. Anche io nei test su SL6 LSF ho un fallimento del test della proxy purge. Credo dovremmo capire se e` un problema della testsuite o del ce.

Comment by Doina Cristina Duma [ 03/Sep/12 ]

ho attacato i reports al task, ma ancora non ho messo Certified.

domani sentiamoci per vedere se si puo o no dichiarare certified.

Comment by Lisa Zangrando [ 03/Sep/12 ]

va bene, grazie.

Comment by Doina Cristina Duma [ 03/Sep/12 ]

Oggi compilo i report per mettere in certified.

La sett scorsa abbiamo detto che verifichiamo l'update su una versione - per PBS gia' fatta su SL5, basta cosi.
Per il resto puoi procedere, senza i due regression, non abbiamo tempo e sono stati già verificati su SL5. (il codice è diverso su SL6? non mi sembrava sono la stessa versione. direi che possiamo sopravivere visto che abbiamo WMS 3.4 da fare).

Intanto stasera attachero i report neccessari (Lisa, metto in certified anche se mancano pezzi fino a domani, ci saranno dei link per quello che manca ancora)

Comment by Danilo Nicola Dongiovanni [ 03/Sep/12 ]

io avevo segnato ste amcchine da creare.
se volete le creo, sostituendo le sl6 con sl5.
Unica cosa da capire e' come ottimizzare il torque server e wn per non centuplicare le macchine.
invece che fare altri wn non potrei usare un batch esistente?

cert-45.cnaf.infn.it SL 6 Epel EMI CREAM PBS 2.0.0 TBD CREAM EMI2
cert-46.cnaf.infn.it Debian 6 Epel EMI CREAM PBS 2.0.0 TBD CREAM EMI2
cert-47.cnaf.infn.it SL 6 Epel EMI WN 2.0.0 TBD WN EMI2
cert-48.cnaf.infn.it Debian 6 Epel EMI WN 2.0.0 TBD WN EMI2
WN EMI2 SL 6 Epel EMI WN 2.0.0 TBD
WN EMI2 Debian 6 Epel EMI WN 2.0.0 TBD

Comment by Sara Bertocco [X] (Inactive) [ 03/Sep/12 ]

All'inizio si era detto:
"test update a CNAF - verificare esistenza 4 macchine (2SL5, 2SL6 + qualche WN per torque) con Danilo"
Ci sono le macchine per l'update SL6 al CNAF? Altrimenti scratcho quella che ho a Padova e faccio il test li`.

Comment by Sara Bertocco [X] (Inactive) [ 03/Sep/12 ]

Provo a riassumere le cose da fare. Cristina se vedi altro fammi sapere.
Mancano:

  • SL6 PBS update+config (non ci sono i report nella wiki)
  • SL6 LSF runnare la functionality testsuite
    (Chiesto da Sergio) Runnare la regression testsuite sui 2 end point:
    cream-30.pd.infn.it:8443/cream-pbs-cert (SL5 LSF)
    cream-20.pd.infn.it:8443/cream-lsf-cert (SL5 PBS)
    io direi di runnare anche su una SL6.

Per i bug da fissare sono ancora da verificare su LSF:
https://savannah.cern.ch/bugs/?95593
https://savannah.cern.ch/bugs/?89153

Comment by Doina Cristina Duma [ 31/Aug/12 ]

grazie mille!
non preoccuparti per i report, quelli li faccio io lunedi in quelche minuto prima di mettere il task in certified, sono "formali". L'importante e la tiwiki completa con rissultati corretti.

Grazie di nuovo e buone ferie!

Comment by Sergio Traldi [X] (Inactive) [ 31/Aug/12 ]

Ciao Cristina e Sara,
allora ho fatto prova di update della SL5 tutto liscio.

Ho fatto tutti i regression anche quello del DB modificando momentaneamente i file sul cream-30 che stao certificando, ora lo ho ripristinato, ma come si puo' vedere ha funzionato. La password messa per i grant che ho scritto omit e' quella nel file services/glite-creamce di cream-20, utente glite.

Non ho preparato i 2 documenti di certification e testing, ma basta solo riempirli, tutto il resto e' stato fatto.
Non ho testato regression vecchi, magari Sara quando torni runna la regression testsuite sui 2 end point:

  • cream-30.pd.infn.it:8443/cream-pbs-cert
  • cream-20.pd.infn.it:8443/cream-lsf-cert

Qui c'e' tutto quello fatto:
https://wiki.italiangrid.it/twiki/bin/view/IGIRelease/EMI2CREAMTask31337#Bug_89153_JobDBAdminPurger_canno

Se avete problemi o urgenze chiamatemi e vedo di collegarmi, per dettagli non scritti.
Ciao
Sergio

Comment by Lisa Zangrando [ 30/Aug/12 ]

perfetto! grazie,
Lisa

Comment by Doina Cristina Duma [ 30/Aug/12 ]

ok!

grazie, allora andiamo avanti con il resto.

Per i conformance tests - l'errore sulla validazione delle info Glue 2.. non è un vero errore. l"information.publication" è un valore "inventato":

  1. Capabilities are not very well-defined yet!
  2. There doesn't seem to be any match in the existing list for information
  3. publication, so let's invent one

get_capabilities = echo information.publication

per cui metteremo nel report un commento del tipo "fake error caused by the use of an invented value by the developers of the glite-info-provider-service, not yet present in the Glue2 specifications"

Comment by Lisa Zangrando [ 30/Aug/12 ]

Ciao Cristina,

abbiamo verificato il fix del bug #95480 usando lo stesso test e CE della Sara (vedi sopra) e funziona.

[dorigoa@cream-51 ~]$ glite-wms-job-status https://wmslb01.grid.hep.ph.ic.ac.uk:9000/7qWEPr3xUMiyz3gSfrqsGA

======================= glite-wms-job-status Success =====================
BOOKKEEPING INFORMATION:

Status info for the Job : https://wmslb01.grid.hep.ph.ic.ac.uk:9000/7qWEPr3xUMiyz3gSfrqsGA
Current Status: Done(Success)
Logged Reason(s):

  • job completed
  • Job Terminated Successfully
    Exit code: 0
    Status Reason: Job Terminated Successfully
    Destination: cream-20.pd.infn.it:8443/cream-lsf-cert
    Submitted: Wed Aug 29 16:09:45 2012 CEST
    ==========================================================================

[dorigoa@cream-51 ~]$ glite-wms-job-output --list-only https://wmslb01.grid.hep.ph.ic.ac.uk:9000/7qWEPr3xUMiyz3gSfrqsGA

Connecting to the service https://wms01.grid.hep.ph.ic.ac.uk:7443/glite_wms_wmproxy_server

================================================================================

JOB GET OUTPUT OUTCOME

JobId: https://wmslb01.grid.hep.ph.ic.ac.uk:9000/7qWEPr3xUMiyz3gSfrqsGA

  • file: gsiftp://wms01.grid.hep.ph.ic.ac.uk:2811/var/SandboxDir/7q/https_3a_2f_2fwmslb01.grid.hep.ph.ic.ac.uk_3a9000_2f7qWEPr3xUMiyz3gSfrqsGA/output/stderr
    size (bytes): 0
  • file: gsiftp://wms01.grid.hep.ph.ic.ac.uk:2811/var/SandboxDir/7q/https_3a_2f_2fwmslb01.grid.hep.ph.ic.ac.uk_3a9000_2f7qWEPr3xUMiyz3gSfrqsGA/output/stdout
    size (bytes): 15
    ================================================================================

[dorigoa@cream-51 ~]$ glite-wms-job-output --dir . https://wmslb01.grid.hep.ph.ic.ac.uk:9000/7qWEPr3xUMiyz3gSfrqsGA

Connecting to the service https://wms01.grid.hep.ph.ic.ac.uk:7443/glite_wms_wmproxy_server

================================================================================

JOB GET OUTPUT OUTCOME

Output sandbox files for the job:
https://wmslb01.grid.hep.ph.ic.ac.uk:9000/7qWEPr3xUMiyz3gSfrqsGA
have been successfully retrieved and stored in the directory:
/home/dorigoa/dorigoa_7qWEPr3xUMiyz3gSfrqsGA

================================================================================

[dorigoa@cream-51 ~]$ ll /home/dorigoa/dorigoa_7qWEPr3xUMiyz3gSfrqsGA
total 4
rw-rw-r- 1 dorigoa dorigoa 0 Aug 29 16:20 stderr
rw-rw-r- 1 dorigoa dorigoa 15 Aug 29 16:20 stdout

Comment by Lisa Zangrando [ 29/Aug/12 ]

confermo, le istruzioni di Sergio sono corrette e risolvono il problema.
Grazie!!
Lisa

Comment by Sergio Traldi [X] (Inactive) [ 29/Aug/12 ]

Si l'idea la ho ed e' questa.
Fare da cream-18 un bel service lsf restart

e riprovare se funziona bene sei a cavallo se non funziona dopo aver fatto quello:

entra in cream-17
ed esegui un bel
lsadmin reconfig

ti chiede di restartare il lim solo sul master e dici di no
che vuoi che restarti su tutti quindi un bel yes alla seconda domanda di procedere con tutti i restart.

A quel punto dovrebbe funzionare il tutto.

Comment by Sergio Traldi [X] (Inactive) [ 29/Aug/12 ]

Per Cream developers:

Nelle descrizioni dei regression sarebbe bene specificare meglio cosa fare per tutti i bug. Mi spiego meglio.
Nella descrizione di come testare il bug #95593:
https://wiki.italiangrid.it/twiki/bin/view/CREAM/RegressionTestWorkPlan#Bug_95593_CREAM_cannot_insert_in

Dice di creare un pool account OK
Dice di rirunnare YAIM OK
Dice di lanciare dei comandi assincroni jobStart e/o jobCancel con utente creato. NON VA BENE
Ecco io che so un po' come e' fatto cream capisco che dalla UI devo fare la submit di un job e in caso una cancel, capisco anche che se lo faccio con la VO dteam devo essere mappato nell'utente creato, quindi meglio se lasciare solo un utente con piu' di 14 caratteri come pool account di dteam ad esempio.

Pero' se invece che fare la certificazione io la fa Danilo e Fabio, credo loro si trovino in difficolta' a interpretare lanciare dei comandi assincroni jobStart e jobCancel.

Quindi chiederei di specificare meglio il da farsi se dal CE o dalla UI e come avete fatto voi a precertificarlo.

Ciao
Sergio

Comment by Lisa Zangrando [ 29/Aug/12 ]

Ho seguito le istruzioni di Sergio ed applicate a cream-18 ma non funzionano come sperato. I job sottomessi da cream-18 vanno in running e poi done-failed con la solita "reason=127". Invece una sleep sottomessa manualmente dalla stessa macchina funziona. La cosa strana e' che non vengono nemmeno restituiti i due file relativi allo stdout e stderr del job. E' come se LSF non riuscisse a gestire il trasferimento di file.
Qualche idea?

Ciao e grazie,
Lisa

Comment by Sergio Traldi [X] (Inactive) [ 29/Aug/12 ]

Link utile a tutti:
https://gimo2.pd.infn.it:25555/pmwiki/pmwiki.php?n=Site.Network

Comment by Doina Cristina Duma [ 29/Aug/12 ]

il pb è che ci sono troppe "sconosciute" - provando verificare l'errore che avevi Lisa ha visto che non funziona più LSF. Da quando.... non si sa.
Adesso che LSF sembra funzionare si dovrebb riprovare con i veri job.

Comment by Sara Bertocco [X] (Inactive) [ 29/Aug/12 ]

Ma se il problema fosse stato quello come ha fatto il job ad andare in done-ok? Se c'e` il problema dell'/etc/resolv.conf mal configurato i job falliscono. Verificate un po' se adesso il fix va, oppure verifico io quando torno. Poi il mio commento e` del 9 agosto, prima dell'update del DNS.

Comment by Doina Cristina Duma [ 29/Aug/12 ]

quindi - il pb è che le macchine cream-* non hanno ben configurate e mi sembrava che era una cosa che da tempo mi ricordavo che abbiamo dicusso:

  • il dhclient non deve essere abbilitato sulle macchine con IP pubblico (cream-*)
  • il resolv.conf deve essere statico
  • deve contenere anche "nameserver 193.206.210.147"
    Altriemnti anche se viene modifc il resolv.conf al primo reboot viene rescrito male, ed è quello che probabilm è successo in concomitanza con delle modfiche di Fulvia...

Ho modificato il /etc/resolv.conf della cream-17 che non risolveva i pn.pd per cui non esportava le directory di lsf ai prod-wn-001/2/3. Adesso
funziona:
[tst01@cream-20 ~]$ bsub -q cert /bin/sleep 60
Job <701072> is submitted to queue <cert>.
[tst01@cream-20 ~]$ bjobs -uall
JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME
701072 tst01 PEND cert cream-20 */sleep 60 Aug 29 11:28
[tst01@cream-20 ~]$ bjobs -uall
JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME
701072 tst01 RUN cert cream-20 prod-wn-001 */sleep 60 Aug 29 11:28
[tst01@cream-20 ~]$ bjobs -uall
JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME
701072 tst01 RUN cert cream-20 prod-wn-001 */sleep 60 Aug 29 11:28
[tst01@cream-20 ~]$ bhist -l 701072

Job <701072>, User <tst01>, Project <default>, Command </bin/sleep 60>
Wed Aug 29 11:28:53: Submitted from host <cream-20>, to Queue <cert>, CWD <$HOM
E>;
Wed Aug 29 11:28:58: Dispatched to <prod-wn-001>;
Wed Aug 29 11:28:58: Starting (Pid 23057);
Wed Aug 29 11:28:58: Running with execution home </home/tst01>, Execution CWD <
/home/tst01>, Execution Pid <23057>;

Summary of time in seconds spent in various states by Wed Aug 29 11:29:18
PEND PSUSP RUN USUSP SSUSP UNKWN TOTAL
5 0 20 0 0 0 25

Consgilo caldamente di aleineare tutte le macchine dal punto di vista rete.
Sergio mette su gimo2 la procedura per cambiare, il corretto contenuto del resolv.conf per macchine con IP pubblico e IP privato. Quando finisce mettera il link qui.

Comment by Doina Cristina Duma [ 29/Aug/12 ]

non penso serve spostare niente, ma capire meglio.

Comment by Lisa Zangrando [ 29/Aug/12 ]

Ciao Cristina, grazie per le informazioni.
Intendi un problema hardware?
Come procediamo? Spostiamo l'LSF master?

grazie,
Lisa

Comment by Doina Cristina Duma [ 28/Aug/12 ]

per LSF, quello che riesco vedere à:
[tst01@cream-17 ~]$ bsub -q cert sleep 60
Job <701064> is submitted to queue <cert>.
[tst01@cream-17 ~]$ bjobs -uall
No unfinished job found
[tst01@cream-17 ~]$ bjobs -l 701064

Job <701064>, User <tst01>, Project <default>, Status <EXIT>, Queue <cert>, Com
mand <sleep 60>
Tue Aug 28 17:03:58: Submitted from host <cream-17>, CWD <$HOME>;
Tue Aug 28 17:04:00: Started on <prod-wn-002>, Execution Home </home/tst01>, Ex
ecution CWD </home/tst01>;
Tue Aug 28 17:04:00: Exited with exit code 255. The CPU time used is 0.0 second
s.
Tue Aug 28 17:04:00: Completed <exit>.

SCHEDULING PARAMETERS:
r15s r1m r15m ut pg io ls it tmp swp mem
loadSched - - - - - - - - - - -
loadStop - - - - - - - - - - -

ce sembra essere un pb con la macchina.

dal punto di vista LSF sembrerebbe andare:
[tst01@cream-17 ~]$ lsrun -v -m cream-20 hostname
<<Execute hostname on remote host cream-20>>
cream-20.pd.infn.it
[tst01@cream-17 ~]$ lsrun -v -m prod-wn-002 hostname
<<Execute hostname on remote host prod-wn-002>>
prod-wn-002.pn.pd.infn.it

Comment by Doina Cristina Duma [ 28/Aug/12 ]

Ciao Lisa,

hai visto il commento con i problemi riscontrati da Sara?
Potresti guardare?

Grazie,
Cris

Comment by Doina Cristina Duma [ 28/Aug/12 ]

ok, continua con quello che è rimasto, grazie.

Comment by Sergio Traldi [X] (Inactive) [ 28/Aug/12 ]

Eccomi,
scusa per il ritardo.
Allora io per PBS avevo terminato i functionality, mancavano tutti i regression, avevo solo messo la descrizione di uno.
Per GLue1 e Glue2 c'e' solo il PASSED che e' un refuso della doc vecchia quindi sono ancora da fare quei test.
Io da oggi pomeriggio posso ricominicare e fare regression e glue1 e glue2, ... per quandto riguarda Torque/PBS.

Comment by Doina Cristina Duma [ 27/Aug/12 ]

qual'è lo stato della certificazione?
Siamo fermi, cosa manca?
Vedo Glue1 e Glu2 - PASSED ma non trovo i log.
mi sembra che anche altri log mancano.

Comment by Sara Bertocco [X] (Inactive) [ 09/Aug/12 ]

A me il fix non funziona. Lo avete provato solo su pbs o anche su lsf? (non so se si usa codice differente).
Il test che ho fatto e`:
prima verificato che riesco a prendere l'output con SANDBOX_TRANSFER_METHOD= , ma con prod-wms-01.pd.infn.it (con un programmino java ho verificato che e` "lexicographically greater than "gsiftp://localhost""). Poi ho cambiato:

[root@cream-20 ~]# grep SANDBOX_TRANSFER_METHOD /etc/glite-ce-cream/cream-config.xml
<parameter name="SANDBOX_TRANSFER_METHOD" value="LRMS" />
[root@cream-20 ~]# service tomcat5 restart
Stopping tomcat5: [ OK ]
Starting tomcat5: [ OK ]

Lanciato un job:
glite-wms-job-submit -a -c bug95480.conf -r cream-20.pd.infn.it:8443/cream-lsf-cert bug95480.jdl
[bertocco@cream-12 task31337]$ cat bug95480.conf
[
WmsClient = [
Requirements = (other.GlueCEInfoHostName == "cream-20.pd.infn.it");
#requirements = other.GlueCEStateStatus == "Production";
rank =-other.GlueCEStateEstimatedResponseTime ;
WMProxyEndPoints =

{"https://wms01.grid.hep.ph.ic.ac.uk:7443/glite_wms_wmproxy_server"}

;
#WMProxyEndPoints =

{"https://prod-wms-01.pd.infn.it:7443/glite_wms_wmproxy_server"}

;
VirtualOrganisation = "dteam";
MyProxyServer = "myproxy.cnaf.infn.it";
];
]

[bertocco@cream-12 task31337]$ cat bug95480.jdl
[
Type = "Job";
#VAR1 = "test1";
#VAR2 = "test2";
executable = "/bin/echo";
Arguments = "hello world!!!";
StdOutput="stdout";
StdError="stderr";
OutputSandbox =

{"stdout","stderr"}

;
]

[bertocco@cream-12 task31337]$ glite-wms-job-status https://wmslb01.grid.hep.ph.ic.ac.uk:9000/HhAI6eJU6zcSBAiVqRSBIA

======================= glite-wms-job-status Success =====================
BOOKKEEPING INFORMATION:

Status info for the Job : https://wmslb01.grid.hep.ph.ic.ac.uk:9000/HhAI6eJU6zcSBAiVqRSBIA
Current Status: Done (Success)
Logged Reason(s):

  • job completed
  • Job Terminated Successfully
    Exit code: 0
    Status Reason: Job Terminated Successfully
    Destination: cream-20.pd.infn.it:8443/cream-lsf-cert
    Submitted: Thu Aug 9 11:18:54 2012 CEST
    ==========================================================================

[bertocco@cream-12 task31337]$ glite-wms-job-output https://wmslb01.grid.hep.ph.ic.ac.uk:9000/HhAI6eJU6zcSBAiVqRSBIA

Connecting to the service https://wms01.grid.hep.ph.ic.ac.uk:7443/glite_wms_wmproxy_server

================================================================================

JOB GET OUTPUT OUTCOME

No output files to be retrieved for the job:
https://wmslb01.grid.hep.ph.ic.ac.uk:9000/HhAI6eJU6zcSBAiVqRSBIA

================================================================================

Comment by Lisa Zangrando [ 08/Aug/12 ]

Ciao Sara,
per testare il bug #95480 devi usare la jdl che trovi qui (https://wiki.italiangrid.it/twiki/bin/view/CREAM/RegressionTestWorkPlan#Bug_95480_CREAM_doesn_t_transfer) e sottomettere il job da un wms che abbia un'url che inizi per https://wms...
La tua jdl non va bene perche' impostando OutputSandboxBaseDestURI = "gsiftp://localhost"; istruisci CREAM a non trasferire l'output del job nel wms ma di lasciarlo nella sua sandbox.
Lisa

Comment by Sara Bertocco [X] (Inactive) [ 08/Aug/12 ]

Il messaggio che ricevo dal wms e`:
$ glite-wms-job-output https://wmslb01.grid.hep.ph.ic.ac.uk:9000/oFKbcf1x_KgHE2HWrG-e_w

Connecting to the service https://wms01.grid.hep.ph.ic.ac.uk:7443/glite_wms_wmproxy_server

================================================================================

JOB GET OUTPUT OUTCOME

No output files to be retrieved for the job:
https://wmslb01.grid.hep.ph.ic.ac.uk:9000/oFKbcf1x_KgHE2HWrG-e_w

================================================================================

Comment by Sara Bertocco [X] (Inactive) [ 08/Aug/12 ]

Per cert-41 non c'e` il certificato host, sanctorum mi dice:
RSA host key for cert-41 has changed and you have requested strict checking.
Host key verification failed.
Di solito questo succede quando e` stato richiesto un nuovo certificato (=>nuova chiave) ma non e` stato ancora salvato. In questo caso pero` non sembra esserci un nuovo certificato "in viaggio".
Ho ugualmente completato il test di installazione e configurazione da scratch usando il certificato di un'altra macchina, ma non posso fare i test di funzionalita`.

Per i test di update e configure-update non mi pare siano ancora state decise le macchine perche` aspettiamo il parere di Danilo sull'uso di quelle del testbed giusto?

Ho iniziato i test dei bug attaccati alla patch su SL5.
Bug #95480 : la jdl proposta nella ricettina del testplan non va bene perche` manca uno dei 2 tra OutputSandboxBaseDestURI o OutputSandboxDestURI. Aggiungendolo riesco a far girare il job, ma non riesco in nessun caso a recuperare l'output, che pero` sul ce c'e` e procurandomi il ceid riesco a recuperarlo con una glite-ce-job-output. Forse c'e` ancora qualcosa di sbagliato nella mia jdl:
[
Type = "job";
JobType = "normal";
StdOutput = "job.out";
Executable = "/bin/echo";
Arguments = "hello world!!!";
OutputSandboxBaseDestURI = "gsiftp://localhost";
OutputSandbox =

{ "job.out","job.err" }

;
StdError = "job.err";
]

Comment by Sara Bertocco [X] (Inactive) [ 07/Aug/12 ]

Per gli unit test c'e` il link alla versione 1.14.0 perche` glite-ce-common-java cui si riferiscono non e` cambiato in questa versione.

Comment by Sergio Traldi [X] (Inactive) [ 03/Aug/12 ]

Ciao,
per la parte PBS:
SL5 e SL6 install da ZERO e CONF OK (aggiungendo le 2 variabili per BDII)
Functionality TEST SL5 e SL6 OK
Regression in progress.

PARTE COMUNE
Gia' creata la documentazione wiki qui:
https://wiki.italiangrid.it/twiki/bin/view/IGIRelease/EMI2CREAMTask31337

Ci sono gia' tutti i log da me prodotti.

Comment by Doina Cristina Duma [ 31/Jul/12 ]

test install a PD
SL5 - cream-20 (LSF), cream-30 (PBS)
SL6 - cert-41 (LSF), cert-42 (PBS) + 3WN

test update a CNAF - verificare esistenza 4 macchine (2SL5, 2SL6 + qualche WN per torque) con Danilo

Comment by Doina Cristina Duma [ 31/Jul/12 ]
  • repository certificazione pronto (SL5 e SL6). Ho meso anche i bdii core e trustmanager che saranno rilasciati la sett prosima.
  • per la configurazione per il momento c'e' un errore in config_bdii_5.2 che ha un requires su BDII_IPV6_SUPPORT - si deve settare nel site-info.def a "no" prima di configurare ( se non sarà corretto, veranno aggiornate le ReleaseNotes del BDII core)
Comment by Doina Cristina Duma [ 31/Jul/12 ]

allora - direi che possiamo cominciare anche la certificazione del CREAM 1.14.1 - per l'Update di Settembre
preparo il repository di certification con i rpm neccessari.
Da decidere:

  • quali sono i scenari che possiamo fare
  • macchine da usare
Generated at Wed Jul 09 11:13:36 CEST 2025 using Jira 10.3.6#10030006-sha1:0dc21a711362757421d62af2e50bcb9585207f88.