Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

incidents [2016/12/16 10:15] (Version actuelle)
Ligne 1: Ligne 1:
 +Modifié par Schaeffer, le 25 Oct 2006\\
 +\\
 +
 +====== incidents ======
 +
 +\\
 +\\
 +\\
 +
 +**2006-10-25 10:59:21 [ jschaeff ] Un pool désactivé**
 +
 +\\
 +\\
 +Un message d'​erreur étrange concernant un des pools :
 +<​code>​
 +pool-disk-sc3-19 ​ ccxfer19Domain ​ [204]  0001000000000000056311A8 java.io.InterruptedIOException
 +</​code>​
 +Ce pnfsID n'est pas valide. J'ai réactivé le pool :
 +<​code>​
 +pool enable
 +</​code>​
 +\\
 +
 +**2006-08-10 16:22:53 [ jschaeff ] Récupération d'un fichier impossible : dccp reste bloqué**
 +
 +\\
 +Par exemple pour le fichier :
 +<​code>​
 +/​pnfs/​in2p3.fr/​data/​atlas/​disk/​dq2/​testIdeal_06/​testIdeal_06.007042.singlepart_gamma_Et60.recon.AOD.v12000101/​testIdeal_06.007042.singlepart_gamma_Et60.recon.AOD.v12000101._00007.pool.root.5
 +</​code>​
 +Ce fichier appartient à un répertoire taggé "​disk-dq2"​\\
 +lorsqu'​on essayes de le récupérer à partir d'une ccali par dccp on reste en attente indéfinie sur :
 +<​code>​
 +Connected to ccsrm.in2p3.fr:​22125
 +Setting hostname to ccali26.in2p3.fr.
 +Sending control message: 1 0 client open
 +"​dcap://​ccsrm.in2p3.fr:​22125/​pnfs/​in2p3.fr/​data/​atlas/​disk/​dq2/​testIdeal_06/​testIdeal_06.007042.singlepart_gamma_Et60.recon.AOD.v12000101/​testIdeal_06.007042.singlepart_gamma_Et60.recon.AOD.v12000101._00007.pool.ro@¯Ï ​ i°(dÿ¿ÄÄHdÿ¿ªH¯õH¯Xdÿ¿Äå
 +</​code>​
 +Les caractères bizaroïdes dans la sortie de debug m'ont induit en erreur un certain temps.\\
 +Sur le dCapDoor correspondant à cette requête, on voit apparaitre la ligne :
 +<​code>​
 +1 -> io [<​unknown>​] [000100000000000003A01250] {timer=2268465} [1][3884][26313] WaitingForGetPool(xxxx) ​
 +</​code>​
 +De plus, lorsqu'​on veut récupérer le fichier à partir de la machine cclcgatlas, cela fonctionne.\\
 +\\
 +En fait, dans la configuration du PoolManager,​ la resource **atlas-disk-dq2** est uniquement liée à la resource réseau **world-net** qui regroupe les adresses IP de type 0.0.0.0/​0.0.0.0\\
 +De plus, une resource réseau **workers-net** définit un ensemble d'​adresse IP auquel appartiennent les addresses des machines ccali.\\
 +Le PoolManager identifie les machines ccali comme appartenant à la resource réseau **workers-net** mais pas à la resource **world-net** qui est la seule resource que le PoolManager sait lier à disk-dq2. Le PoolManager ne saura donc pas faire le lien entre une machine ccali, un fichier de type disk-dq2 et un pool, donc aucun pool n'est sélectionné. CQFD\\
 +\\
 +J'ai posté sur la liste de diffusion pour savoir pourquoi aucun message d'​erreur dcap ne remonte au client dans ces cas là. La réponse de Patrick est que dCache a été conçu dans l'​idée de ne jamais faire d'​echec pour que le client soit satisfait s'il attend suffisamment longtemps.\\
 +\\
 +J'ai ajouté le lien link-atlas-dq2-inside :
 +<​code>​
 +psu create link link-atlas-dq2-inside ugroup-atlas-disk-dq2 workers-net
 +psu add link link-atlas-dq2-inside pgroup-atlas-dq2
 +psu set link link-atlas-dq2-inside ​ -readpref=10 -writepref=10 -cachepref=10
 +save
 +</​code>​
 +Malheureusement le comportement ne semble pas s'​améliorer. Le PoolManager affiche :
 +<​code>​
 +10.01.40 ​ 000100000000000003A01250 : ACTIVATING STATE ENGINE 000100000000000003A01250 251678123
 +10.01.40 ​ 000100000000000003A01250 : StageEngine called in mode Suspended with object alive
 +10.01.40 ​ 000100000000000003A01250 : CheckFilePingHandler : alive called
 +10.01.40 ​ 000100000000000003A01250 : StageEngine left with   : Suspended ​ (Wait)
 +</​code>​
 +En fait il fallait lancer des "rc retry" pour les requêtes qui ne fonctionnaient pas à cause de cette configuration manquante.\\
 +Du coups, il en manquait aussi une autre :
 +<​code>​
 +psu create link link-cms-import-inside ugroup-cms-import ​ workers-net
 +psu add link link-cms-import-inside pgroup-cms-import
 +psu set link link-cms-import-inside -readpref=10 -writepref=10 -cachepref=10
 +</​code>​
 +\\
 +
 +**2006-08-07 09:23:58 [ jschaeff ] Too many open files**
 +
 +\\
 +Ce WE, à 2 reprises les pools ccxfer09 puis ccxfer16 se sont cassés la figure en crachant ce message que l'on peut voir apparaitre sur la page [[http://​ccsrm.in2p3.fr:​2288/​usageInfo|usageInfo]] :
 +<​code>​
 +000100000000000003C62AB0 java.io.FileNotFoundException:​ /​data/​2/​pool-disk-sc3-10/​pool/​control/​.SI-000100000000000003C62AB0 (Too many open files)
 +</​code>​
 +Sur la machine en question, on peut voire les symptomes suivants :\\
 +\\
 +# lsof | grep wc -l\\
 +1825\\
 +\\
 +Parmis ces lignes on en retrouve 448 de ce type :
 +<​code>​
 +java        846     ​root ​ 295u  IPv4   ​15446008 ​                TCP ccxfer16.in2p3.fr:​47824->​ccxfer04.in2p3.fr:​55918 (CLOSE_WA
 +IT)
 +</​code>​
 +et\\
 +540 de ce type :
 +<​code>​
 +java        846     ​root ​ 636w  FIFO        0,5            15480427 pipe
 +</​code>​
 +Les deux serveurs de disque qui ont eu cette panne ont des pools de type Service Challenge. Nous recherchons quelle activité peut créer de tels symptomes...\\
 +\\
 +\\
 +\\
 +\\
 +
 +**2006-05-23 15:50:57 [ jschaeff ] Incident du 23/05 : transferts echoués avec behar.iihe.ac.be**
 +
 +\\
 +\\
 +2006-05-23 10:​01:​43.649 pool-cms-import1@ccxfer05Domain 000100000000000002D8CD40 0 import:​cms@osm behar.iihe.ac.be t org.globus.ftp.exception.ServerException:​ The server uses unknown communication protool. Custom message: (error code 2) [Nested exception message: Reply string too short. Custom message: Minimum 1st line length = 4. Here's the incorrect 1st line -><- (error code 1)] [Nested exception is org.globus.ftp.exception.FTPReplyParseException:​ Reply string too short. Custom message: Minimum 1st line length = 4. Here's the incorrect 1st line -><- (error code 1)]\\
 +\\
 +Sur ccxfer05, dans le fichier ccxfer05Domain.log,​ on peut voir les lignes suivantes :
 +<​code>​
 +05/23 10:04:25 Cell(pool-cms-import1@ccxfer05Domain) : Exception in runIO for : 000100000000000002D8CD40 CacheException(rc=666;​msg=org.globus.ftp.exception.ServerException:​ The server uses unknown communicati
 +on protool. Custom message: ​ (error code 2) [Nested exception message: Reply string too short. Custom message: Minimum 1st line length = 4. Here's the incorrect 1st line -><- (error code 1)] [Nested exception
 + is org.globus.ftp.exception.FTPReplyParseException:​ Reply string too short. Custom message: Minimum 1st line length = 4. Here's the incorrect 1st line -><- (error code 1)])
 +05/23 10:04:25 Cell(pool-cms-import1@ccxfer05Domain) : CacheException(rc=666;​msg=org.globus.ftp.exception.ServerException:​ The server uses unknown communication protool. Custom message: ​ (error code 2) [Neste
 +d exception message: Reply string too short. Custom message: Minimum 1st line length = 4. Here's the incorrect 1st line -><- (error code 1)] [Nested exception is org.globus.ftp.exception.FTPReplyParseExceptio
 +n: Reply string too short. Custom message: Minimum 1st line length = 4. Here's the incorrect 1st line -><- (error code 1)])
 +05/23 10:04:25 Cell(pool-cms-import1@ccxfer05Domain) :  at diskCacheV111.movers.RemoteGsiftpTransferProtocol_1.gridFTPRead(RemoteGsiftpTransferProtocol_1.java:​415)
 +05/23 10:04:25 Cell(pool-cms-import1@ccxfer05Domain) :  at diskCacheV111.movers.RemoteGsiftpTransferProtocol_1.runIO(RemoteGsiftpTransferProtocol_1.java:​306)
 +05/23 10:04:25 Cell(pool-cms-import1@ccxfer05Domain) :  at diskCacheV111.pools.MultiProtocolPool2$RepositoryIoHandler.run(MultiProtocolPool2.java:​1303)
 +05/23 10:04:25 Cell(pool-cms-import1@ccxfer05Domain) :  at diskCacheV111.util.SimpleJobScheduler$SJob.run(SimpleJobScheduler.java:​64)
 +05/23 10:04:25 Cell(pool-cms-import1@ccxfer05Domain) :  at java.lang.Thread.run(Thread.java:​595)
 +05/23 10:04:25 Cell(pool-cms-import1@ccxfer05Domain) : removeing empty file: 000100000000000002D8CD40
 +</​code>​
 +Sur ccdcamli01, on voit dans les logs :
 +<​code>​
 +05/23 10:04:25 Cell(SRM-ccdcamli01@srm-ccdcamli01Domain) : SRMClientV1 : connecting to srm at httpg://​cmsdcache03.hep.wisc.edu:​8443/​srm/​managerv1
 +05/23 10:04:26 Cell(RemoteGsiftpTransferManager@srm-ccdcamli01Domain) : [id=9630 store src=gsiftp://​behar.iihe.ac.be:​2811//​pnfs/​iihe/​cms/​ph/​sc4/​LoadTest/​LoadTest_T2_Belgium_011 dest=///​pnfs/​in2p3.fr/​data/​cms/​
 +import/​LoadTest/​LoadTest_T2_Belgium_011]:​sending error reply, reply code=8 errorObject=tranfer failed :​org.globus.ftp.exception.ServerException:​ The server uses unknown communication protool. Custom message: ​
 + ​(error code 2) [Nested exception message: Reply string too short. Custom message: Minimum 1st line length = 4. Here's the incorrect 1st line -><- (error code 1)] [Nested exception is org.globus.ftp.exception
 +.FTPReplyParseException:​ Reply string too short. Custom message: Minimum 1st line length = 4. Here's the incorrect 1st line -><- (error code 1)] for id=9630 store src=gsiftp://​behar.iihe.ac.be:​2811//​pnfs/​iihe
 +/​cms/​ph/​sc4/​LoadTest/​LoadTest_T2_Belgium_011 dest=///​pnfs/​in2p3.fr/​data/​cms/​import/​LoadTest/​LoadTest_T2_Belgium_011
 +   ​state10
 +    uid=3033 gid=119
 +   ​pnfsId=000100000000000002D8CD40
 +  storageInfo=size=0;​new=true;​stored=false;​sClass=import:​cms;​cClass=-;​hsm=osm;​StoreName=import;​store=import;​group=cms;​bfid=<​Unknown>;​
 +   ​pool=pool-cms-import1
 +   ​moverId=50340
 +05/23 10:04:26 Cell(RemoteGsiftpTransferManager@srm-ccdcamli01Domain) : [id=9630 store src=gsiftp://​behar.iihe.ac.be:​2811//​pnfs/​iihe/​cms/​ph/​sc4/​LoadTest/​LoadTest_T2_Belgium_011 dest=///​pnfs/​in2p3.fr/​data/​cms/​
 +import/​LoadTest/​LoadTest_T2_Belgium_011]:​ we created the pnfs entry and the store failed: deleting ///​pnfs/​in2p3.fr/​data/​cms/​import/​LoadTest/​LoadTest_T2_Belgium_011
 +05/23 10:04:26 Cell(SRM-ccdcamli01@srm-ccdcamli01Domain) : org.dcache.srm.scheduler.NonFatalJobFailure:​ CacheException(rc=666;​msg=tranfer failed :​org.globus.ftp.exception.ServerException:​ The server uses unkn
 +own communication protool. Custom message: ​ (error code 2) [Nested exception message: Reply string too short. Custom message: Minimum 1st line length = 4. Here's the incorrect 1st line -><- (error code 1)] [N
 +ested exception is org.globus.ftp.exception.FTPReplyParseException:​ Reply string too short. Custom message: Minimum 1st line length = 4. Here's the incorrect 1st line -><- (error code 1)])
 +05/23 10:04:26 Cell(SRM-ccdcamli01@srm-ccdcamli01Domain) :      at org.dcache.srm.request.CopyFileRequest.runRemoteToLocalCopy(CopyFileRequest.java:​669)
 +05/23 10:04:26 Cell(SRM-ccdcamli01@srm-ccdcamli01Domain) :      at org.dcache.srm.request.CopyFileRequest.run(CopyFileRequest.java:​773)
 +05/23 10:04:26 Cell(SRM-ccdcamli01@srm-ccdcamli01Domain) :      at org.dcache.srm.scheduler.Scheduler$JobWrapper.run(Scheduler.java:​1127)
 +05/23 10:04:26 Cell(SRM-ccdcamli01@srm-ccdcamli01Domain) :      at EDU.oswego.cs.dl.util.concurrent.PooledExecutor$Worker.run(PooledExecutor.java)
 +05/23 10:04:26 Cell(SRM-ccdcamli01@srm-ccdcamli01Domain) :      at java.lang.Thread.run(Thread.java:​595)
 +05/23 10:04:26 Cell(SRM-ccdcamli01@srm-ccdcamli01Domain) : CopyFileRequest #​-2147401597:​ copy  failed
 +05/23 10:04:26 Cell(SRM-ccdcamli01@srm-ccdcamli01Domain) : org.dcache.srm.scheduler.NonFatalJobFailure:​ org.dcache.srm.scheduler.NonFatalJobFailure:​ CacheException(rc=666;​msg=tranfer failed :​org.globus.ftp.ex
 +ception.ServerException:​ The server uses unknown communication protool. Custom message: ​ (error code 2) [Nested exception message: Reply string too short. Custom message: Minimum 1st line length = 4. Here's t
 +he incorrect 1st line -><- (error code 1)] [Nested exception is org.globus.ftp.exception.FTPReplyParseException:​ Reply string too short. Custom message: Minimum 1st line length = 4. Here's the incorrect 1st l
 +ine -><- (error code 1)])
 +05/23 10:04:26 Cell(SRM-ccdcamli01@srm-ccdcamli01Domain) :      at org.dcache.srm.request.CopyFileRequest.run(CopyFileRequest.java:​801)
 +05/23 10:04:26 Cell(SRM-ccdcamli01@srm-ccdcamli01Domain) :      at org.dcache.srm.scheduler.Scheduler$JobWrapper.run(Scheduler.java:​1127)
 +05/23 10:04:26 Cell(SRM-ccdcamli01@srm-ccdcamli01Domain) :      at EDU.oswego.cs.dl.util.concurrent.PooledExecutor$Worker.run(PooledExecutor.java)
 +05/23 10:04:26 Cell(SRM-ccdcamli01@srm-ccdcamli01Domain) :      at java.lang.Thread.run(Thread.java:​595)
 +
 +</​code>​
 +Et on retrouve, dans la base dcache :
 +<​code>​
 +dcache=> select ​ state,​creatorid,​credentialid,​fromurl,​size,​remoterequestid from copyfilerequests_b where id='​-2147401597';​
 + state | creatorid | credentialid |                                               ​fromurl ​                                               |    size    | remoterequestid ​
 +-------+-----------+--------------+------------------------------------------------------------------------------------------------------+------------+-----------------
 +     9 | cmsgrid ​  ​| ​ -2147449655 | srm://​maite.iihe.ac.be:​8443/​srm/​managerv1?​SFN=/​pnfs/​iihe/​cms/​ph/​sc4/​LoadTest/​LoadTest_T2_Belgium_011 | 1834510556 | -2147473820
 +
 +dcache=> select credentialname from srmrequestcredentials where id='​-2147449655';​
 +                 ​credentialname ​                 ​
 +-------------------------------------------------
 + /​O=GRID-FR/​C=FR/​O=CNRS/​OU=LLR/​CN=Igor Semeniouk
 +(1 row)
 +</​code>​
 +Nous avons donc affare à //Semeniouk Igor <​semenjuk@poly.in2p3.fr>//​ .\\
 +\\
 +\\
 +
 +**2006-05-23 15:50:57 [ jschaeff ] Incident du 19/05**
 +
 +\\
 +Sur pool-atlas-mc11-2@ccxfer15 :\\
 +\\
 +78860 A R {GFTP-ccxfer04-Unknown-5839@gridftp-ccxfer04Domain:​10000} 0001000000000000022DB5D0 h={SU=0;​SA=0;​S=None} bytes=31047680 time/sec=0 LM=2061\\
 +78870 A R {GFTP-ccxfer06-Unknown-6382@gridftp-ccxfer06Domain:​10000} 000100000000000002310D38 h={SU=0;​SA=0;​S=None} bytes=31098880 time/sec=0 LM=2003\\
 +78880 A R {GFTP-ccxfer05-Unknown-2710@gridftp-ccxfer05Domain:​10000} 0001000000000000023148B8 h={SU=0;​SA=0;​S=None} bytes=31180800 time/sec=0 LM=1969\\
 +79190 A H {RemoteGsiftpTransferManager@srm-ccdcamli01Domain:​5976} 000100000000000002D5D668 h={diskCacheV111.movers.RemoteGsiftpTransferProtocol_1@83fc1c} bytes=0 time/​sec=664 LM=658\\
 +79150 A H {RemoteGsiftpTransferManager@srm-ccdcamli01Domain:​5975} 000100000000000002D5D618 h={diskCacheV111.movers.RemoteGsiftpTransferProtocol_1@11cba89} bytes=0 time/​sec=745 LM=725\\
 +64710 A H {GFTP-ccxfer04-Unknown-5087@gridftp-ccxfer04Domain:​10000} 000100000000000002D51490 h={SU=4380;​SA=52428800;​S=} bytes=4380 time/sec=0 LM=77760\\
 +79220 A H {RemoteGsiftpTransferManager@srm-ccdcamli01Domain:​5978} 000100000000000002D5D6C8 h={diskCacheV111.movers.RemoteGsiftpTransferProtocol_1@11a96b0} bytes=0 time/​sec=605 LM=601\\
 +79140 A H {RemoteGsiftpTransferManager@srm-ccdcamli01Domain:​5974} 000100000000000002D5D608 h={diskCacheV111.movers.RemoteGsiftpTransferProtocol_1@9b2b8a} bytes=0 time/​sec=805 LM=801\\
 +79420 A R {GFTP-ccxfer15-Unknown-2579@gridftp-ccxfer15Domain:​10000} 0001000000000000022E8888 h={SU=0;​SA=0;​S=None} bytes=28518400 time/sec=0 LM=0\\
 +79200 A H {RemoteGsiftpTransferManager@srm-ccdcamli01Domain:​5977} 000100000000000002D5D678 h={diskCacheV111.movers.RemoteGsiftpTransferProtocol_1@14788ed} bytes=0 time/​sec=664 LM=657\\
 +\\
 +Sur pool-atlas-mc11-1@ccxfer12 :\\
 +\\
 +39440 A R {GFTP-ccxfer06-Unknown-6291@gridftp-ccxfer06Domain:​10000} 0001000000000000015D3518 h={SU=0;​SA=0;​S=None} bytes=372637696 time/sec=0 LM=9808\\
 +40460 A R {GFTP-ccxfer05-Unknown-2727@gridftp-ccxfer05Domain:​10000} 0001000000000000015D34F8 h={SU=0;​SA=0;​S=None} bytes=33423360 time/sec=0 LM=0\\
 +40240 A R {GFTP-ccxfer06-Unknown-6386@gridftp-ccxfer06Domain:​10001} 0001000000000000015D34F8 h={SU=0;​SA=0;​S=None} bytes=294256640 time/sec=0 LM=0\\
 +40180 A R {GFTP-ccxfer05-Unknown-2713@gridftp-ccxfer05Domain:​10000} 0001000000000000015D34C8 h={SU=0;​SA=0;​S=None} bytes=373424128 time/sec=0 LM=1\\
 +40450 A R {GFTP-ccxfer03-Unknown-5798@gridftp-ccxfer03Domain:​10000} 0001000000000000015D3508 h={SU=0;​SA=0;​S=None} bytes=69992448 time/sec=0 LM=2\\
 +40150 A R {GFTP-ccxfer15-Unknown-2551@gridftp-ccxfer15Domain:​10000} 0001000000000000015D3558 h={SU=0;​SA=0;​S=None} bytes=247726080 time/sec=0 LM=2\\
 +40360 A R {GFTP-ccxfer04-Unknown-5861@gridftp-ccxfer04Domain:​10000} 0001000000000000015D3558 h={SU=0;​SA=0;​S=None} bytes=179175424 time/sec=0 LM=0\\
 +40020 A R {GFTP-ccxfer15-Unknown-2534@gridftp-ccxfer15Domain:​10000} 0001000000000000015D34D8 h={SU=0;​SA=0;​S=None} bytes=371458048 time/sec=0 LM=2\\
 +40400 A R {GFTP-ccxfer06-Unknown-6388@gridftp-ccxfer06Domain:​10000} 0001000000000000015D3528 h={SU=0;​SA=0;​S=None} bytes=81002496 time/sec=0 LM=3\\
 +\\
 +pathfinder 000100000000000002D51490\\
 +(3) java.lang.NullPointerException from ac_pathfinder_$_1\\
 +java.lang.NullPointerException : null\\
 +\\
 +pathfinder 0001000000000000015D3518\\
 +/​pnfs/​in2p3.fr/​data/​atlas/​datafiles/​csc11/​evgen/​csc11.005200.T1_McAtNlo_Jimmy.evgen.EVNT.v11000401/​csc11.005200.T1_McAtNlo_Jimmy.evgen.EVNT.v11000401._00006.pool.root\\
 +\\
 +Ce transfert n'​avance pas, le pool est plein. Mais dCache ne semble pas vouloir faire le ménage.\\
 +\\
 +sur ccxfer12 :\\
 +/​dev/​raidvg/​data01 2146826240 2140959556 5866684 100% /data/1\\
 +\\
 +mais ce n'est pas de l'​espace précieux\\
 +\\
 +billing=>​ select * from billinginfo where pnfsid='​0001000000000000015D3518'​\\
 +billing->​ ;\\
 +datestamp | cellname | action | transaction | pnfsid | fullsize | transfersize | storageclass | isnew | client | connectiontime | errorcode | errormessage | protocol\\
 +-------------------------+----------------------------------+----------+-----------------------------------------------------------+--------------------------+------------+--------------+----------------+-------+-------------------+----------------+-----------+-------------------------------------------------------------------+----------\\
 +2006-05-19 02:​42:​34.887 | pool-atlas-mc11-1@ccxfer12Domain | transfer | pool:​pool-atlas-mc11-1@ccxfer12Domain:​1147999354887-12583 | 0001000000000000015D3518 | 1023672235 | 398852096 | mc11:​atlas@osm | f | ccxfer05.in2p3.fr | 3598703 | 33 | Unexpected Exception : java.net.SocketException:​ Connection reset | GFtp-1.0\\
 +2006-05-19 03:​43:​08.956 | pool-atlas-mc11-1@ccxfer12Domain | transfer | pool:​pool-atlas-mc11-1@ccxfer12Domain:​1148002988956-12711 | 0001000000000000015D3518 | 1023672235 | 398852096 | mc11:​atlas@osm | f | ccxfer05.in2p3.fr | 4382287 | 33 | Unexpected Exception : java.net.SocketException:​ Connection reset | GFtp-1.0\\
 +2006-05-19 04:​13:​04.366 | pool-atlas-mc11-1@ccxfer12Domain | transfer | pool:​pool-atlas-mc11-1@ccxfer12Domain:​1148004784366-12771 | 0001000000000000015D3518 | 1023672235 | 378142720 | mc11:​atlas@osm | f | ccxfer06.in2p3.fr | 3678780 | 33 | Unexpected Exception : java.net.SocketException:​ Connection reset | GFtp-1.0\\
 +2006-05-19 05:​20:​31.922 | pool-atlas-mc11-1@ccxfer12Domain | transfer | pool:​pool-atlas-mc11-1@ccxfer12Domain:​1148008831922-12810 | 0001000000000000015D3518 | 1023672235 | 379191296 | mc11:​atlas@osm | f | ccxfer06.in2p3.fr | 3624465 | 33 | Unexpected Exception : java.net.SocketException:​ Connection reset | GFtp-1.0\\
 +2006-05-19 06:04:19.71 | pool-atlas-mc11-1@ccxfer12Domain | transfer | pool:​pool-atlas-mc11-1@ccxfer12Domain:​1148011459710-12869 | 0001000000000000015D3518 | 1023672235 | 400556032 | mc11:​atlas@osm | f | ccxfer04.in2p3.fr | 3619904 | 33 | Unexpected Exception : java.net.SocketException:​ Connection reset | GFtp-1.0\\
 +2006-05-19 06:​05:​15.395 | pool-atlas-mc11-1@ccxfer12Domain | transfer | pool:​pool-atlas-mc11-1@ccxfer12Domain:​1148011515395-12871 | 0001000000000000015D3518 | 1023672235 | 396361728 | mc11:​atlas@osm | f | ccxfer05.in2p3.fr | 3607694 | 33 | Unexpected Exception : java.net.SocketException:​ Connection reset | GFtp-1.0\\
 +2006-05-19 06:​39:​46.529 | pool-atlas-mc11-1@ccxfer12Domain | transfer | pool:​pool-atlas-mc11-1@ccxfer12Domain:​1148013586529-12918 | 0001000000000000015D3518 | 1023672235 | 371326976 | mc11:​atlas@osm | f | ccxfer06.in2p3.fr | 3633638 | 33 | Unexpected Exception : java.net.SocketException:​ Connection reset | GFtp-1.0\\
 +2006-05-19 07:​05:​05.618 | pool-atlas-mc11-1@ccxfer12Domain | transfer | pool:​pool-atlas-mc11-1@ccxfer12Domain:​1148015105618-12959 | 0001000000000000015D3518 | 1023672235 | 393347072 | mc11:​atlas@osm | f | ccxfer04.in2p3.fr | 3651909 | 33 | Unexpected Exception : java.net.SocketException:​ Connection reset | GFtp-1.0\\
 +2006-05-19 07:​05:​58.462 | pool-atlas-mc11-1@ccxfer12Domain | transfer | pool:​pool-atlas-mc11-1@ccxfer12Domain:​1148015158462-12961 | 0001000000000000015D3518 | 1023672235 | 390332416 | mc11:​atlas@osm | f | ccxfer05.in2p3.fr | 3750160 | 33 | Unexpected Exception : java.net.SocketException:​ Connection reset | GFtp-1.0\\
 +2006-05-19 07:​40:​24.781 | pool-atlas-mc11-1@ccxfer12Domain | transfer | pool:​pool-atlas-mc11-1@ccxfer12Domain:​1148017224781-12977 | 0001000000000000015D3518 | 1023672235 | 382205952 | mc11:​atlas@osm | f | ccxfer06.in2p3.fr | 3676317 | 33 | Unexpected Exception : java.net.SocketException:​ Connection reset | GFtp-1.0\\
 +\\
 +\\
 +\\
 +Actions :\\
 +mover kill 39440 # Ne semble pas faire d'​effet\\
 +\\
 +En vrac :\\
 +Pourquoi dCache ne fait-il pâs le ménage ?\\
 +Comment trouver la personne derrière un transfert ?\\
 +-> dans la base billinginfo,​ la table doorinfo contient le champs owner.\\
 +cela dit, je ne trouve pas les références qui m'​intéressent dans cette base (une erreur provenant de usatlas.bnl.gov par exemple)\\
 +\\
 +Il y a plein de movers faisant référence à un transfert gridftp introuvables (typiquement,​ le mover 39440)\\
 +Comment voir les transferts instantannés sur une machine ?\\
 +\\
 +\\
 +pool-atlas-mc11-2@ccxfer15Domain : queue ls queue\\
 +Class@Hsm : mc11:​atlas@osm\\
 +000100000000000002D5DA78 osm mc11:atlas -\\
 +000100000000000002D5D3A8 osm mc11:atlas -\\
 +000100000000000002D5D390 osm mc11:atlas -\\
 +000100000000000002D5D3C8 osm mc11:atlas -\\
 +000100000000000002D5D410 osm mc11:atlas -\\
 +000100000000000002D5D140 osm mc11:atlas -\\
 +\\
 +Deactivated Requests\\
 +\\
 +000100000000000002D58BC8 osm mc11:atlas -\\
 +000100000000000002D58B10 osm mc11:atlas -\\
 +000100000000000002D58590 osm mc11:atlas -\\
 +000100000000000002D581A0 osm mc11:atlas -\\
 +000100000000000002D59180 osm mc11:atlas -\\
 +000100000000000002D588F8 osm mc11:atlas -\\
 +\\
 +Class@Hsm : logfiles:​atlas@osm\\
 +\\
 +Deactivated Requests\\
 +\\
 +0001000000000000017A0C58 osm logfiles:​atlas -\\
 +000100000000000001770D98 osm logfiles:​atlas -\\
 +000100000000000001A719F8 osm logfiles:​atlas -\\
 +000100000000000001690770 osm logfiles:​atlas -\\
 +00010000000000000190EE30 osm logfiles:​atlas -\\
 +etc.\\
 +\\
 +Dans le portail des erreurs, on voit pas mal d'​erreurs du type :\\
 +org.globus.ftp.exception.ServerException:​ Server refused performing the request. Custom message: (error code 1) [Nested exception message: Custom message: Unexpected reply: 553 Permission denied, reason: CacheException(rc=10006;​msg=Pnfs request timed out)] [Nested exception is org.globus.ftp.exception.UnexpectedReplyCodeException:​ Custom message: Unexpected reply: 553 Permission denied, reason: CacheException(rc=10006;​msg=Pnfs request timed out)]\\
 +\\
 +Si je cherche la transactioon dans la base billing, j'ai ceci :\\
 +billing=>​ select transaction,​client,​pnfsid,​isnew from billinginfo where datestamp='​2006-05-19 11:​27:​52.601';​\\
 +transaction | client | pnfsid | isnew\\
 +-----------------------------------------------------------+--------------------------+--------------------------+-------\\
 +pool:​pool-atlas-mc11-2@ccxfer15Domain:​1148030872601-14609 | dcdoor03.usatlas.bnl.gov | 000100000000000002D5E710 | t\\
 +\\
 +Le pnfsid est inconnu. Mais comme "​isnew"​='​t',​ c'est une écriture qui a du echouer (permission denied ...)\\
 +De plus, je ne retrouve pas de référence à ce transfert dans la table doorinfo\\
 +\\
 +Il s'est avérer que ce message est en rapport avec l'​écriture dans le répertoire :\\
 +/​pnfs/​in2p3.fr/​data/​atlas/​datafiles/​csc11/​recon/​csc11.005013.J4_pythia_jetjet.recon.ESD.v11004103\\
 +par S. Jezequel\\
 +\\
 +\\
 +\\
 +
 +**2006-07-27 09:15:29 [ jschaeff ] 27/07/2006 : pools d'une machine cassés**
 +
 +=====  Symptomes :  =====
 +
 +On peut lire sur la page : [[|UsageInfo]] :
 +<​code>​
 +pool-hpss7 ​ ccxfer10Domain ​ [204]  0001000000000000039A7320 java.io.FileNotFoundException:​ /​data/​1/​pool-hpss7/​pool/​control/​.SI-0001000000000000039A7320 (Too many open files)
 +</​code>​
 +un "​lsof"​ renvoie beaucoups d'​entrées de ce type :
 +<​code>​
 +java      12621     ​root ​ 898u  IPv4   ​11982733 ​                TCP ccxfer10.in2p3.fr:​47353->​ccxfer05.in2p3.fr:​35859 (CLOSE_WAIT)
 +java      12621     ​root ​ 899u  IPv4   ​11983117 ​                TCP ccxfer10.in2p3.fr:​47366->​ccxfer15.in2p3.fr:​54640 (CLOSE_WAIT)
 +java      12621     ​root ​ 900u  IPv4   ​11982746 ​                TCP ccxfer10.in2p3.fr:​47354->​ccxfer05.in2p3.fr:​35860 (CLOSE_WAIT)
 +java      12621     ​root ​ 901u  IPv4   ​11984714 ​                TCP ccxfer10.in2p3.fr:​47439->​ccxfer06.in2p3.fr:​39742 (CLOSE_WAIT)
 +java      12621     ​root ​ 902u  IPv4   ​11982760 ​                TCP ccxfer10.in2p3.fr:​47355->​ccxfer05.in2p3.fr:​35861 (CLOSE_WAIT)
 +</​code>​
 +=====  Action :  =====
 +
 +Redémarrage du pool.
 +=====  Inverstigation :  =====
 +
 +On peut surveiller le nombre de fichiers ouverts par le pool avec la commande :
 +<​code>​
 +lsof | grep -c `hostname -s`
 +</​code>​
 +\\
 +
 +**2006-08-10 16:22:53 [ jschaeff ]**
 +
 +
  
  • incidents.txt
  • Dernière modification: 2016/12/16 10:15
  • (modification externe)