¿Qué hago si mi trabajo no se ejecuta o si aborta con error al ejecutarse?

La pregunta tiene dos situaciones que se responderán separadamente:

a) Si al enviar el trabajo el mismo no se ejecuta, generalmente se debe a que hay errores en el script .pbs. Cuando el trabajo no se ejecuta, en la ventana texto que usted envió el script .pbs se recibe un mensaje con alguna explicación (“usuario es desconocido”, “se solicitaron más recursos que los que tiene el clúster”, “no se encuentra la aplicación a ejecutar”, etc). Entonces, acorde con el mensaje recibido, es necesario corregir el script .pbs. Por ejemplo, si el mensaje recibido fue “se solicitaron más recursos que los que tiene el clúster”, verifique los recursos máximos disponibles en clúster y los que usted solicitó mediante las directivas #PBS –l.

En el caso que el trabajo no se ejecute porque TORQUE no encontró la aplicación, hay que verificar si el nombre de la misma está escrito correctamente, o si el camino especificado contiene errores, o no es el correcto. Para ello, hay que localizar la aplicación usando o el comando which o el comando locate.

El error puede deberse además a que TORQUE no encuentre alguna biblioteca necesaria para trabajar. Si este es el caso, revise el fichero de errores .e<job_ID> que contiene detalles de los errores producidos. En este caso, envíe un mensaje al administrador del clúster con la información necesaria.

Otra posible causa de la no ejecución del trabajo es que no se definieron las variables de ambiente necesarias, o si se definieron, no se hizo correctamente. En cualquiera de los dos casos, verifique que el fichero .pbs tenga la directiva #PBS –V, que especifica que el ejecutor TORQUE mom use las variables de ambiente definidas.

Otra causa de no ejecución es que TORQUE no encuentre los ficheros de entrada de su aplicación. Revise el camino donde están ubicados esos ficheros y escriba el camino completo (absoluto) en el script .pbs.

b) Si el trabajo comienza a ejecutarse pero al cabo de un tiempo termina con error, TORQUE lo especifica en el mensaje por email que recibe el usuario al terminar el trabajo, mediante un valor de la variable Exit status diferente de cero. El valor de Exit status indica la terminación exitosa (Exit status=0) o el código numérico del error ocurrido. Si usted tiene la documentación de su aplicación, busque el significado del código de error.

Otra causa de error puede ser que el tiempo solicitado (walltime) en el script .pbs no es suficiente para ejecutar completamente su aplicación. En este caso, aumente el valor de walltime.

También es importante revisar el fichero de errores .e<job_ID> donde TORQUE puede especificar algún otro error. Otros ficheros que hay que analizar son tanto el fichero de salida (output) .o<job_ID> como el fichero .log producido por la aplicación ejecutada.

Si finalmente usted no puede determinar o resolver por sí mismo la causa del error de ejecución, es conveniente que consulte a otros usuarios que han usado la misma aplicación de forma exitosa.

En resumen, hay que analizar cuidadosamente cualquier mensaje de TORQUE, revisar los ficheros .pbs, .e<job_ID>, o.<job_ID>, .log, etc. y consultar a otros usuarios sobre estos errores. En último caso, envíe un mensaje al administrador del clúster con información lo más detallada posible sobre el error ocurrido.