Dear Axel and Paolo,<br><br>Thank you for the comments.<br>For Paolo&#39;s advice, I repeated the same job more than 5 times, the results<br>differed within some percent of second, so I can trust at least on &quot;PWSCF<br>
&nbsp; &nbsp; &nbsp; &nbsp;: &nbsp;1m58.00s CPU time, &nbsp; &nbsp; 4m44.00s wall time&quot;.<br><br>On the other hand, for Axel&#39;s advice, I eliminated the interconnection<br>factor just by running on a single box with 2 cores (P4 3.2G), and<br>obtained the acceptable result:<br>
&quot;PWSCF &nbsp; &nbsp; &nbsp; &nbsp;: &nbsp;1m58.54s CPU time, &nbsp; &nbsp; 2m10.72s wall time&quot;.<br>:-) The wall time is decreased to less than half of the run on 4 cores in<br>2 boxes, and now &quot;wall time&quot; and &quot;cpu time&quot; are more or less the same.<br>
<br>Thank you again!<br><br>cheers,<br>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;mahmoud<br><br>