ECC(error correcting code,  错误检查和纠正)能够提高数据的正确性,随之而来的是可用内存的减少和性能上的损失。对于Tesla系列伺服器该功能默认开启。

通过命令 nvidia-smi -i n

可查看第n个个显卡的简要信息(详细信息可通过 nvidia-smi -q -i 0获取),其中有一项是volatile Uncorr. ECC, 可通过该选项查看当前配置。

通过 nvidia-smi -i n -e 0/1 可关闭(0)/开启(1)第n号GPU的ECC模式。

通过实践,关闭ECC程序的性能能得到13%~15%的提升。