一種應(yīng)用于分布式訓(xùn)練系統(tǒng)的訓(xùn)練容錯(cuò)方法、裝置及芯片產(chǎn)品,涉及分布式訓(xùn)練技術(shù)領(lǐng)域。該方法包括:對(duì)于包括多個(gè)計(jì)算節(jié)點(diǎn)集群,以及計(jì)算節(jié)點(diǎn)集群包括多個(gè)計(jì)算節(jié)點(diǎn)組的分布式訓(xùn)練系統(tǒng),多個(gè)計(jì)算節(jié)點(diǎn)組用于并行執(zhí)行計(jì)算節(jié)點(diǎn)集群的分布式訓(xùn)練任務(wù),多個(gè)計(jì)算節(jié)...