基於資料並行的訓練方式，如何使用pytorch邊train邊eval？

1樓：Coder

你可以通過 torch.distributed 中 Collective functions 來實現自定義的匯聚，

2樓：Paul

我理解的是你需要把兩部分的驗證結果綜合起來得到最後的驗證集效果，事實上我沒有使用過pytorch的分布式訓練，但是這兒有幾種可行的思路可以考慮一下。

第一種是pytorch已經提供了良好的api解決方案，這種情況當然是最省事的，但是需要你去官方文件找到說明文件。

第二種是pytorch沒有提供現成的解決方案，那麼這個時候就需要我們自己想辦法了。現在我們需要考慮的是在分布式的情況下，各個節點的訓練步數是否一致，比如節點一和節點二同時在訓練到1000步時開始驗證資料集進行驗證，完成以後這個時候需要了解pytorch是否提供了各個節點相互通訊的機制，如果提供了那麼現成呼叫然後進行合併就可以了，具體可以在某一節點合併就行。如果沒有提供的話，這時候需要自己手動編制額外的程式實現合併，可以利用網路通訊或者檔案實現都是可以的。

第一種方案最簡單。第二種需要有一定的編制程式工作，而且除錯起來也麻煩一些了。

基於資料並行的訓練方式，如何使用pytorch邊train邊eval？

神經網路訓練batch的方式和所有資料分幾組每次選一組的方式訓練什麼區別？

基於hive的資料倉儲如何處理資料更新（update）問題？

如何針對GMAT邏輯訓練自己的思維方式？

其他用戶還看了：