利用已經訓練過的神經網路輔助資料標註是否可行?

時間 2021-06-06 14:47:08

1樓:悟冥

個人感覺是可行的。很多目前的深度學習模型都需要標籤資訊,但是高質量的標籤資訊確實獲取的成本很高,而且很多場景中的資料想獲得高質量的資料都很困難。在這個前提下,一般會有兩個思路,一:

利用高精度的網路對部分資料進行初步打標,然後在有人工進行輔助修正,讓結果更好,供模型更好的學習(這種思路也比較類似於,師徒網路,就是使用高精度的網路來訓練低精度網路,同時讓低精度網路至少達到某個水平);二:很多場景的資料無法直接獲取或獲取的成本很高,因此可以使用各種工作,必須PS軟體,或者生成網路模型,生成符合一定的場景的資料,然後在去使用檢測網路進行訓練,但是要注意真實資料和Fake的資料之間的量的關係。

2樓:唐申庚

可以啊,本身沒有標註的資料,通過已有的模型進行自動標註,雖然得到的標籤不夠準確,但是可以將原本的無監督學習轉化成弱監督任務。

3樓:supersarah

我覺得『輔助』可行

只是不能全倚賴自動標記——那樣就沒有訓練的意義了

另外,應採取措施,防止標註人員因信賴自動輔助,或者不信賴自動輔助,從而出現標註偏差——對於一些比較敏感的應用,比如說標註人員本身識別率就不夠好,容易受外界影響,這個偏差應該會有影響。比如說看個胸片之類的,這東西..... 防止標註人員受 [ai輔助的]預標註的影響,感覺上這個方案設計有點兒棘手,畢竟樣本量受限

怎麼選取訓練神經網路時的Batch size

嚮往自由 乙個epoch,使用大batch,訓練時間更短 但收斂不一定比小batch好 解析為什麼同乙個epoch,小batch,收斂更快?原因 相同epoch,小batch的梯度迭代更加頻繁,更有可能找到最優解。因此,不是batch越大越好 做自己 我覺得和隨機性大小有關,批梯度下降本身屬於隨機優...

怎樣克服神經網路訓練中argmax的不可導性?

章浩 一句話解釋 正向傳播就和往常一樣,反向傳播時,將梯度從不可導那個點copy到不可導點的前面的最近乙個可導點。請看紅線右端點的梯度,跳過中間的字典模組,直達紅線的左端點 問題來了 1 梯度鏈條怎麼隔斷不讓他經過字典模組?pytorch有個 detach 可以隔斷梯度,梯度就不會進入不可導區域引發...

神經網路訓練batch的方式和所有資料分幾組每次選一組的方式訓練什麼區別?

AsSalmon 每次選一組,相當於這次訓練使用的訓練集資料量減少了很多,訓練上幾十個epoch,由於訓練集資料量少的問題,是不是出現了過擬合?所以在下一組資料集 相當於新的資料集 的時候,就表現很差。 已重置 定性的,可以這麼理解,系統的收斂靠的是單一的乙個代價函式,即E sum ei ei 其中...