AI的未來?你不能不認識的人工智慧與資料科學自動化技術—AutoML(6/10)
五、學習曲線(Learning Curve)
為什麼要在選擇模型、評估模型之後重新訓練模型?最好的方式是用學習曲線來說明答案。在學習曲線中,將模型在訓練集和驗證集上的表現繪製為訓練集大小的函數。上面的圖顯示了一條典型的學習曲線:訓練得分(在訓練集上的表現)隨著訓練集大小的增加而降低,而有效性得分則在同一時間增加。同時,較高的訓練得分和較低的驗證得分表示模型過擬合了資料,即對特定訓練集樣本的適應性太強。隨著訓練集的增加,過擬合會減少,驗證分數也會增加。
特別是對於需要大量資料的機器學習模型,在給定的訓練集資料太少的情況下,學習曲線可能尚未達到平穩狀態,這意味著在向模型提供更多資料時,泛化誤差可能仍會降低。因此,在估計測試集的泛化誤差之前增加訓練集(透過增加驗證集)似乎是合理的,並且在使用模型之前進一步利用測試集資料進行模型擬合。是否需要使用這個策略很大的程度上取決於在初始訓練集上學習曲線的斜率。
圖片引用自https://towardsdatascience.com/a-short-introduction-to-model-selection-bb1bb9c73376
Search