Convolutional Neural Networks bei den Grenzlotsen
Mit Hilfe der Testdaten validieren wir anschließend, wie gut das CNN mit Daten arbeitet, die den Trainingsdaten zwar ähnlich sind, denen jedoch nicht entsprechen.
Je höher die Genauigkeit (Accuracy) bei den Trainingsdaten und den Testdaten gleichzeitig ist, desto besser. Liegt nämlich nur bei den Trainingsdaten eine hohe Genauigkeit vor, bedeutet dies, dass das CNN diese Daten auswendig gelernt hat, sein Wissen aber nicht auf andere Daten transferieren kann. Das wird auch Overfitting genannt – Überanpassung.
Je mehr verschiedenen Daten wir zum Training des CNN verwenden, desto mehr richtige Zolltarifnummern kann es vorhersagen. Willst du das CNN auch einsetzen, musst du dir jedoch bewusst sein: Völlig fremde Daten kann es nicht korrekt vorhersagen.
Das CNN ist nur in den Bereichen gut, in denen es auch trainiert hat. Wer bisher nur Nahrungsmittel tarifiert hat und nun Produkte aus dem Fahrzeugbau in das CNN eingibt, darf keine sinnvollen Ergebnisse erwarten. Dafür muss das CNN erst mit einem entsprechenden Datensatz trainiert werden. Je besser diese Datenbasis gepflegt ist, desto bessere Ergebnisse kann das CNN erzielen. Das ist wie beim Marathontraining, aus dem Stand läuft man auch nicht so schnell 42 KM, sondern muss erst mal trainieren.