Wie wird die Kodierung von Textdateien automatisch erkannt?
Es gibt viele einfache Textdateien, die in verschiedenen Zeichensätzen kodiert wurden.
Ich möchte sie alle nach UTF-8 konvertieren, aber bevor ich iconv ausführe, muss ich ihre ursprüngliche Kodierung kennen. Die meisten Browser haben eine Auto Detect
Option in den Kodierungen, aber ich kann diese Textdateien nicht einzeln überprüfen, weil es zu viele sind.
Nur wenn ich die ursprüngliche Kodierung kenne, kann ich die Texte mit iconv -f DETECTED_CHARSET -t utf-8
konvertieren.
Gibt es ein Dienstprogramm, um die Kodierung von Textdateien zu erkennen? Es muss NICHT 100% perfekt sein, es macht mir nichts aus, wenn in 1.000.000 Dateien 100 Dateien falsch konvertiert sind.