Zuerst müssen Sie verstehen, was eine PDF ist. PDFs sind so konzipiert, dass sie eine gedruckte Seite imitieren, und sie sind nur als Ausgabeformat, nicht als Eingabeformat konzipiert. Ein PDF ist im Grunde genommen eine Karte, die die genaue Position von Zeichen (einzelne Buchstaben oder Interpunktion usw.) oder Bildern enthält. In den meisten Fällen speichert eine PDF-Datei nicht einmal Informationen darüber, wo ein Wort endet und wo ein anderes beginnt, geschweige denn Dinge wie weiche Pausen oder harte Pausen für Absatzenden.
(Einige neuere PDF-Dateien speichern einige Informationen über diese Dinge, aber das ist eine neue Technologie, und Sie können sich glücklich schätzen, solche PDF-Dateien zu finden. )
Wie auch immer, es liegt an Ihrer Software, eine Art “künstliche Intelligenz” zu implementieren, um lediglich aus den Positionen der einzelnen Zeichen zu extrahieren, was ein Wort ist, was ein Absatz ist und so weiter. Andere Software wird dies besser als andere tun, und es wird auch davon abhängen, wie die PDF-Datei erstellt wurde. Auf jeden Fall sollten Sie nie perfekte Ergebnisse erwarten. Das Ausgabe-PDF ist nicht dasselbe wie das Quelldokument. Die Standardlösung für Ihre Art von Problem ist die Verwendung von Adobe Acrobat Professional (der teure, nicht der kostenlose Reader), um die PDF-Datei in HTML zu konvertieren. Selbst das wird nicht zu perfekten Ergebnissen führen.
Es gibt eine kostenlose Software, mit der man Text aus PDFs mit teilweise intakter Formatierung extrahieren kann, aber auch hier erwarten Sie keine perfekten Ergebnisse. Siehe z.B. calibre (das in das RTF-Format konvertieren kann), pdftohtml/pdfreflow oder die AbiWord-Textverarbeitung (mit allen Import-/Export-Plugins aktiviert). Es gibt auch ein PDF-Import-Plugin für OpenOffice.
Aber bitte erwarten Sie bei keinem dieser Ergebnisse Perfektion. Sie gehen hier gegen den Strich. PDF ist einfach nicht als editierbares Eingabeformat gedacht.