2010-10-11 21:13:58 +0000 2010-10-11 21:13:58 +0000
40
40

Wie kopiert man Text aus einer PDF-Datei, ohne die Formatierung zu verlieren?

Wenn ich Text aus einer PDF-Datei in einen Texteditor kopiere, wird er auf verschiedene Weise verstümmelt. Formatierungen wie fett und kursiv gehen verloren, weiche Zeilenumbrüche innerhalb eines Textabschnitts werden in harte Zeilenumbrüche umgewandelt, Striche zum Umbrechen eines Wortes über zwei Zeilen bleiben erhalten, auch wenn sie es nicht sein sollten, und einfache und doppelte Anführungszeichen werden durch ? ersetzt.

Im Idealfall würde ich gerne Text aus einer PDF-Datei kopieren und die Formatierung in HTML-Codes umwandeln lassen, “intelligente Anführungszeichen” in “ und ‘ umwandeln und Zeilenumbrüche korrekt ausführen. Gibt es eine Möglichkeit, dies zu tun?

Antworten (9)

54
54
54
2010-10-11 21:30:12 +0000

Zuerst müssen Sie verstehen, was eine PDF ist. PDFs sind so konzipiert, dass sie eine gedruckte Seite imitieren, und sie sind nur als Ausgabeformat, nicht als Eingabeformat konzipiert. Ein PDF ist im Grunde genommen eine Karte, die die genaue Position von Zeichen (einzelne Buchstaben oder Interpunktion usw.) oder Bildern enthält. In den meisten Fällen speichert eine PDF-Datei nicht einmal Informationen darüber, wo ein Wort endet und wo ein anderes beginnt, geschweige denn Dinge wie weiche Pausen oder harte Pausen für Absatzenden.

(Einige neuere PDF-Dateien speichern einige Informationen über diese Dinge, aber das ist eine neue Technologie, und Sie können sich glücklich schätzen, solche PDF-Dateien zu finden. )

Wie auch immer, es liegt an Ihrer Software, eine Art “künstliche Intelligenz” zu implementieren, um lediglich aus den Positionen der einzelnen Zeichen zu extrahieren, was ein Wort ist, was ein Absatz ist und so weiter. Andere Software wird dies besser als andere tun, und es wird auch davon abhängen, wie die PDF-Datei erstellt wurde. Auf jeden Fall sollten Sie nie perfekte Ergebnisse erwarten. Das Ausgabe-PDF ist nicht dasselbe wie das Quelldokument. Die Standardlösung für Ihre Art von Problem ist die Verwendung von Adobe Acrobat Professional (der teure, nicht der kostenlose Reader), um die PDF-Datei in HTML zu konvertieren. Selbst das wird nicht zu perfekten Ergebnissen führen.

Es gibt eine kostenlose Software, mit der man Text aus PDFs mit teilweise intakter Formatierung extrahieren kann, aber auch hier erwarten Sie keine perfekten Ergebnisse. Siehe z.B. calibre (das in das RTF-Format konvertieren kann), pdftohtml/pdfreflow oder die AbiWord-Textverarbeitung (mit allen Import-/Export-Plugins aktiviert). Es gibt auch ein PDF-Import-Plugin für OpenOffice.

Aber bitte erwarten Sie bei keinem dieser Ergebnisse Perfektion. Sie gehen hier gegen den Strich. PDF ist einfach nicht als editierbares Eingabeformat gedacht.

8
8
8
2013-01-24 07:05:37 +0000

Eine weitere Möglichkeit besteht darin, den kostenlosen pdf-Viewer Foxit herunterzuladen und zu benutzen (das ist gut). Dann können Sie ‘Speichern unter’ und .txt wählen, um es in eine Textdatei zu konvertieren. Dadurch bleibt die gesamte Formatierung erhalten. Ich weiß nicht, ob Sie dasselbe in Adobe machen können, weil ich es seit einiger Zeit nicht mehr benutze, als ich zu Foxit konvertiert habe.

5
5
5
2012-12-01 13:48:55 +0000

Öffnen Sie Ihre PDF-Datei mit einem Browser (Google Chrome und Firefox sind getestet) und kopieren Sie Ihren Text dorthin.

5
5
5
2012-12-01 14:29:34 +0000

Es gibt ein sehr gutes Online-Tool namens Sej-da. Es beschäftigt sich mit fortgeschrittener PDF-Manipulation. Es gibt keine Software zum Herunterladen. Da es sich um ein neues Online-Tool handelt, befindet es sich derzeit noch in der Beta-Phase. Es ermöglicht das Extrahieren von Text aus einer PDF-Datei und bietet darüber hinaus eine Vielzahl anderer PDF-Funktionalitäten http://www.sejda.com/

Eine kurze Videobesprechung der Sejda-Funktionen wurde am 14. November 2012 mit der Revision 3 durchgeführt. Sie finden sie hier: http://revision3.com/tzdaily/sejda-online-pdf

4
4
4
2012-09-06 19:00:19 +0000

Sie können dafür Adobe Acrobat Pro verwenden.

Für Tabellen: Mit Acrobat 9/10 gab es eine Funktion zur Auswahl von Tabellen. Mit Acrobat X können Sie einfach auf Speichern unter > Tabellenkalkulation > Excel klicken. Es verkettet sogar Seiten zu einem langen Arbeitsblatt. Tolles Feature:

Für Text: Eine ähnliche Funktion gibt es auch für den Export nach MS Word. Speichern unter > Word > Word Doc.

Quellen:

0
0
0
2015-04-13 11:19:56 +0000

Foxit schaltet zwischen der Anzeige der Originaldatei als normales PDF oder als Text hin und her, indem es Strg + 6 drückt (Mit ein wenig Fummeln an der Zoomstufe des Textmodus gibt es nicht viel Positionssprung vor und zurück zwischen Lesen und Kopieren)

0
0
0
2017-02-25 23:17:51 +0000

Ich fand dies sehr nützlich ( Zeilenumbrüche entfernen ):

Hier ist ein nützlicher Trick, um dies schnell zu beheben, ohne alle Zeilenumbrüche manuell entfernen zu müssen. Im Grunde genommen ersetzt er nur automatisch alle unerwünschten Zeilenumbrüche durch ein einziges Leerzeichen, so dass der gesamte Text in einem einzigen Absatz zusammenläuft:

1- kopieren Sie den gewünschten Text aus der PDF-Datei.

2- fügen Sie ihn in ein neues Word-Dokument ein.

3- klicken Sie auf “Bearbeiten” und dann auf “Ersetzen”

4- vergewissern Sie sich, dass Sie sich im Feld “Was finden” befinden

5- klicken Sie auf “mehr” und dann auf “Spezial”

6- wählen Sie “Absatzmarke” (oben in der Liste)

7- klicken Sie in das Feld “Ersetzen durch”

8- drücken Sie einmal die Leertaste

9- klicken Sie auf “Alles ersetzen”

10- klicken Sie auf “ok” und schließen Sie dann das Feld “Suchen & Ersetzen”.

-1
-1
-1
2016-01-22 16:15:08 +0000

Ich habe versucht, den Text und das Format einer pdf-Datei zu speichern, die in einer Tabelle organisiert war. In Acrobat Professional wurde mir klar, dass es eine Option ‘Speichern unter’ gibt, die das Speichern als Excel-Dokument ermöglicht. Dies funktionierte gut für meine Bedürfnisse. Mir fiel auch auf, dass es auch eine Option zum Speichern als Word-Dokument gibt. Ich habe sie jedoch nicht ausprobiert.

-1
-1
-1
2015-12-11 04:23:43 +0000

Sie könnten von Adobe Reader in MS Excel kopieren und (Tabelle) so formatieren, wie Sie wollen, und dann aus Excel kopieren und einfügen. Diese Lösung funktioniert hervorragend. Sie brauchen keine teure professionelle Adobe-Kopie zu kaufen.