2010-05-05 13:53:18 +0000 2010-05-05 13:53:18 +0000
26
26

PDF hat verstümmelten Text beim Kopieren und Einfügen

Ich versuche, Text aus einer PDF-Datei zu kopieren und einzufügen.

Wenn ich jedoch den Originaltext einfüge, ist es ein riesiges Durcheinander von verstümmelten Zeichen. Der Text sieht wie folgt aus (dies ist nur ein kleiner Ausschnitt):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

Ich habe es sowohl in Adobe als auch in Foxit PDF Reader versucht. Im Adobe Reader habe ich “Als Text speichern” gemacht und die resultierende Textdatei ist der gleiche verstümmelte Text.

Irgendwelche Ideen, wie ich diesen Text nicht verstümmelt herausbekommen kann? (Abgesehen von der manuellen Eingabe… es gibt eine Menge Text zu extrahieren.)

Antworten (11)

11
11
11
2011-04-08 14:40:29 +0000

Der einfachste Weg, dies zu umgehen, ist, die Datei in einer neuen Version von Google Chrome mit integriertem PDF-Lese-Plugin zu öffnen. Dann können Sie die Suchfunktion von Chrome verwenden, um Text zu finden, und das Kopieren und Einfügen funktioniert korrekt.

Ich würde gerne pipitas Kommentar zu Shikis Antwort bestätigen, aber ich habe nicht die Berechtigung dazu :( Das Problem könnte die Anpassung der Schriftkodierung sein, nicht die Verschlüsselung. Klicken Sie in Acrobat auf Datei -> Eigenschaften, dann auf die Registerkarte Schriftarten, um die Kodierung zu sehen, und auf die Registerkarte Sicherheit, um zu sehen, ob sie verschlüsselt ist.

4
4
4
2012-03-18 14:36:54 +0000

Es gibt eine andere, sehr einfache Möglichkeit, eine Abhilfe zu schaffen :)

Drucken Sie das Dokument einfach mit CutePdf, Adobe 2 Pdf-Drucker oder ähnlichem. Die Quintessenz ist, dass Sie in das pdf-Format drucken müssen.

In vielen Fällen lässt sich das Problem damit leicht beheben.

4
4
4
2010-05-18 22:18:44 +0000

Ich habe dieses Problem bei PDFs entdeckt, die ich erstellt habe, und ich glaube, dass ich die Quelle des Problems ausfindig gemacht habe: die Verwendung von Mac OS X’s Preview zur Reduzierung der PDF-Dateigröße.

Ich hatte einige Quartz-Filter mit Colorsync Utility erstellt, um Bilder in PDFs zu komprimieren und so die Gesamtdateigröße von PDFs mit Bildern zu reduzieren. So wie hier beschrieben: http://www.macosxhints.com/article.php?story=20031106133852693

Ich habe festgestellt, dass ich Text aus der ursprünglichen (unkomprimierten) PDF-Datei problemlos kopieren und einfügen kann, aber nachdem ich diese PDF-Datei durch einen von mir erstellten Filter zum Reduzieren der Dateigröße laufen ließ, lässt sich die resultierende komprimierte PDF-Datei nicht eindeutig kopieren und einfügen (sie sieht aus wie die von Ihnen geposteten Zeichenfolgen).

Wenn Sie jedoch dieselbe Original-PDF-Datei durch die Funktion “Dateigröße verringern” von Adobe Acrobat Pro laufen lassen, kann die resultierende komprimierte PDF-Datei erfolgreich Text kopieren und einfügen.

Das ist also in Ihrem Fall nicht sehr hilfreich, wenn man davon ausgeht, dass Ihre PDF-Datei von woanders empfangen wurde und Sie nicht an die Originalversion herankommen können, falls diese tatsächlich in irgendeiner Weise komprimiert wurde. Aber das könnte die Erklärung sein - dass die Datei irgendwie verstümmelt wurde, um die Dateigröße zu reduzieren.

Dies könnte für Autoren von Inhalten nützlich sein, die ähnliche Probleme beim Kopieren und Einfügen von Text aus PDFs haben - seien Sie vorsichtig, wenn Sie OS X Quartz-Filter zum Verkleinern Ihrer PDFs verwenden!

–edit– Ich habe dieses Problem auch beim Kombinieren von PDFs mit Vorschau festgestellt. Die beiden Quell-PDFs können problemlos kopiert und eingefügt werden, aber wenn man eine Seite aus einer Datei in die andere Datei zieht und dann das kombinierte PDF speichert, kann der Text im kombinierten Dokument nicht kopiert/eingefügt werden. Es handelt sich um zwei Dokumente, die beide zur gleichen Zeit mit Filemaker Pro 11 auf Mac erstellt wurden - ich kann mir nicht vorstellen, dass sie unterschiedliche Kodierungen oder Ähnliches haben.

3
3
3
2013-01-03 20:36:58 +0000

Lösung, die bei mir funktioniert hat:

  • Laden Sie das Dokument in Google Drive/Docs hoch
  • Google importiert es (ab 2013) als PDF
  • Öffnen Sie die PDF-Ansicht und wählen Sie Datei > Öffnen mit > Google Docs
  • Es dauert etwa eine Minute, um das Dokument zu exportieren

Das Ergebnis war nicht perfekt, aber es hat mich zu 80 % ans Ziel gebracht und mir genug Text geliefert, dass ich nicht alles neu schreiben musste!

2
2
2
2013-03-24 23:59:49 +0000

LÖSUNG: (funktionierte bei mir unter Windows 8, Acrobat XI, Office 2010)

Option 1:

  1. Drucken Sie aus Acrobat mit “Microsoft XPS Document Writer” Die Ausgabe ist: “Ihr Dateiname.oxps”
  2. Öffnen Sie “…oxps” mit XPS Viewer. *(siehe Download-Link in den Kommentaren unten)
  3. Drucken Sie in PDF (Acrobat PDF oder CutePDF), wobei Sie die höchste Auflösung (600 DPI) verwenden.
  4. Öffnen Sie es mit Acrobat und verwenden Sie die Option OCR (Searchable Image (Exact)).

BINGO!

Kommentare:

  • Wenn Sie die höchste Auflösung und die Option Durchsuchbares Bild (exakt) verwenden, wird Ihr Text gespeichert, ohne sein sauberes Aussehen zu verlieren. Bei niedriger Auflösung ist Ihr Text zwar lesbar, sieht aber schlecht aus.
  • Laden Sie Microsoft XPS (Dateien) herunter: http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • Wenn Sie nicht wissen, was OCR ist, oder wo Sie Searchable Image (exact) finden, oder wie man mit “Microsoft XPS Document Writer” druckt, BITTE, googeln Sie es selbst, für Ihre eigenen besten Erfahrungen.

*Download nur, wenn Sie XPS nicht installiert haben.

Option 2:

Ähnlich vorgehen, aber als Bild (png, tiff, …) speichern, dann müssen Sie alle Seiten wieder in einer “PDF”-Datei zusammenführen.

1
1
1
2011-10-26 18:58:50 +0000

Einer meiner Benutzer hat gerade das gleiche Problem gemeldet (PDF wurde mit Distiller für Windows erstellt), dass kopierter Text nur verstümmelter Text ist und er nicht innerhalb eines Dokuments suchen konnte. Ich habe es auf meinem Mac ausprobiert und konnte kein Problem finden. Es stellte sich heraus, dass ich Apples Preview-Anwendung verwendete, während er Adobe Reader auf seinem Windows-Rechner nutzte. Dann habe ich Adobe Reader auf meinem Mac ausprobiert und hatte den gleichen Effekt. Für mich sieht es so aus:

  • Adobe Reader tippt und sucht im gespeicherten Text.

  • Apples Vorschau kopiert und sucht nach Anwendung des Kodierungsvektors.

Ich kann das nicht mit Sicherheit sagen, aber es würde meine Beobachtung erklären. Und es würde in der Tat alle Arten von Kodierung ermöglichen, wenn man kombinierte/reduzierte Dateien speichert, wie in einem anderen Beitrag hier beschrieben: mit Vorschau kann man den Text immer noch wieder herausholen.

Zuerst dachte ich, es wäre logischer, den eingebetteten Font-Subset als zusammenhängende Einträge zu kodieren, anstatt Löcher darin zu lassen und die ursprüngliche Zeichenposition zu verwenden. Aber dann wurde mir klar, dass durch die Verwendung eines Kodierungsvektors zum Font-Subset mit Original-Einträgen, Zeichen, die oft verwendet werden, weniger Bits in ihrem Byte auf 1 gesetzt haben und besser komprimiert werden können (auf diese Weise kann die Entrophie des gesamten Textes verringert werden).

1
1
1
2010-06-21 20:51:02 +0000

Es besteht die Gefahr, dass die Informationen gar nicht mehr abrufbar sind. PDF-Dokumente sind im Wesentlichen ein Dokument, das über einem anderen liegt, das eine ein einfacher Text, das andere ein Bild. Wenn Sie aus dem Dokument kopieren und einfügen, markieren Sie den Text, während Sie das Bild betrachten, aber was in Ihre Zwischenablage kopiert wird, ist das entsprechende Stück des Textteils.

Je nachdem, wie das Dokument erstellt wurde, kann die Qualität und Verfügbarkeit des Textteils sehr unterschiedlich sein. Wenn Sie ein Textverarbeitungsdokument mit Acrobat, Word, einem PDF-Druckertreiber oder einer anderen Methode im PDF-Format speichern, ist die Qualität in der Regel hervorragend, da die Textdatei aus dem Text des Originals erstellt werden kann. Einige Sonderzeichen können verzerrt werden, aber reiner Text ist normalerweise in Ordnung.

Wenn das Dokument jedoch aus einem gescannten Bild erstellt wird, wird der Textteil typischerweise durch OCR-Verarbeitung des Bildes erstellt, was zu ziemlich traurigen Ergebnissen führen kann, besonders wenn das Original für diesen Zweck nicht optimal ist.

Ein schlechtes Programm, das zur Erstellung der PDF-Datei verwendet wurde, oder falsche Einstellungen können ebenfalls dazu führen, dass der Textteil völlig verstümmelt wird, ebenso wie einige Arten der Verschlüsselung, die nach der Erstellung der Datei durchgeführt werden.

Das Fazit ist, wenn der Textteil des Dokuments wirklich schlecht ist, gibt es keine Möglichkeit, ihn zu verbessern. Das Beste wäre, den Textteil ganz zu entfernen und das Programm den OCR-Prozess erneut durchführen zu lassen. Ich denke, das könnte aus Acrobat heraus möglich sein, aber ich bin mir nicht ganz sicher.

1
1
1
2010-06-24 14:23:21 +0000

Ein möglicher Grund dafür könnte sein, dass die Schrifteinbettung in der PDF eine benutzerdefinierte Kodierung verwendet hat, die beim Kopieren von Text aus der PDF nicht korrekt angewendet wird.

Sie können verschiedene Methoden anwenden, um sich das manuelle Abtippen des gesamten Inhalts zu ersparen.

  1. Haben Sie versucht, den Text mit einem der “pdftotext.exe”-Tools zu extrahieren, die überall im Netz heruntergeladen werden können? (Ich würde das in ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip enthaltene Tool empfehlen).
  2. Die neueste Version von Acrobat Reader hat eine Option “Als Text speichern…”. Diese benutzt nicht “copy'n'paste” (was Ihnen den verstümmelten Text beschert hat), sondern benutzt wahrscheinlich dieselben Softwareroutinen, die für das rendering des Textes auf dem Bildschirm verwendet werden, und kann daher brauchbarere Ergebnisse liefern.
  3. Wenn ‘2.’ nicht funktioniert und Sie Zugriff auf Acrobat Professional haben: Versuchen Sie, das PDF mit einem der Font-Embedding-Distiller-Profile neu zu destillieren.
  4. Wenn ‘3.’ nicht funktioniert, obwohl Sie Zugriff auf Acrobat Professional haben: Versuchen Sie, das PDF erneut zu destillieren, aber diesmal sollten Sie die Option ‘Als Bild drucken’ verwenden (verfügbar über die Schaltfläche ‘Erweitert’ in der unteren linken Ecke des Hauptdruckdialogs). Stellen Sie sicher, dass Sie 600dpi verwenden (auch wenn das eine riesige Datei ergibt). Die resultierende PDF-Datei öffnen Sie dann erneut in Acrobat Pro. Wenden Sie nun den “OCR”-Algorithmus von Acrobat auf die Datei an, was zu eingebettetem Text führt (der nicht für die Darstellung auf dem Bildschirm im Reader verwendet wird, sondern zum Suchen und Hervorheben von Zeichenfolgen). Nun können Sie erneut versuchen, den Text aus dieser PDF-Datei zu extrahieren, indem Sie eine der oben beschriebenen Methoden anwenden.
1
1
1
2013-03-15 21:19:30 +0000

Die Option “Google Docs” habe ich nicht ausprobiert, da sie in meinem Büro noch nicht unterstützt wird. Indem ich jedoch die Datei aus “Acrobat 9” in “ScanSoft PDF Create!” druckte (druckt die gesamte Datei als Bild) und die gedruckte Datei in “Nuance PDF Converter” öffnete (ich wurde gefragt, ob ich die Bilddatei durchsuchbar und bearbeitbar machen wollte, was ich bejahte), konnte ich ein Word-Dokument erstellen, das ich einfach kopieren und einfügen kann. Es ist allerdings nicht perfekt, die Genauigkeit beträgt nur etwa 80-90%. Aber hey, man hat ja immer noch die Original-PDF-Datei zum Vergleich und zum Ausgleichen der Teile, die einfach nicht korrigiert werden können. Das spart Zeit gegenüber dem Abtippen des Ganzen. Mein 2c.

1
1
1
2012-10-02 19:05:44 +0000

Wenn Sie es in Google docs hochladen und die Option Ansicht > Plain HTML verwenden, wird der Text zu etwa 80 % korrekt kopiert, wobei einige kleine Leerzeichen fehlen. Dieser Thread mit Akzeptierter Antwort zu demselben Problem erklärt dies mit einem Arbeitsbeispiel.

0
0
0
2011-10-16 21:34:19 +0000

Ich habe einige PDFs mit bearbeitbarem Text mit einer alten Version von Scansoft PDF Converter für Windows XP erstellt und dann die Seiten im Mac-Programm Preview kombiniert. Für jede der separaten Seiten konnte ich den Text im Adobe Reader auf dem Mac korrekt suchen, kopieren und exportieren. Als ich die Seiten in Vorschau kombiniert und als eine Datei gespeichert hatte, sah alles auf dem Bildschirm gut aus, aber nur wenige Passagen waren korrekt durchsuchbar/exportierbar. Dieses Problem hat mich hierher gebracht.

Die Beiträge hier gaben mir einige gute Hinweise (danke!). Ich habe mir die Dateieigenschaften für Schriftarten angesehen. Die Einzelseitendateien von Win XP (wo alles in Ordnung ist) sagten, die Kodierung sei ANSI. Die in der Vorschau kombinierte Datei (wo der kopierte Text verstümmelt ist) zeigte die Kodierung für die meisten Schriften als “Built-in” mit einigen wenigen als “Roman”.

Die Lösung für mein Problem lag die ganze Zeit vor meiner Nase - das Scansoft-Programm selbst kann Dateien kombinieren. Als ich den Combiner von Scansoft benutzte und die Datei auf dem Mac öffnete, wurden alle Schriften als ANSI-kodiert angezeigt und der gesamte Text wurde perfekt exportiert/kopiert. Warum um alles in der Welt ich sie nicht gleich in PDF Converter kombiniert habe, weiß ich nicht. Danke, liebe Poster!

Das Gleiche gilt für das Öffnen der Dateien auf einem Linux-System.

Ich weiß, das erklärt nicht die reinen Windows-Probleme - es sei denn, das PDF hatte einen ähnlich gemischten Ursprung?