Wie übertrage ich Text aus einem PDF in Word?

Können Sie aus PDF-Dokumenten wieder Word-Dokumente machen? Diese Frage stellte mir ein Kunde. Es handelte sich um 6 Lektionen á 65 bis 80 Seiten eines Fernlehrgangs, die in eine kundenspezifische Layout-Vorlage (Dokumentenvorlage) in Microsoft Word übertragen werden sollten, damit die Überarbeitung für die Autoren und die Redaktion einfacher möglich ist.

 

Es kommt immer wieder vor, dass man Texte oder Textstücke aus PDF-Dokumenten in Microsoft Word oder einem anderen Textverarbeitungsprogramm weiter bearbeiten möchte (natürlich muss man hier das Urheberrecht beachten).

 

Ein einfaches Tastendrücken wie auf meiner Photomontage reicht leider nicht zum Konvertieren der Daten. Aber es gibt ein paar Möglichkeiten den PDF-Dokumenten wieder bearbeitbare Informationen zu entlocken. Lesen Sie, wie Sie am besten vorgehen und wie Sie die entstehenden Probleme lösen können:

So kopieren Sie einzelne Textstücke aus einem PDF

Wenn Sie nur einzelne Textpassagen aus dem PDF benötigen, markieren Sie die entsprechenden Zeilen, kopieren und fügen sie im Textverarbeitungsprogramm wieder ein. Jetzt können Sie den Text nach Ihren Wünschen bearbeiten und formatieren.

 

Sie haben allerdings zusätzliche Zeilenumbrüche ("Enter") wo im Originaltext keine sind. Sie können diese entweder manuell entfernen oder wie unten beschrieben.

So speichern Sie eine komplette PDF-Datei als Text

Seit Acrobat Reader 5 gibt es die Option, PDF als Text zu speichern. Das ist für meinen Zweck genau das Richtige, denn ich sollte die kompletten Dateien in Word-Dokumente verwandeln.

 

Wie gesagt, problemlos ist das nicht, denn leider kommt es zu 3 Problemen bei diesem Vorgang:

  1. Es werden keine Formatierungen, Kopf- und Fußzeilen und Bilder übernommen. Es wird eine txt-Datei angelegt. Das war für mich kein Problem, den bevor Text in die Word-Vorlage meines Kunden kopiert werden darf, muss der Text sowieso von eventuell störenden Formatierungen bereinigt werden. Sie können jetzt wie gewohnt alle gewünschten Formatierungen, Bilder und Grafiken wieder eingefügen.
  2. Es kommen bei der Umwandlung eines PDF in eine txt-Datei teilweise auch Textreihenfolgen durcheinander. Es war für mich nicht nachvollziehbar, wann und warum das passiert. Hier muss man also aufmerksam sein und Doppeltes löschen.
  3. Alles voller zusätzlicher "Enter" (Absatzmarken), also Zeilenumbrüche wo im Originaltext keine sind. Eine Lösung finden Sie weiter unten in diesem Artikel. 

Und so speichern Sie eine Datei als Text:

Öffnen Sie das PDF und wählen Sie unter "Datei" "speichern als". Hier wählen Sie Text (.txt) und geben einen Speicherort für das entstehende txt-Dokument an. Dieses Dokument öffnen Sie nun, kopieren den Inhalt in die Zwischenablage und fügen ihn in Ihr Textverarbeitungsprogramm ein.

So löschen Sie automatisch Zeilenumbrüche (Absatzmarken, Enter)

Im Textverarbeitungsprogramm Microsoft Word gibt es die Funktion "suchen/ersetzen". Diese kann man nicht nur für Wörter, sondern auch für Formatierungszeichen anwenden!

  1. Lassen Sie sich die Formatierungszeichen für einen besseren Überblick anzeigen,
  2. markieren Sie ein Stück Ihres Textes.
  3. Wählen Sie nun "bearbeiten", "suchen". Hier wählen Sie die Registerkarte "Ersetzen" und
  4. geben im Feld "Suchen nach:" "^p" ein. Das bedeutet, Sie suchen nach allen Absatzmarken.
  5. Bei "Ersetzen durch:" geben Sie ein Leerzeichen ein. (Das bleibt im Feld unsichtbar)
  6. Wählen Sie nun "Alle ersetzen" (es werden alle Absatzmarken im markierten Bereich durch Leerzeichen ersetzt).
  7. Word teilt Ihnen nach dem Ersetzen mit, wie viele Absatzmarken ersetzt wurden und stellt die Frage, ob im restlichen Bereich die Suche weitergeführt werden soll.

Wer wie ich lange Texte von Absatzmarken befreit haben möchte, für den lohnt es sich auf jeden Fall ein kleines Marko zu programmieren. Alle Absatzmarken in einem Zug (durch Suche weiterführen) zu entfernen, finde ich nicht sehr ratsam, da der Text dann ein langer und unübersichtlicher Block wird.

PDF-Datei über Adobe Acrobat DC online umwandeln

Anscheinend gibt es bei Adobe Acrobat DC die Möglichkeit, Dateien online in RTF-Format umzuwandeln. Hier bleiben angeblich die meisten Formatierungen erhalten und dieses Format ist laut Adobe in praktisch jedem Textverarbeitungsprogramm lesbar. Hier habe ich diese Informationen gefunden, habe es aber nicht ausprobiert.


Das könnte Sie auch interessieren:

Trend: Selfpublishing von E-Books - Was hat es damit auf sich?
Trend: Selfpublishing von E-Books - Was hat es damit auf sich?
Was ist ein Blog und welche Vorteile hat es für meine Website?
Was ist ein Blog und welche Vorteile hat es für meine Website?
Formulierungstipps für die Korrespondenz - Gut zu wissen
Formulierungstipps für die Korrespondenz - Gut zu wissen

Kommentar schreiben

Kommentare: 0