SlownikGeo

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.
Version vom 3. Januar 2007, 13:30 Uhr von Kolbe (Diskussion • Beiträge)
(Unterschied) ← Nächstältere Version • aktuelle Version ansehen (Unterschied) • Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

PROJEKT SlownikGeo

Deutsche Version der Buchserie Slownik Geograficzny Królestwa Polskiego (i innych krajów slowianskich) [Geographisches Lexikon des Königreiches Polen (und anderer slawischer Länder)] (1880 - 1902)


ZIEL

Texterschließung und Übersetzung der 16 Bände (14 785 Seiten) des Slownik Geograficzny aus dem Polnischen ins Deutsche und Aufbereitung der darin enthaltenen Daten für das Genealogische Ortsverzeichnis GOV [Link], GenWiki [Link] und Hic Leones [Link].

MODUS

Wissenschaftliche Zusammenarbeit.


PROJEKT-PARTNER

PGSA (Polish Genealogical Society of America) [Link] Beitrag: - Scannen der 14 785 Seiten des Slownik Geograficzny und Speicherung im Bildformat

Hic Leones [Link]: Beitrag: - Texterkennung (OCR) der 14 785 Seiten des Slownik Geograficzny und Speicherung im Textformat

           - Konzept und Koordination des Projektes

CompGen (Verein für Computergenealogie e.V.) [Link] Beitrag: - Bereitstellung des Arbeitsdatei-Import/Export-Moduls

           - Co-Koordination des Projektes

FGG (Forschungsgruppe Grafschaft Glatz) [Link] Beitrag: - Übersetzungsprogramm PL => D zur Vorübersetzung des Textes


VORGESCHICHTE

2003 veröffentlichte die PGSA [Link] die 16 Bände des Slownik Geograficzny auf CD-ROM (DJVU-Format). Dieses Projekt wurde durch die PGSA finanziert und durchgeführt von Rafal T. Prinke, Poznan, Poland, mit weiterem Material von William F. Hoffman.


IDEE

Die Bände des Slownik Geograficzny auf der CD-ROM der PGSA enthalten Beschreibungen aller Regionen, Städte, Dörfer und anderer Orte, Berge, Flüsse und Seen des Königreichs Polen (Kongresspolen) und im slavischen Sprachraum: die baltischen, westlichen und südlichen Gubernien (Gouvernements) des Russischen Reichs, Westpreussen und Ostpreussen, das Grossherzogtum Posen und Preussisch Schlesien, Galizien, Österreichisch Schlesien, Mähren, die slovakischen Teile von Ungarn und der Bukovina, und zusätzlich auch weitere wichtige Orte in den übrigen Gubernien im europäischen Russland (als da sind Landsitze, Kirchspiele, Eisenbahnstationen etc.) (geschätzt: etwa 315 000 - 350 000 Einträge), aber

(a) es handelt sich um BILD-Dateien, die man nicht auf jeden Begriff hin absuchen kann und (b) es ist polnischer Text, der nicht jedem (deutschen) Forscher direkt zugänglich ist.

Es ist also wünschenswert, diesen Schatz an Informationen für Kultur- und Familienforscher als

(a) TEXT-Datei (mit globalen Suchfunktionen absuchbar) und (b) in deutscher Sprache zugänglich zu machen.


VORARBEITEN

Der Vorversuch, die BILD-Dateien der Slownik-Geograficzny-CD-ROM durch OCR (Texterkennung) zu digitalisieren, ergab sehr gute Resultate (> 95 % korrekte TEXT-Dateien), einschließlich der spezifischen polnischen Schriftzeichen.


RECHTLICHES H.V.J.Kolbe (Hic Leones) kontaktierte die PGSA (Public Relations: Mrs. Cynthia Piech, Chicago) schriftlich mit Beispielen dieser OCR-Resultate und mit folgendem Vorschlag:

(a) Die PGSA stellt Hic Leones die Bilddateien des Slownik Geograficzny offiziell und unentgeltlich zur Verfügung, um die gesamten 14 785 Seiten von BILD-Dateien in TEXT-Dateien zu überführen.

(b) Als Gegenleistung erhält die PGSA diese TEXT-Dateien von Hic Leones für eigene Zwecke (z.B. Übersetzung ins Englische, weitere CDs (nun Text + Bild) etc.) ohne weitere Auflagen.

Die PGSA stand diesem Angebot positiv gegenüber und im Sept. 2005 erhielt H.V.J.Kolbe eine positive schriftliche Zusage des PGSA-Vorstandes (Board of Directors). Damit war die legale Seite der Datenverwendung geklärt und zusätzlich ein neuer, interessanter Kontakt (PGSA) zur Familienforschung in Polen geschaffen.

Dieses Ergebnis wurde von Hic Leones 2005 auf dem 57. Genealogentag in Hannover [Link] bekannt gegeben. Die PGSA verkündete diese Allianz gleichzeitig auf der 27th Annual Conference in Schaumburg/IL.

Ende Sept. 2005 war die TEXT-Digitalisierung aller 14 785 Seiten des Slownik-Geo abgeschlossen und Ende Okt. 2005 wurde der gesamte polnischen Text auf CD an Cynthia Piech geschickt.


DAS PROJEKT

- VORAUSSETZUNGEN -

Um das enorme Textvolumen (formatiert etwa 250 MB Text, unformatiert etwa 70 - 80 MB) effizient und zügig ins Deutsche zu übersetzen, müssen die Daten in eine Datenbank (d.h. temporäre Arbeitsdatenbank) überführt werden.

Seitenweise Auszüge dieser Arbeitsdatenbank können dann im reinen Textformat (zusammen mit einem speziellen Font (für die Fremdcharaktere) und einer knappen Arbeitsanleitung) an interessierte, sprachkundige Forscher verschickt werden (s.u. - BEISPIEL DER ZUSAMMENARBEIT MIT EINEM ÜBERSETZER -), die Seiten ihres eigenen Interesses dann in Ruhe (offline) bearbeiten und übersetzen (*) können.

Eine Abschätzung hat ergeben, dass bereits nach einmonatiger Vorarbeit, in denen mit suche/ersetze in der Arbeitsdatenbank die polnischen Abkürzungen durch deutsche ersetzt und auch andere Standardbegriffe (zusammen etwa 300 - 400 Termini (z. B. Bahnhof, Poststation, Kirche, Einwohner etc.)) 'eingedeutscht' werden, etwa 40 % des Textes allgemein verständlich werden, auch für jemanden der nicht des Polnischen mächtig ist.

(*) Zur Hilfe der Übersetzung wurde ein sehr reiches, 998-seitiges polnisch-deutsches Lexikon (1879) Bild-digitalisiert (als PDF-Datei auf der CompGen Jahres CD 2006) und ausgiebig mit Lesezeichen versehen, das jedem interessierten Mitarbeiter unentgeltlich zur Verfügung steht.

(*) Zusätzlich wurde von der FGG (Forschungsgruppe Grafschaft Glatz) ein PL <=> D Übersetzungsprogramm beigetragen, um in der Lage zu sein, schnell Rohübersetzungen zu erstellen. (Die Limitationen von Übersetzungsprogrammen sind bekannt, aber beim Slownik Geograficzny handelt es sich um Auflistung von statistischen Daten und nicht um eine philosophische Abhandlung oder Poesie...)


- ZEITPLAN -

Der Zeitplan des Projektes umfaßt folgende Schritte

- Scan der 14 785 Seiten des Slownik Geograficzny (erledigt durch die PGSA im Jahre 2003)

- OCR der 14 785 Bilddateien des Slownik Geograficzny und Speicherung der Textdateien im CP 1250 Format (erledigt durch Hic Leones im Sept. 2005)

- Erstellung der PDF-Datei eines PL => D Lexikon von 1879 mit Lesezeichen zur schnellen Wortfindung als Übersetzungshilfe (erledigt durch Hic Leones im Dez. 2006; auf der CompGen-Dual-Disc 2006/2007 zu finden)

- Programmierung der Import/Export Module zur Erweiterung der Arbeitsdatenbank (Jan. 2007).

- Import der 14 785 Textdateien des Slownik Geograficzny in die Arbeitsdatenbank unter Berücksichtigung der poln. Fremdcharaktere (Ende Jan. 2007)

- Erstellung einer (kontinuierlich zu erweiternden) Wort-für-Wort Übersetzungsliste (Jan. 2007).

- Erstellung eines Glossars, welche poln. Begriffe beibehalten werden und separat erklärt werden sollten (in Zusammenarbeit mit Prof. Eichler, Leipzig (ab Jan. 2007)).

- Intern: Dokumentiertes Suche/Ersetze der poln. Abkürzungen durch deut. Abkürzungen; entsprechend: Entfernung von systematischen OCR-Fehlern; Entfernung von restlichen Trennungsbindestrichen etc. etc. (Jan./Feb. 2007).

- Intern: Dokumentiertes Suche/Ersetze von weiteren (ca. 200) Standardbergiffen (ab Jan. 2007).

- Für das SlownikGeo Projekt werden viele Freiwillige benötigt. Nach Absprache mit den Listen-Moderatoren: Ansage des Projektes in den genealogischen Mailinglisten (Ende Feb. 2007) und Aufruf zur externen Mitarbeit. Wiederholung dieser Ansage (mit kurzem Fortschrittsbericht): etwa alle 2 Monate.

- Entsprechende Aufrufe in Vereinszeitschriften (kontinuierlich).

- Vorstellung des Projektes auf dem Genealogentag 2007 in Ludwigshafen (Thema: "Ortsbezüge in der Genealogie") (Sept. 2007).

- Einarbeitung von übersetzten u. korrigierten Seiten in GOV und Hic Leones: Sobald eine Seite abgeschlossen ist, wird sie entsprechend markiert (und gegen weitere Veränderungen geschützt) und an Mitarbeiter überführt, die die dort beschriebenen Orte in GOV eintragen (Kontinuierlich ab Feb. 2007)

- Geplanter Abschluss des Projektes (vorsichtige Schätzung): 2011


- BEISPIEL DER ZUSAMMENARBEIT MIT EINEM ÜBERSETZER -

- Ein polnisch versierter Mitarbeiter signalisiert seine Bereitschaft zur Mitarbeit (Kontaktadressen siehe unten). Er/Sie erhält (per eMail):

- die TEXT-Seiten seiner Wahl (z.B. 10) im Textformat (einschließlich des Spezialfonts)

- die entsprechenden original 10 BILD-Dateien des Slownik Geograficzny (TIF-Dateien) zur Kontrolle

- eine kurze Anleitung zur Bearbeitung

- eine einfache Excel-Datei, in der die bisherigen Wortersetzungen dokumentiert sind

- die PDF-Datei eines PL => D Lexikon von 1879 mit Lesezeichen zur schnellen Wortfindung (auf der CompGen-Dual-Disc 2006/2007 zu finden oder im Download)

Nun bearbeitet er/sie die einzelnen Seiten. Findet er/sie ein Wort (einen "Standardbegriff"), daß von den Projekt-Coordinatoren in der Arbeitsdatenbank global ersetzt werden sollte, trägt er das Wort und sein deutsches Äquivalent in die Exceldatei ein (*). Wenn er/sie mit der Übersetzung fertig ist, schickt er/sie die 10 Textdateien wieder an den Absender zurück, der sie nun wieder mit der Arbeitsdatenbank vereinigt (Re-Import) und entsprechend zur Weiterverarbeitung markiert.

(*) Auf diese Weise trägt jeder Mitarbeiter dazu bei, daß die Erfahrungen, die er/sie mit wenigen Seiten gemacht hat, kontrolliert (durch die Projekt-Coordinatoren) auf alle Seiten übertragen werden, d.h. die Ausgangsqualität des noch nicht übersetzten Textes wird immer besser und der Aufwand der Übersetzung sollte mit der Zeit immer geringer werden (d.h. die Übersetzungsgeschwindigkeit nimmt zu). Erledigte Seiten stehen für GOV, GenWiki und Hic Leones zur Einarbeitung zur Verfügung.


NOCH FRAGEN ? INTERESSE AN EINER MITARBEIT ?

Wenden Sie sich bitte an:

Dr. Hanno V. J. Kolbe (Coordinator) 6, rue des Tuiliers 67204 Achenheim/Frankreich E-Mail: kolbe@hicleones.com

Peter Lingnau (Co-Coordinator) Spicherer Str. 43 86157 Augsburg E-Mail: plingnau@t-online.de