WordPerfect zum Diktat

K. Keil


Tippen ist out, Sprechen ist in! Tastatur passé und Maus ade? So oder ähnlich könnte man die zahlreichen Veröffentlichungen in den Fachzeitschriften zum Thema Spracherkennung verstehen. Und tatsächlich sieht es so aus, als müsste der Anwender künftig ganz neue Kommunikationsformen mit seinem Computer pflegen. Dieser Artikel soll dazu beitragen, die Möglichkeiten und die momentanen Grenzen dieser Software aufzuzeigen.

Zum Begriff

Hinter dem Begriff Spracherkennung verbergen sich im weiteren Sinne zwei Funktionsbereiche. Zum einen die eigentliche Spracherkennung, die das Erfassen (evtl. inkl. Wiedergabe) eines gesprochenen Textes z.B. für ein gegebenes Textverarbeitungsprogramm ermöglicht und zum anderen die Sprachsteuerung, über welche sowohl das zugrunde liegende Betriebssystem als auch die ganze Funktionsvielfalt der Anwendungsprogramme bevorzugt in natürlicher Sprache genutzt werden können soll. Diese vage Formulierung deutet jedoch bereits an, dass in diesem Bereich Wunsch und Wirklichkeit noch stark differieren. Der Verzicht auf die lieb gewordenen Eingabegeräte Tastatur und Maus ist allerdings möglicherweise nur noch eine Frage der Zeit.

Das Angebot

Auf der Suche nach Software mit beiden oben angesprochenen Möglichkeiten bleiben letztendlich zur Zeit eigentlich nur drei Konkurrenzprodukte übrig: Dragon's Naturally Speaking, VoiceXpress von Lernout&Hauspie und IBM's ViaVoice. In einschlägigen Artikeln schneidet Naturally Speaking von Dragon Systems im Vergleich stets immer etwas besser ab (vgl. Dr. U. Malaske in: Wortkünstler, c't 26/1998, S.62,63 und B. Widmann und M. Toprak: Talkshow am PC in: PC Professional 3/99, S. 180 ff). Diese Software ist zudem um so interessanter, da sie eine spezielle Unterstützung für Corel WordPerfect 8 (und auch für MS Office 97) bietet. Aus diesem Grunde sei sie auch das Objekt der weiteren Betrachtung.

Grenzen des Einsatzes

Zunächst muss gleich zu Beginn die Grenze erwähnt werden, die die verfügbare Hardware setzt. Denn über einen 233 MHz-Rechner, 128 MB Hauptspeicher und sehr viel Plattenplatz, wie vom Hersteller bei Nutzung der neuesten, BestMatch genannnten Technologie empfohlen, verfügen momentan nur die wenigsten Anwender an der Kath. Universität Eichstätt. Und das wird wohl auch noch eine Zeit lang so bleiben. Selbst für die Standardversion werden 64 MB angeraten, auch wenn das Programm zum Zweck des bloßen Diktierens mit weniger arbeitet.

Ebenso entscheidend für eine hohe Erkennungsquote ist die Headset genannte Kombination aus Mikrofon und Kopfhörer. Empfindlichkeit und Positionierbarkeit des Mikrofons spielen dabei gleichermaßen eine wesentliche Rolle.

Sind die angesprochenen Voraussetzungen erfüllt, benötigt der Anwender als Nächstes viel Zeit. Je mehr er davon dafür verwendet, das System zu trainieren, d.h. ihm die Stimme, die individuelle Sprechweise und den speziellen Wortschatz bekannt zu machen, desto höher wird die spätere Erkennungsrate sein.

Arbeiten mit Naturally Speaking

Wie sieht nun die Praxis aus, wenn die angesprochenen Voraussetzungen erfüllt sind, um dieses Programm verwenden? Im Zuge der weitgehend problemlos ablaufenden und geführten Installationsprozedur erfolgt ein Test auf Funktion von Kopfhörer und richtige Einstellung des Mikrofons. Zur Erstellung des Benutzer-Sprachprofils muss anschließend, quasi als erstes Training, ein längerer vorgegebener Text eingesprochen werden. Das ganze Verfahren dauert etwa 1 Stunde.

Nach erfolgter Installation bietet die Menüzeile von Corel WordPerfect eine neue Schaltfläche: Naturally Speaking. Die Untermenüs erlauben u.a. das Anlegen neuer Sprach-Profile, das Trainieren des Systems und das Auswählen eines vorhandenen Profils für das Durchführen eines Diktats.

Das Diktieren kann in normalem Sprechtempo erfolgen, die Umsetzung in das WP-Dokument erfolgt mit nur kurzer Verzögerung. Interpunktionszeichen werden wie auch viele andere Sonderzeichen ebenfalls gesprochen. So erzeugt der Befehl Punkt einen Satzpunkt. In vielen Fällen kann das System aus dem Sinnzusammenhang sogar erkennen, ob mit der Ansage Punkt der Befehl oder das Wort gemeint ist. Wird z.B. diktiert: Das ist ein Punkt Punkt , wird der Satz korrekt geschrieben. Um ein Zitat zu kennzeichnen, genügt es zu sprechen Zitatanfang ... Zitatende , der Befehl Römisch vier erzeugt eine IV. Weitere Sprachbefehle steuern das Mikrofon, navigieren den Cursor oder die Maus im Dokument, helfen bei der Formatierung des Textes, bei der Korrektur oder geben das Diktat oder Teile daraus wieder. Auch dazu wieder einige Beispiele: Neuer Absatz, Auswahl fett, Schreib das groß ... .

Wie gesagt, hängt der Erfolg eines Diktats wesentlich vom vorausgegangenen Training ab. So erkennt das Programm nach der Profilerstellung ca. 90% eines allgemein gehaltenen Textes. Durch intensives Training kann die Quote auf über 98% steigen, wenn auch alle anderen Bedingungen stimmen. Die Ausbeute kann jedoch schnell sinken, wenn etwa der Sprecher verschnupft ist oder nuschelt oder Hintergrundgeräusche die Spracheingabe stören. Damit die Spracheingabe nicht an den PC gebunden ist, erlaubt das Programm auch die Übernahme von auf analoge oder digitale Diktiergeräte gesprochenen Texten.

Weitere Aussichten

Die Steuerung der Software mittels natürlicher Sprachbefehle ist gemäß dem o.e. Artikel in der PC Professional momentan nicht mehr als ein Marketing-Gag. Befehle wie: `Verwende für diesen Absatz die Schrift Times New Roman 12p und setze den Zeilenabstand auf 1,5', sollen jedoch bald möglich sein. Entsprechende Techniken jedenfalls existieren bereits, die dafür benötigte Rechenpower wird wohl weiter steigen.

Mit Blick auf die Zukunft stellt sich in diesem Zusammenhang auch eine ganz andere Frage: Werden diese Spracherkennungs- und -steuerungsprogramme unsere Arbeitssituation, insbesondere die der Sekretärinnen und ihrer Vorgesetzten verändern? Werden erstere vielleicht bald überflüssig, wenn Briefe nicht mehr getippt werden müssen, sondern sie der ``Chef'' nur noch zu sprechen braucht und auch ihr Format über die Sprache setzen kann? Ist dadurch ein ganzer Berufsstand von Arbeitslosigkeit bedroht?

Die Perspektive scheint wirklich düster zu sein, aber in der Praxis werden m.E. auch längerfristig Sekretärinnen und Schreibkräfte gebraucht werden, auch wenn sich der Schwerpunkt ihrer Aufgaben vom Tippen zum Formatieren und Korrigieren verschieben wird. Zum Setzen der Texte ist schließlich ein spezielles Know how vonnöten und das Korrigieren erfordert auch bei einer 98%igen Erkennungsrate sehr viel Zeit. Zeit, die z.B. ein Professor gar nicht erübrigen kann, es sei denn, er machte Abstriche bei seiner wissenschaftlichen Forschungs- und Lehrtätigkeit. Und last but not least: welcher Chef verzichtet schon gern auf die ihm liebgewordene Sekretärin?

Hinweise

Nähere Informationen zum Thema erhalten Sie in den o.e. Artikeln und im Internet unter folgenden Adressen: www.naturalspeech.com, www.ibm.com/viavoice und www.lhs.com.

Eine Veranstaltung des Universitätsrechenzentrums widmet sich im Sommersemester diesem Thema. Ort und Zeitpunkt entnehmen Sie bitte dem Vorlesungsverzeichnis.

Ansprechpartner im URZ:Zimmer: Telefon: PMail:
Klaus Keil Ei: eO-108 -1371 klaus.keil