Tippen ist out, Sprechen ist in! Tastatur passé und Maus ade? So oder ähnlich könnte man die zahlreichen Veröffentlichungen in den Fachzeitschriften zum Thema Spracherkennung verstehen. Und tatsächlich sieht es so aus, als müsste der Anwender künftig ganz neue Kommunikationsformen mit seinem Computer pflegen. Dieser Artikel soll dazu beitragen, die Möglichkeiten und die momentanen Grenzen dieser Software aufzuzeigen.
Zum Begriff
Hinter dem Begriff Spracherkennung verbergen sich im weiteren Sinne zwei Funktionsbereiche.
Zum einen die eigentliche Spracherkennung, die das Erfassen (evtl. inkl. Wiedergabe)
eines gesprochenen Textes z.B. für ein gegebenes Textverarbeitungsprogramm ermöglicht und
zum anderen die Sprachsteuerung, über welche sowohl das zugrunde liegende Betriebssystem als auch
die ganze Funktionsvielfalt der Anwendungsprogramme bevorzugt in natürlicher Sprache
genutzt werden können soll. Diese vage Formulierung deutet jedoch bereits an, dass in diesem
Bereich Wunsch und Wirklichkeit noch stark differieren. Der Verzicht auf die lieb gewordenen
Eingabegeräte Tastatur und Maus ist allerdings möglicherweise nur noch eine Frage der Zeit.
Das Angebot
Auf der Suche nach Software mit beiden oben angesprochenen Möglichkeiten bleiben
letztendlich zur Zeit eigentlich nur drei Konkurrenzprodukte übrig: Dragon's Naturally Speaking,
VoiceXpress von Lernout&Hauspie und IBM's ViaVoice. In einschlägigen Artikeln schneidet
Naturally Speaking von Dragon Systems im Vergleich stets immer etwas besser ab (vgl.
Dr. U. Malaske in: Wortkünstler, c't 26/1998, S.62,63 und B. Widmann und M. Toprak:
Talkshow am PC in: PC Professional 3/99, S. 180 ff). Diese Software ist zudem um so interessanter,
da sie eine spezielle Unterstützung für Corel WordPerfect 8 (und auch für MS Office 97) bietet.
Aus diesem Grunde sei sie auch das Objekt der weiteren Betrachtung.
Grenzen des Einsatzes
Zunächst muss gleich zu Beginn die Grenze erwähnt werden, die die verfügbare Hardware setzt. Denn über
einen 233 MHz-Rechner, 128 MB Hauptspeicher und sehr viel Plattenplatz, wie vom Hersteller
bei Nutzung der neuesten, BestMatch genannnten Technologie empfohlen, verfügen momentan nur
die wenigsten Anwender an der Kath. Universität Eichstätt. Und das wird wohl auch noch
eine Zeit lang so bleiben.
Selbst für die Standardversion werden 64 MB angeraten, auch wenn das Programm zum Zweck
des bloßen Diktierens mit weniger arbeitet.
Ebenso entscheidend für eine hohe Erkennungsquote ist die Headset genannte Kombination aus
Mikrofon und Kopfhörer. Empfindlichkeit und Positionierbarkeit des Mikrofons spielen dabei
gleichermaßen eine wesentliche Rolle.
Sind die angesprochenen Voraussetzungen erfüllt, benötigt der Anwender als Nächstes viel Zeit.
Je mehr er davon dafür verwendet, das System zu trainieren, d.h. ihm die Stimme, die
individuelle Sprechweise und den speziellen Wortschatz bekannt zu machen, desto höher wird
die spätere Erkennungsrate sein.
Arbeiten mit Naturally Speaking
Wie sieht nun die Praxis aus, wenn die angesprochenen Voraussetzungen erfüllt sind, um
dieses Programm verwenden? Im Zuge der weitgehend problemlos ablaufenden und geführten Installationsprozedur erfolgt ein Test auf
Funktion von Kopfhörer und richtige Einstellung des Mikrofons. Zur Erstellung des
Benutzer-Sprachprofils muss anschließend, quasi als erstes Training, ein längerer vorgegebener
Text eingesprochen werden. Das ganze Verfahren dauert etwa 1 Stunde.
Nach erfolgter Installation bietet die Menüzeile von Corel WordPerfect eine neue Schaltfläche:
Naturally Speaking. Die Untermenüs erlauben u.a. das Anlegen neuer Sprach-Profile, das
Trainieren des Systems und das Auswählen eines vorhandenen Profils für das Durchführen
eines Diktats.
Das Diktieren kann in normalem Sprechtempo erfolgen, die Umsetzung in das WP-Dokument
erfolgt mit nur kurzer Verzögerung. Interpunktionszeichen werden wie auch viele andere
Sonderzeichen ebenfalls gesprochen. So erzeugt der Befehl Punkt einen Satzpunkt. In vielen
Fällen kann das System aus dem Sinnzusammenhang sogar erkennen, ob mit der Ansage Punkt
der Befehl oder das Wort gemeint ist. Wird z.B. diktiert: Das ist ein Punkt Punkt , wird der Satz
korrekt geschrieben. Um ein Zitat zu kennzeichnen, genügt es zu sprechen Zitatanfang ...
Zitatende , der Befehl Römisch vier erzeugt eine IV.
Weitere Sprachbefehle steuern das Mikrofon, navigieren den Cursor oder die Maus im
Dokument, helfen bei der Formatierung des Textes, bei der Korrektur oder geben das Diktat
oder Teile daraus wieder. Auch dazu wieder einige Beispiele: Neuer Absatz, Auswahl fett,
Schreib das groß ... .
Wie gesagt, hängt der Erfolg eines Diktats wesentlich vom vorausgegangenen Training ab. So
erkennt das Programm nach der Profilerstellung ca. 90% eines allgemein gehaltenen Textes.
Durch intensives Training kann die Quote auf über 98% steigen, wenn auch alle anderen
Bedingungen stimmen. Die Ausbeute kann jedoch schnell sinken, wenn etwa der Sprecher
verschnupft ist oder nuschelt oder Hintergrundgeräusche die Spracheingabe stören.
Damit die Spracheingabe nicht an den PC gebunden ist, erlaubt das Programm auch die
Übernahme von auf analoge oder digitale Diktiergeräte gesprochenen Texten.
Weitere Aussichten
Die Steuerung der Software mittels natürlicher Sprachbefehle ist gemäß dem o.e. Artikel in der
PC Professional momentan nicht mehr als ein Marketing-Gag. Befehle wie:
`Verwende für
diesen Absatz die Schrift Times New Roman 12p und setze den Zeilenabstand auf
1,5', sollen
jedoch bald möglich sein. Entsprechende Techniken jedenfalls existieren bereits, die dafür
benötigte Rechenpower wird wohl weiter steigen.
Mit Blick auf die Zukunft stellt sich in diesem Zusammenhang auch eine ganz andere Frage:
Werden diese Spracherkennungs- und -steuerungsprogramme unsere Arbeitssituation,
insbesondere die der Sekretärinnen und ihrer Vorgesetzten verändern? Werden erstere vielleicht
bald überflüssig, wenn Briefe nicht mehr getippt werden müssen, sondern sie der
``Chef'' nur
noch zu sprechen braucht und auch ihr Format über die Sprache setzen kann? Ist dadurch ein
ganzer Berufsstand von Arbeitslosigkeit bedroht?
Die Perspektive scheint wirklich düster zu sein, aber in der Praxis werden m.E. auch
längerfristig Sekretärinnen und Schreibkräfte gebraucht werden, auch wenn sich der
Schwerpunkt ihrer Aufgaben vom Tippen zum Formatieren und Korrigieren verschieben wird.
Zum Setzen der Texte ist schließlich ein spezielles Know how vonnöten und das Korrigieren
erfordert auch bei einer 98%igen Erkennungsrate sehr viel Zeit. Zeit, die z.B. ein Professor gar
nicht erübrigen kann, es sei denn, er machte Abstriche bei seiner wissenschaftlichen Forschungs- und
Lehrtätigkeit. Und last but not least: welcher Chef verzichtet schon gern auf die ihm
liebgewordene Sekretärin?
Hinweise
Nähere Informationen zum Thema erhalten Sie in den o.e. Artikeln und im Internet unter
folgenden Adressen: www.naturalspeech.com, www.ibm.com/viavoice
und www.lhs.com.
Eine Veranstaltung des Universitätsrechenzentrums widmet sich im Sommersemester diesem Thema. Ort
und Zeitpunkt entnehmen Sie bitte dem Vorlesungsverzeichnis.
Ansprechpartner im URZ: Zimmer: Telefon: PMail:
Klaus Keil Ei: eO-108
-1371 klaus.keil