Komplexe Sprache für Computer

Ein wenig Menschenverstand

+
Chris Biemann

Darmstadt - Wie lehrt man Computer, natürliche Sprache zu verstehen, um so auch große Textmengen zu strukturieren und erschließbar zu machen?

Diesem Problem hat sich an der TU Darmstadt Professor Dr. Chris Biemann mit seiner Forschergruppe am Fachbereich Informatik verschrieben. Dafür gab’s den Adolf-Messer-Preis. Computer haben ihre eigene Sprache, die nach klaren, logischen Regeln funktioniert und stets eindeutig ist. „Die menschliche Sprache ist dagegen gewachsen und nicht immer logisch und eindeutig“, erklärt Biemann.

Computer arbeiten nach Binärcodes. Schnell und ausschließlich logisch. Wissenschaftler möchten die Tür zum besseren Verständnis der nicht immer logischen menschlichen Sprache durch die Maschinen ein wenig aufstoßen. Foto: dpa

Soll ein Computer einen von Menschen geschriebenen Text „verstehen“, also interpretieren, muss man ihm beibringen, Wörter nicht nur als Ansammlung von Buchstaben zu sehen. Ein Rechner muss auch erschließen können, welches Konzept hinter einem Wort steht. Wichtig wird das zum Beispiel bei Polysemen – hier hat ein Wort mehrere Bedeutungen – oder Synonymen – mehrere Wörter, die alle in etwa dieselbe Bedeutung haben. Biemann erklärt das Problem, vor dem Computer dabei stehen, am Beispielsatz „Sie ging zur Bank und hob Geld ab“. Hinter dem Polysem „Bank“ könnten zwei verschiedene theoretische Konzepte stehen: eine Sitzgelegenheit oder ein Geldinstitut. Menschen erschließen sich die jeweilige Bedeutung des Wortes „Bank“ aus dem Zusammenhang. Computer können das bislang kaum.

„Diese Zuordnung automatisch zu bewerkstelligen und so Computern Wissen über unsere Welt beizubringen, ist nicht trivial“, sagt Biemann. Gemeinsam mit seiner Forschungsgruppe arbeitet er daran, große Datenmengen algorithmisch zu analysieren. Vereinfacht gesagt: Computerprogramme durchforsten riesige Textmengen, zum Beispiel 20 Jahrgänge Tageszeitungen, und entdecken dabei, dass manche Wörter typischerweise ähnlich verwendet werden. Nach und nach entstehen so zu allen Wörtern Listen mit ähnlich verwendeten Wörtern. Die „zweite Dimension“ eines Textes bildet sich ab. Der Computer lernt, Synonyme zu „verstehen“ und Polyseme zu erkennen und richtig zu deuten. Die Methode, zu einem schlichten Text einen „zweidimensionalen Text“ generieren zu lassen, ist eine Entwicklung der Forscher.

In weiteren Analyseschritten, an denen die Forscher der Arbeitsgruppe Sprachtechnologie derzeit arbeiten, erschließen die Auswerte-Algorithmen dann auch Oberkategorien für Wörter – so fallen Begriffe wie „Hemd, Rock, Hose“ alle in die Kategorie „Kleidung“ – und Verbindungen zwischen Wörtern: In der Formulierung „das blaue Kleid“ beschreibt ein Wort das andere. Später sollen Computer auch in der Lage sein, Kausalzusammenhänge zwischen Satzteilen und Aussagen, kurz, große übergeordnete Strukturen zu erkennen, die weit über das einzelne Wort hinausreichen.

Der Darmstädter Forschungsansatz lässt Computer eigenständig lernen. Das funktioniere auch in fremden Sprachen, ohne dass die Programmierer sie sprächen oder zuvor Wörterbücher einspeisten, sagt Biemann – vorausgesetzt, der Computer hat genug Ausgangsmaterial, das er auf Ähnlichkeiten und Strukturen abklopfen kann. „Es geht darum, Computer Strukturen aus dem vorhandenen Material – zum Beispiel großen Textmengen –heraus entwickeln zu lassen, nicht eine Struktur zu entwerfen, die dann mehr oder minder gut auf Texte angewendet wird“, erklärt Biemann. „Das ist das Besondere an unserer Forschung hier in Darmstadt.“ In der Praxis werden die an der TU entwickelten Methoden bereits eingesetzt, und zwar immer dann, wenn es ums Wissensmanagement geht. Suchanfragen in Internet-Suchmaschinen sind ein Beispiel. Da nicht genau absehbar ist, welche Formulierung und welche Suchbegriffe der Suchende wählen wird, muss die Suchmaschine in der Lage sein, mit einer Anfrage „intelligent“ umzugehen und sie zu interpretieren. „Immer, wenn ein Thema noch nicht gut erschlossen ist, hilft zweidimensionaler Text weiter“, sagt Chris Biemann.

Allerdings ist es nicht nur die praktische Verwertbarkeit, die ihn an seinem Forschungsgebiet Computerlinguistik und Sprachtechnologie fasziniert: „Sprache hat so viel mit menschlichem Denken zu tun – man kann sich die Frage stellen, ob Sprache und Denken nicht dasselbe ist“, sagt er. Einerseits gehe es darum, Intelligenz so zu formalisieren, dass Maschinen „intelligent“ agieren könnten. „Aber letztlich geht es auch darum zu verstehen, was den Menschen zum Menschen macht.“

20 Tipps: Sicher surfen und telefonieren

20 Tipps: Sicher surfen und telefonieren

Chris Biemann studierte Diplominformatik an der Universität Leipzig, wo er von 2003 bis 2007 auch promovierte. In seiner Dissertation brach er mit den Traditionen von Computerlinguistik und Sprachtechnologie, indem er zeigte, dass Maschinen computerlinguistische Aufgaben lösen können, ohne auf explizit gegebenes Wissen zurückzugreifen. Die Maschine lernt „von selbst“. Nach der Promotion arbeitete Biemann in San Francisco bei der semantischen Suchmaschine Powerset und später bei Microsoft Bing. 2011 folgte er dem Ruf auf die Juniorprofessur am Fachbereich Informatik der TU Darmstadt. Er leitet die Fachgruppe Sprachtechnologie.

re

Quelle: op-online.de

DAS KÖNNTE SIE AUCH INTERESSIEREN

Kommentare