Textgenerierung: Automatische Texterstellung mit Hilfe eines Computeralgorithmus

Als Textgenerierung (auch natürlichsprachliche Generierung; englisch Natural Language Generation, NLG) bezeichnet man die automatische Produktion von natürlicher Sprache durch eine Maschine.

Die Generierung von Texten ist sowohl ein Teilbereich der Computerlinguistik als auch der künstlichen Intelligenz.

Generierungsprozess

Beim Generierungsprozess können sowohl anhand unterschiedlicher Eingabeformate, als auch nach unterschiedlichen technischen Herangehensweise klassifiziert werden. Basierend auf dem Format der Daten, die der Textgenerierung zugrunde liegen, wird unterschieden zwischen:

  • Daten zu Text: Textgenerierung basierend auf strukturierten Daten (zum Beispiel Generierung von Wetterberichten)
  • Bilder zu Text: Textgenerierung basierend auf Bildern oder Videos (zum Beispiel Generierung von Bildunterschriften)
  • Text zu Text: Textgenerierung basierend auf Texten (zum Beispiel Generierung von Übersetzungen)

Während die klassische Definition der Textgenerierung noch eine nicht-linguistische Quelle als Eingabe vorsah, also die Text zu Text Generierung ausschloss, ist die Generierung basierend auf Texten, wie bei der Übersetzung oder der Vereinfachung von Texten, inzwischen fester Bestandteil des Feldes.

Auf technischer Ebene wird insbesondere zwischen Pipeline- und End-to-end-Architekturen unterschieden. Pipeline-Architekturen bestehen dabei aus einzelnen, meist regelbasierten, Komponenten, die die Textgenerierung schrittweise vollführen. Nach Reiter und Dale sind die Schritte zur Textgenerierung:

  1. Inhaltsbestimmung: Entscheidung welche Information im zu generierenden Text enthalten sein sollen.
  2. Dokumentenstrukturierung: Organisation der Struktur in der die Informationen übertragen werden sollen.
  3. Aggregation: Zusammenführung ähnlicher Sätze um die Lesbarkeit und Natürlichkeit des Textes zu verbessern.
  4. Lexikalische Wahl: Wahl der konkreten Worte um eine Information zu kommunizieren.
  5. Referenzgenerierung: Generierung von Koreferenzen innerhalb des Textes.
  6. Realisierung: Tatsächliche Generierung des Textes basieren auf der Syntax, Morphologie und Orthographie der Zielsprache.

Moderne Systeme zur Textgenerierung, insbesondere in der Forschung, verwenden heute häufig End-to-end Architekturen. Hierbei werden Modelle des Maschinellen Lernens auf großen Datensätzen bestehend aus Eingabedaten (zum Beispiel strukturierte Daten) und korrespondierenden, häufig menschlich verfassten, Texten trainiert.

Anwendungsgebiete

Roboterjournalismus

Unter dem medial geprägten Begriff „Roboterjournalismus“ werden Algorithmen verstanden, die aus Datenbanken und ‑kolonnen fertige Nachrichtentexte generieren können. Bei diesem Verfahren steht die Einsparung bzw. Fokussierung humaner Journalisten im Vordergrund. Redaktionen können durch die maschinelle Entlastung einerseits mit weniger Mitarbeitern höherwertige weil aufwändiger recherchierte Nachrichtenprodukte gewinnen. Andererseits können sie Berichte veröffentlichen, die aus Mangel an Zeit oder wegen zu wenig Interessenten nicht geschrieben werden könnten. Der Einsatz von Software im Journalismus ist noch umstritten, es wird vor allem diskutiert, worin der menschliche Journalist der Software überlegen ist. Zudem ist die Frage ungeklärt, inwiefern automatisch generierte Texte dem Urheberrecht unterliegen. Die speziell auf die Inputdaten zugeschnittenen Algorithmen berechnen permanent Werte und verfassen Berichte über diese, entweder in bestimmten Zeitintervallen (z. B. tägliche Wetterberichte) oder wenn sich Werte stark verändern (z. B. Erdbeben-Warnung). Besonders häufige Einsatzgebiete von „Roboterjournalisten“ sind zum Beispiel Sportmeldungen, Wetterberichte und Börsenticker. Aber auch die datengetriebene Erstellung von automatisierten Inhalten für die Berichterstattung zu lokalen Themen kommt bereits zur Anwendung.

Chatbots

In textbasierten Dialogsystemen, wie Chatbots, wird die Textgenerierung zur Kommunikation mit dem Nutzer verwendet. Bekanntes historisches Beispiel ist das Programm ELIZA.

Ein Teil der Kommunikation mit hochentwickelten Intelligenten virtuellen Agenten beruht auf diesem Prinzip, wobei die Qualität des Dialogs unter anderem von der Verknüpfung des Agenten mit Wissensbasen abhängt. Der Dialog eines Menschen mit verschiedenen Schnittstellen kann erleichtert werden, wenn ein Agent Text generiert, der Fragen produktiv beantwortet:

  • Beim Abrufen eines Informationsangebots, unter anderem als Präsentationsagent einer Webseite (auch „Online Moderator“ genannt)
  • Bei einem sprachfähigen Programm zur Wahl eines Beraters (oft für telefonisches Vorsortieren von Kunden genutzt)
  • Bei Dialogen mit Figuren in Computerspielen

Content Marketing

Laut einer Studie ist die Marketing-Branche, die Branche, auf die Künstliche Intelligenz den größten Einfluss haben wird. Im Marketing werden verschiedene Tools genutzt, um Inhalte zu generieren, wie z. B. das Erstellen von Werbetexten, die Generierung von Newsletter-Betreffzeilen, und das Validieren von den KI-generierten Ergebnissen.

Laut einer Umfrage des Digitalverbandes Bitkom Anfang 2023 plant jedes sechste Unternehmen den KI-Einsatz zur Textgenerierung.

Kunst und Kreativität

  • Eingriffe in die generierende Software oder die Wissensbasis (künstlerische und literarische Experimente). Beispiel (nach Reinhard Döhl): Max Bense und seine Stuttgarter Gruppe benutzten 1959 eine Zuse Z22, um "mit Hilfe eines eingegebenen Lexikons und einer Anzahl von syntaktischen Regeln Texte zu synthetisieren und auszugeben".
  • Nachbearbeitung oder Einbau generierten Textes durch Autoren (Literatur).
  • Dialog mit Publikum (beispielsweise in Kunstinstallationen). Beispiel: David Link, Poetry Machine

Phrasendreschmaschinen

Textgenerierung: Generierungsprozess, Anwendungsgebiete, Geschichte 
BULLSHIT-Phrasen-Stempel

Phrasendreschmaschinen oder Bullshit-Generatoren (englisch bullshit generators, auch buzzword generators) gab es vor der Umsetzung in Software als mechanische Geräte. Wahrscheinlich die erste als Software ausgeführte Phrasendreschmaschine war LoveLetters_1.0, 1952 programmiert von Christopher Strachey an der University of Manchester für den Ferranti Mark I. Ähnliche Generatoren sind in vielen weiter entwickelten Ausführungen im WWW zu finden.

Solche Programme arbeiten nach einfachen Konzepten, die bei anspruchsvolleren Verfahren der Textgenerierung komplexer ausgestaltet angewandt werden: Begriffe oder Satzteile werden aus Listen entnommen, aneinandergereiht und grammatikalisch korrekt angepasst (grammatische Realisierung). Ein dafür oft angewendetes Verfahren ist die Generierung mit Markow-Ketten. Es entsteht syntaktisch korrekter Text, der sinnhaltig wirken kann, tatsächlich aber Blödsinn (englisch bullshit) ist, weil Phrasendreschmaschinen nicht auf Wissen über die Bedeutung verwendeter Partikel zugreifen. So lässt sich scherzhaft beispielsweise leere Rhetorik von Fachliteratur persiflieren.

Geschichte

Abgesehen von mechanischen Phrasendreschmaschinen als Vorläufern und abgesehen von frühesten Versuchen, Texte durch Software zu generieren, beginnt die erste Phase natürlichsprachiger Generierung mit Programmen, die zur Textgenerierung schematisch auf Wissen zugreifen, das bereits in Textform abgelegt ist. So funktionierte ab 1963 BASEBALL, ein Interface zu den Baseballdaten der amerikanischen Baseballiga und SAD SAM, ein Interface zur Eingabe von Verwandtschaftsbeziehungen, das bereits auf Fragen antwortete. Nach mehreren anderen Arbeiten in dieser Richtung erschien 1966 ELIZA, programmiert von Joseph Weizenbaum. In der zweiten Phase ist das Wissen in Fakten und Regeln kodiert: LUNAR, 1972, ist das Interface zur Datenbank über die Mondprobensammlung der Apollo 11 Mission. PARRY, 1975, simuliert einen Paranoiden im Gespräch mit einem Psychiater. ROBOT, 1977, ist das erste kommerzielle Frage-Antwort-System. VIE-LANG, 1982, von Ernst Buchberger, ist ein Dialogsystem in deutscher Sprache, das Sätze aus einem semantischen Netz generiert. HAM-ANS, 1983, von Wolfgang Hoeppner, ist ein Dialogsystem in deutscher Sprache, das beispielsweise einen Hotelmanager simuliert.

Literatur

  • Ehud Reiter, Robert Dale: Building natural language generation systems. Cambridge University Press, Cambridge 2000, ISBN 0-521-62036-8.
  • Helmut Horacek: Textgenerierung in: Kai-Uwe Carstensen, Ralf Klabunde et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. Heidelberg: Spektrum Akademischer Verlag, 3. Auflage, 2010, ISBN 978-3827420237, S. 436–465
  • John Bateman: Angewandte natürlichsprachliche Generierungs- und Auskunftsysteme in: Ralf Klabunde et al. (Hrsg.): Computerlinguistik und Sprachtechnologie. s. o. Heidelberg 2010 S. 633–641
  • Patrick Reichelt: Einführung in den Roboterjournalismus: Bedrohung oder Chance?. Tectum Wissenschaftsverlag, Baden-Baden 2017, ISBN 978-3828840591.
  • Stefan Weber: Roboterjournalismus, Chatbots & Co.: Wie Algorithmen Inhalte produzieren und unser Denken beeinflussen. Heise Medien, Hannover 2018, ISBN 978-3957881045.
  • Gerhard Schreiber, Lukas Ohly (Hrsg.): KI:Text. Diskurse über KI-Textgeneratoren. Berlin/Boston: De Gruyter 2024 (581 S.), ISBN 978-3111350967.

Einzelnachweise

Tags:

Textgenerierung GenerierungsprozessTextgenerierung AnwendungsgebieteTextgenerierung GeschichteTextgenerierung LiteraturTextgenerierung EinzelnachweiseTextgenerierungComputerlinguistikEnglische SpracheKünstliche IntelligenzNatürliche Sprache

🔥 Trending searches on Wiki Deutsch:

Marie-Agnes Strack-ZimmermannBrigitte MacronGünter GuillaumeNapoleon BonaparteAlexander BommesGeorgina ChapmanMarshallinselnTim BendzkoTitanic (Schiff)Pe WernerAero L-39Jankel AdlerRussell JamesHolger WaldenbergerGirls’ DayOdine JohneEva KailiAbigail (Film, 2024)Conor McGregorJens SpahnFußball-Ligasystem in DeutschlandBulgarienListe der Schaltzeichen (Elektrik/Elektronik)IslamSylvester StalloneJulia BremermannRattenkönigLea WagnerDavid Finck (Schriftsteller)LitauenRCH 155Liste der größten AuslegerbrückenLeonardo da VinciRipley (Fernsehserie)Rio ReiserNullGDreschenRusslandAntónio de Oliveira SalazarBelgienOlaf Schubert2024Qing-DynastieRepublik ZypernO. J. SimpsonGuilty Chinese Scholar TreePräsidentschaftswahl in Nordmazedonien 2024Julia SchwanholzDie Mumie kehrt zurückRafael NadalGeneration ZGeneration YElla PurnellOnlyfansVeteranenabzeichenJuli ZehElvis PresleyBundesregierung (Deutschland)Vagina des MenschenTanja WedhornAlbert EinsteinBertolt BrechtErster MaiKölner DomGriechisches AlphabetTorsten SträterBundespräsident (Deutschland)Entführungen von Cleveland, OhioEuropawahl 2024Asia ArgentoPeter HahneFahrbibliothekElton JohnMark Ambor🡆 More