TermRAG 4 SafeAI

TermRAG 4 SafeAI
Verlässlichkeit & Rechtssicherheit KI-generierter Inhalte durch Retrievel Augmented Generation (RAG)

Technische & didaktische Rahmenbedingungen für die Lehre in den Geistes- & Sozialwissenschaften

Wie können sensible interne Daten einem generativen Sprachmodell sicher zur Verfügung gestellt werden? Welche Kompetenzen benötigen zukünftige Spezialist*innen der Fachkommunikation dafür und wie können diese schon im Studium vermittelt werden? Um die Beantwortung dieser Fragen geht es in diesem Praxisprojekt von KI:edu.nrw.

Darum geht es uns

Im Praxisprojekt „TermRAG 4 SafeAI“ beschäftigen wir uns mit Retrieval Augmented Generation (RAG) und den sich dadurch ergebenden Möglichkeiten der Anbindung externer Wissensressourcen an generative Sprachmodelle.

Didaktik | Technik | Kompetenzvermittlung

Wir konzentrieren uns besonders auf die didaktische Einbindung der Technik sowie auf die Kompetenzvermittlung. Dazu erproben und evaluieren wir technische und didaktische Rahmenbedingungen in einer Lehrveranstaltung des Masterstudiengangs „Terminologie und Sprachtechnologie“ an der Technischen Hochschule Köln.

Lehrveranstaltung | Reflexion von Sprachmodellen

Wir erproben und evaluieren technische und didaktische Rahmenbedingungen in einer Lehrveranstaltung des Masterstudiengangs „Terminologie und Sprachtechnologie“ an der Technischen Hochschule Köln. In dieser Lehrveranstaltung setzten sich unsere Studierenden neben technischen, ethischen und rechtlichen Aspekten von RAG auch mit der ökologischen Perspektive kleinerer Sprachmodelle (SLMs) auseinander. Die didaktische Konzeption und Durchführung der Veranstaltung wird während des Semesters kontinuierlich kritisch reflektiert und evaluiert.

Das Ziel: Handlungsempfehlungen zur Nutzung von RAG in der Lehre

Unser Ziel ist es, aus den in der Lehrveranstaltung gesammelten Erkenntnissen Handlungsempfehlungen zur Nutzung von RAG in der Lehre, besonders in den Geistes- und Sozialwissenschaften, zu entwickeln. Diese Ergebnisse und die daraus abgeleitete didaktische Handreichung sollen anderen Hochschulen zur Verfügung gestellt werden, um den kompetenten Einsatz von RAG zu fördern.

Logo KI:edu.nrw Praxisprojekt
Logo Technology Arts Sciences TH Köln

Laufzeit:

  • 01.11.2024 – 31.10.2025

Beteiligte:

Fokus:

  • Retrieval Augmented Generation
  • Small Language Models

Was ist TermRAG?

Warum TermRAG wichtig ist

Der Einsatz generativer KI birgt neben großem Potenzial im wirtschaftlichen und öffentlichen Kontext auch zahlreiche qualitative, technische und ethische Hindernisse und Risiken, die von den Nutzer*innen, Unternehmen und öffentlichen Einrichtungen bewältigt und kritisch hinterfragt werden müssen. Dazu zählen u.a. Falschinformationen, Halluzinationen, Verletzungen des Datenschutzes usw. Um diesen Problematiken entgegenzuwirken, wird zunehmend der Einsatz von Retrieval Augmented Generation (RAG) erforscht. Mithilfe dieser RAG-Technik können externer Wissensressourcen an die Sprachmodelle angebunden werden, wodurch die genannten Hindernisse und Risiken abgefangen werden können.

So läuft TermRAG ab

TermRAG Infografik

Terminologiedatenbank

TermRAG ist eine spezielle Form der RAG-Technologie, bei der eine Terminologiedatenbank als Wissensressource genutzt wird. TermRAG steht dabei für terminology RAG. Um Antworten eines generativen Sprachmodells mit den Informationen aus einer Terminologiedatenbank anreichern zu können, müssen relevante Daten in der Terminologiedatenbank zunächst identifiziert werden. Dies kann mit verschiedenen Information-Retrieval-Techniken erfolgen, z.B. durch Chunking und Vektorisierung oder stringbasierten Datenbankabfragen.

Filtern, anreichern, generieren

Wenn Nutzer*innen also eine Anfrage an ein generatives Sprachmodell stellen, wird diese nicht direkt an das Sprachmodell gesendet, sondern zunächst mit der Terminologiedatenbank verglichen, um so relevante Informationen für die Anfrage herauszufiltern (Retrieval). Gibt es relevante Informationen in der Datenbank, wird die ursprüngliche User-Anfrage mit den zusätzlichen Daten angereichert (Augmentierung). Erst jetzt wird die Anfrage an das Sprachmodell weitergegeben. Anschließend wird eine Antwort, basierend auf den allgemeinen Trainingsdaten und den spezifischen Daten aus der Terminologiedatenbank, generiert (Generierung).

Unsere Lehrveranstaltung

Wissensmanagement & KI

Unsere Lehrveranstaltung findet im Rahmen des Terminologieprojektes unserer Studierenden des Masterstudiengangs „Terminologie und Sprachtechnologie“ an der TH Köln statt. Entsprechend des Studienschwerpunkts liegt die externe Wissensressource für die RAG-Pipeline in Form einer Terminologiedatenbank vor. Dadurch geben wir den Studierenden die Möglichkeit, ihre Kenntnisse im Bereich des Wissensmanagements praktisch auf die neuesten KI-Entwicklungen anzuwenden.

Auszug einer Terminologiedatenbank in Textformat

Beispiel_Datenbank_XML

Inhalte und Lernziele

Um die Studierenden auf die eigenständige Entwicklung eines Konzepts zur Einbindung von terminologischen Daten in ein Sprachmodell via RAG vorzubereiten, steht in der ersten Hälfte der Lehrveranstaltung die Vermittlung der Grundlagen im Vordergrund. Darunter fallen theoretisches Wissen zum Thema LLMs/SLMs und RAG sowie eine Einführung in die Teilaspekte Ethik und Recht. Besonderes Augenmerk liegt zudem auf der praktischen Umsetzung der technischen Komponente des Projekts, also auf der Einrichtung und den Zugriff auf einen HPC-Cluster und die Arbeit mit Python-Skripten.

Projektarbeit

In der zweiten Hälfte der Lehrveranstaltung setzen die Studierenden das Gelernte in einer Projektarbeit um. Ihre Aufgabe ist es, ein eigenes Konzept zu entwickeln, wie terminologische Wissensressourcen (Terminologiedatenbanken) für die Arbeit mit SLMs aufbereitet und eingesetzt werden können. Dies soll unter Berücksichtigung ethischer und rechtlicher Aspekte geschehen. Dazu arbeiten die Studierenden in Kleingruppen, die sich mit der Erstellung der Terminologiedatenbank, der Überwachung der ethischen und rechtlichen Machbarkeit und der Programmierung bzw. dem Anpassen der Python-Skripte auseinandersetzen.

Reflexion

Die Entwicklung des Kurses und der Studierenden wird während der gesamten Lehrveranstaltung protokolliert, damit wir Lehren aus der Machbarkeit und den Voraussetzungen für die Umsetzung einer solchen Veranstaltung ziehen können. Zudem haben die Studierenden die Möglichkeit, jede Sitzung in Form von Reflexionsberichten zu reflektieren und uns so einen Einblick in die Situation der Lernenden zu geben.

Sie haben Fragen?

Sprechen Sie uns gerne an!
Foto Vanessa Jochum

Vanessa Jochum

Praxisprojekt TermRAG 4 SafeAI
vanessa_aylin.jochum@th-koeln.de
Foto Karolina Suchowolec

Prof. Dr. Karolina Suchowolec

Praxisprojekt TermRAG 4 SafeAI
karolina.suchowolec@th-koeln.de

TermRAG 4 SafeAI ist ein Praxisprojekt von KI:edu.nrw.
Hier finden Sie Informationen unseren Praxisprojekten:

KI:edu.nrw-News

Eine Sammlung von Kurzmeldungen, Neuigkeiten und Veröffentlichungen rund um KI:edu.nrw!

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7

Der KI:edu.nrw-Blog

Spannende Projekt-Infos, Interviews und (Praxis-)Einblicke in die Welt von Learning Analytics und KI in der Hochschulbildung – das und vieles mehr erwartet Sie im KI:edu.nrw-Blog!

Beitragsbild Projekttagebuch 2.0 Ethik
09
Juli

Projekttagebuch Nr. 7: Ethik im Projekt KI:edu.nrw

Ethik ist uns allen wahrscheinlich erstmal ein geläufiger Begriff: die philosophische Lehre vom richtigen Handeln – sie fragt, was gut, gerecht und verantwortungsvoll ist, und warum wir so handeln sollten. Doch was bedeutet Ethik im Projektkontext von KI:edu.nrw? Was sind die Herausforderungen? Und wie kann...
Weiterlesen
Beitragsbild Projekttagebuch 2.0 Schulung und Beratung mit Stephanie Merten
04
Juni

Projekttagebuch Nr. 6: Schulungen und Beratung in KI:edu.nrw

Themenreihe, Schulungen, Beratungsangebote, Vernetzungsveranstaltungen – auch dies ist ein essenzieller Baustein von KI:edu.nrw. Wie werden solche Events organisiert und welche Herausforderungen gilt es zu meistern? Wie entsteht eine Themenreihe? Und wie wird die entsprechende Zielgruppe erreicht? Antworten auf diese und weitere Fragen hat Stephanie Merten....
Weiterlesen
Beitragsbild 3 Fragen an Sarah Görlich zur mediendidaktischen Arbeit im Teilprojekt Generative KI
22
Apr.

3 Fragen an… Sarah Görlich

Seit Januar 2025 gibt es im KI:edu.nrw-Teilprojekt Generative Künstliche Intelligenz eine eigene Stelle für den Bereich Mediendidaktik. Doch was verbirgt sich dahinter konkret? Welche Aufgaben werden hier mit welchen Zielen bearbeitet? Und wie unterscheidet sich dieser Bereich Mediendidaktik von der Mediendidaktik im Teilprojekt Learning Analytics?...
Weiterlesen

Alle Neuigkeiten per E-Mail erhalten

Sie möchten keine Neuigkeiten von KI:edu.nrw oder von der Learning AID mehr verpassen? Wir halten Sie auf dem Laufenden und benachrichtigen Sie per E-Mail bei Updates! Mit Ihrer Anmeldung stimmen Sie unseren Datenschutzbestimmungen zu.