Wie können sensible interne Daten einem generativen Sprachmodell sicher zur Verfügung gestellt werden? Welche Kompetenzen benötigen zukünftige Spezialist*innen der Fachkommunikation dafür und wie können diese schon im Studium vermittelt werden? Um die Beantwortung dieser Fragen geht es in diesem Praxisprojekt von KI:edu.nrw.
Im Praxisprojekt „TermRAG 4 SafeAI“ beschäftigen wir uns mit Retrieval Augmented Generation (RAG) und den sich dadurch ergebenden Möglichkeiten der Anbindung externer Wissensressourcen an generative Sprachmodelle.
Laufzeit:
Beteiligte:
Fokus:
Der Einsatz generativer KI birgt neben großem Potenzial im wirtschaftlichen und öffentlichen Kontext auch zahlreiche qualitative, technische und ethische Hindernisse und Risiken, die von den Nutzer*innen, Unternehmen und öffentlichen Einrichtungen bewältigt und kritisch hinterfragt werden müssen. Dazu zählen u.a. Falschinformationen, Halluzinationen, Verletzungen des Datenschutzes usw. Um diesen Problematiken entgegenzuwirken, wird zunehmend der Einsatz von Retrieval Augmented Generation (RAG) erforscht. Mithilfe dieser RAG-Technik können externer Wissensressourcen an die Sprachmodelle angebunden werden, wodurch die genannten Hindernisse und Risiken abgefangen werden können.
TermRAG ist eine spezielle Form der RAG-Technologie, bei der eine Terminologiedatenbank als Wissensressource genutzt wird. TermRAG steht dabei für terminology RAG. Um Antworten eines generativen Sprachmodells mit den Informationen aus einer Terminologiedatenbank anreichern zu können, müssen relevante Daten in der Terminologiedatenbank zunächst identifiziert werden. Dies kann mit verschiedenen Information-Retrieval-Techniken erfolgen, z.B. durch Chunking und Vektorisierung oder stringbasierten Datenbankabfragen.
Wenn Nutzer*innen also eine Anfrage an ein generatives Sprachmodell stellen, wird diese nicht direkt an das Sprachmodell gesendet, sondern zunächst mit der Terminologiedatenbank verglichen, um so relevante Informationen für die Anfrage herauszufiltern (Retrieval). Gibt es relevante Informationen in der Datenbank, wird die ursprüngliche User-Anfrage mit den zusätzlichen Daten angereichert (Augmentierung). Erst jetzt wird die Anfrage an das Sprachmodell weitergegeben. Anschließend wird eine Antwort, basierend auf den allgemeinen Trainingsdaten und den spezifischen Daten aus der Terminologiedatenbank, generiert (Generierung).
Unsere Lehrveranstaltung findet im Rahmen des Terminologieprojektes unserer Studierenden des Masterstudiengangs „Terminologie und Sprachtechnologie“ an der TH Köln statt. Entsprechend des Studienschwerpunkts liegt die externe Wissensressource für die RAG-Pipeline in Form einer Terminologiedatenbank vor. Dadurch geben wir den Studierenden die Möglichkeit, ihre Kenntnisse im Bereich des Wissensmanagements praktisch auf die neuesten KI-Entwicklungen anzuwenden.
Um die Studierenden auf die eigenständige Entwicklung eines Konzepts zur Einbindung von terminologischen Daten in ein Sprachmodell via RAG vorzubereiten, steht in der ersten Hälfte der Lehrveranstaltung die Vermittlung der Grundlagen im Vordergrund. Darunter fallen theoretisches Wissen zum Thema LLMs/SLMs und RAG sowie eine Einführung in die Teilaspekte Ethik und Recht. Besonderes Augenmerk liegt zudem auf der praktischen Umsetzung der technischen Komponente des Projekts, also auf der Einrichtung und den Zugriff auf einen HPC-Cluster und die Arbeit mit Python-Skripten.
In der zweiten Hälfte der Lehrveranstaltung setzen die Studierenden das Gelernte in einer Projektarbeit um. Ihre Aufgabe ist es, ein eigenes Konzept zu entwickeln, wie terminologische Wissensressourcen (Terminologiedatenbanken) für die Arbeit mit SLMs aufbereitet und eingesetzt werden können. Dies soll unter Berücksichtigung ethischer und rechtlicher Aspekte geschehen. Dazu arbeiten die Studierenden in Kleingruppen, die sich mit der Erstellung der Terminologiedatenbank, der Überwachung der ethischen und rechtlichen Machbarkeit und der Programmierung bzw. dem Anpassen der Python-Skripte auseinandersetzen.
Die Entwicklung des Kurses und der Studierenden wird während der gesamten Lehrveranstaltung protokolliert, damit wir Lehren aus der Machbarkeit und den Voraussetzungen für die Umsetzung einer solchen Veranstaltung ziehen können. Zudem haben die Studierenden die Möglichkeit, jede Sitzung in Form von Reflexionsberichten zu reflektieren und uns so einen Einblick in die Situation der Lernenden zu geben.
Eine Sammlung von Kurzmeldungen, Neuigkeiten und Veröffentlichungen rund um KI:edu.nrw!
Spannende Projekt-Infos, Interviews und (Praxis-)Einblicke in die Welt von Learning Analytics und KI in der Hochschulbildung – das und vieles mehr erwartet Sie im KI:edu.nrw-Blog!
Sie möchten keine Neuigkeiten von KI:edu.nrw oder von der Learning AID mehr verpassen? Wir halten Sie auf dem Laufenden und benachrichtigen Sie per E-Mail bei Updates! Mit Ihrer Anmeldung stimmen Sie unseren Datenschutzbestimmungen zu.