

KIMu_lab, ki.StadtLabor, Sokratest, TermRAG 4 SafeAI und XLM – das sind die fünf Praxisprojekt der ersten Förderphase von KI:edu.nrw. Doch was genau passiert eigentlich in den Projekten? In unserer Serie berichten wir in regelmäßigen Abständen über die Arbeit der Projekte. In der neuen Ausgabe geben Studierende der TH Köln einen Einblick in das Praxisprojekt TermRAG 4 SafeAI.
Sogenannte Halluzinationen gehören zu den häufigsten Risiken von KI-gestützten Chatbots. Ein Ansatz für den Umgang mit diesem Problem ist das Implementieren einer RAG-Pipeline, die Antworten mit falschen Informationen und Halluzinationen verhindern sollen. Ein kleiner Kurs an der TH Köln macht eine Reise in die Welt der KI-unterstützten Chatbots – und versucht dabei, einen terminologiebasierten Chatbot zu bauen, der Studierenden mit Beeinträchtigung bei der Orientierung im Studienalltag helfen soll.
Halluzinationen im Kontext der Künstlichen Intelligenz bezeichnen Output-Resultate, die überzeugend klingen, allerdings nicht mit den Trainingsdaten übereinstimmen oder grundlegend falsch sind.
RAG, kurz für Retrieval Augmented Generation, verbindet maschinelles Lernen mit effektiver Informationsextraktion. Eine solche Pipeline ermöglicht es KI-Systemen, auf riesige Datenmengen zuzugreifen und relevante Informationen gezielt zu extrahieren. Dies führt zu präziseren und kontextbezogeneren Antworten.
Terminologie ist die Menge aller Fachbegriffe in einem Fachgebiet. Die Terminologie wird in diesem Fall digital verarbeitet und dient als kontrolliertes Vokabular für den Chatbot.
Im Rahmen des Terminologieprojekts, einer Lehrveranstaltung an der TH Köln, entwickelten Studierende eine Retrieval-Augmented-Generation (RAG)-Pipeline für einen Chatbot zum Thema „Studieren mit Beeinträchtigung an der TH-Köln“. Dabei sollte die Funktionsweise einer RAG-Pipeline erarbeitet und die verschiedenen Aspekte bei der Implementierung der Pipeline berücksichtigt werden. Die Veranstaltung behandelte im ersten Teil des Semesters alle theoretischen Grundlagen in Bezug auf die Nutzung von generativer KI.
Im zweiten Teil der Veranstaltung begann die Arbeit an der praktischen Umsetzung. Der Kurs teilte sich in vier Teilbereiche des Projekts, in Technik-Team, Ethik-Team, Terminologie-Team und Projektmanagement-Team. Das Technik-Team arbeitete an einem Grundgerüst für die technische Umsetzung des Chatbots. Das Terminologie-Team und das Ethik-Team sollten sicherstellen, dass die Antworten des Chatbots korrekt und qualitativ hochwertig sind. In keinem Fall sollten diskriminierende Aussagen getroffen oder in irgendeiner Weise reproduziert werden. Das Projektmanagement verfolgte die Aufgabe, den allgemeinen Fortschritt des Projektes sowie die Kommunikation zwischen den einzelnen Gruppen (insbesondere Technik und Terminologie) zu koordinieren.
Den ersten Blog-Beitrag zum KI:edu.nrw-Praxisprojekt TermRAG 4 SafeAI gibt es hier zum Nachlesen: ki-edu-nrw.ruhr-uni-bochum.de/aus-der-praxis-lernen-die-entstehung-einer-handreichung-zu-rag-in-der-lehre
Die Umsetzung des Chatbots erfolgte über die Server der Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG). RAG-Tutorials von LangChain bildeten die Grundlage der Python-Skripte für den Chatbot. Außerdem wurden zwei encodierte Wissensressourcen genutzt. Eine davon ist eine Textdatei, die Links zu Beratungsstellen und Anweisungen an den Chatbot enthält. Mit den verschiedenen Strategien für das Prompting war im Verlauf des Semesters schon einige Male gearbeitet worden. Die zweite Wissensressource stellte die Terminologie bereit, die das Terminologie-Team für die Ausgaben des Chatbots erarbeitet hatte.
Der Bereich der ethischen Fragestellungen war einer der vier Hauptbereiche im Projekt und gewann im fortschreitenden Projektverlauf mehr und mehr an Bedeutung. Ein zentraler Faktor bei der Diskussion über den Einsatz von generativer KI im Allgemeinen ist die Nachhaltigkeit. Der vermehrte Einsatz von bspw. KI-gestützten Chatbots beansprucht eine große Menge an Ressourcen verschiedenster Art, die im Endeffekt einen großen Einfluss auf die Klimakrise haben können. Wie geht man als studierende Person mit dieser Ambivalenz um?
Die Stimmung war gemischt, viele trennten die Nutzung von KI-gestützten Chatbots in der Hochschule oder Uni bzw. bei der Arbeit von der Nutzung dieser Modelle im privaten Umfeld. Da der Chatbot eine Hilfestellung für Studierende mit Beeinträchtigung darstellen sollte, wurden zum einen die Beauftragte für Studierende mit Beeinträchtigung, chronischer und psychischer Erkrankung der TH Köln (von der Zentralen Studienberatung) und zum anderen Mitarbeitende von EiN* Ort für inklusives Wissen miteinbezogen. Diese Gespräche gaben wertvolle Einblicke und Tipps für die Umsetzung des Projekts – nicht nur in Bezug auf ethische Faktoren, sondern auch für die technologische Umsetzung und die Terminologie, die der Chatbot verwenden sollte.
Eine der größten Fragen für das Ethik-Team: Wie wird der Chatbot für möglichst viele Studierende zugänglich? Diese und viele weitere Fragen konnten durch die Gesprächspersonen von der Zentralen Studienberatung (ZSB) und EiN* Ort für inklusives Wissen aus verschiedenen Perspektiven betrachtet werden. Der Einsatz von Screen-Readern, die Nutzung von Braille-Druckern etc. wirken sich natürlich auf die Gestaltung von Texten aus, nicht nur typografisch, sondern vor allem sprachlich.
Auch im Projekt KI:edu.nrw gibt es ein eigenes Teilprojekt, das sich mit der ethischen Perspektive auf Learning Analytics und (generative) Künstliche Intelligenz in der Hochschulbildung beschäftigt. Mehr Infos unter: ki-edu-nrw.ruhr-uni-bochum.de/ueber-das-projekt/phase-2/querschnittsthemen/ethik
Das Thema Datenschutz war zu Beginn der Veranstaltung zwar nicht neu, jedoch auch ein sehr unklares Feld von Begriffen, Richtlinien, Gesetzen und Vorgaben, die es einzuhalten galt. Wie geht man als Privatperson mit solchen Datenschutzbestimmungen um? Wissen die Personen bei der Nutzung eines Chatbots tatsächlich, was mit ihren Daten passiert? Wie unterscheiden sich die Datenschutzbestimmungen von Modell zu Modell?
Nach der Auseinandersetzung mit dem Thema Datenschutz rückte dieser Aspekt, der in der bisherigen Projektplanung eher weniger Beachtung fand, in die Mitte der Aufmerksamkeit.
Im Rahmen von KI:edu.nrw sind diverse (Rechts-)Gutachten entstanden zum Einsatz (generativer) KI im Hochschulkontext entstanden, u. a. zur Bedeutung der europäischen KI-Verordnung für Hochschulen. Eine Sammlung der Publikationen ist hier zu finden.
Aufgrund der Relevanz des Sachgebiets erforderte unser Konzept eine für den Projektrahmen angemessene Terminologiearbeit. Bereits während der Terminologieextraktion nutzten wir gezielte Quellen, die den Fachwortschatz explizit widerspiegelten. Aufgrund des eingeschränkten Zeitrahmens entnahmen wir Termkandidaten hauptsächlich aus einer Broschüre der TH Köln.
Terminologieextraktion bezeichnet einen Prozess vor der eigentlichen Terminologiearbeit, in dem sogenannte Termkandidaten aus ausgewählten Texten gesammelt werden.
Termkandidat bezeichnet jede Benennung, die einen Fachbegriff bezeichnen könnte und demzufolge relevant für die folgende Terminologiearbeit sein könnte.
Sonstige Quellen haben wir während der Definitionsbildung gefunden und untersucht. Die Terminologieextraktion fand größtenteils manuell und teilweise unter dem Einsatz von KI-Tools statt, wodurch wir die relevantesten Begriffe erfassen konnten.
Im weiteren Projektablauf erkannten wir frühzeitig, dass wir einen sensiblen Sprachgebrauch für die weitere Terminologiearbeit benötigen, um die Interaktion mit dem Chatbot zielgruppen-gerecht zu gestalten. Somit verzichteten wir während der Definitionsbildung auf negativ konnotierte Wörter, um beeinträchtige Personen nicht abzuwerten. Ebenfalls haben wir englisch-sprachige Wörter in beiden Bereichen vermieden, weil diese durch Screenreader und sonstige Funktionen nicht verständlich wiedergegeben werden und somit unbrauchbar in der Ausgabe des Chatbots sind.
Weiterhin erkannten wir während der ersten Terminologierecherche eine Unklarheit bei der Verwendung der Begriffe „Behinderung“ und „Beeinträchtigung“. Viele allgemeine Quellen zeigen eine gewisse Trennschärfe zwischen den Begriffen durch Begriffsbeziehungen, jedoch war eine klare Differenzierung nicht möglich. Nach ausführlicher Rücksprache mit der Beauftragten für Studierende mit Beeinträchtigung der TH Köln, wurde uns klar, dass die thematisierten Begriffe im Kontext Studieren mit Beeinträchtigung als identisch zu verstehen sind und Beeinträchtigung tendenziell bevorzugt wird.
Abschließend stellte die angewandte Terminologiearbeit wichtige terminologische Informationen in Form einer Terminologiedatenbank dem Chatbot bereit. Während der Testversuche hat der Chatbot diese terminologischen Informationen erfolgreich beachtet, wodurch wir grundlegende Zielstellungen erfüllt haben.
Auch wenn am Ende die Aussagen des Chatbots auf bestimmte Fragestellungen nicht immer zufriedenstellend waren, lässt sich aus dieser Veranstaltung viel mitnehmen. Die Arbeit mit modernen (KI-bezogenen) Technologien, das Programmieren, die Erarbeitung verschiedener Bereiche und das Zusammenfügen dieser Bereiche zu einem großen Ganzen war für alle Studierenden neu. Die Arbeit an diesem Projekt hat Spaß gemacht, weil kein Mitglied des Projekts bisher etwas Ähnliches gemacht hatte und alle deshalb sehr viel für zukünftige Arbeiten mit generativer KI, Terminologie oder auch allgemein im Bereich Projektmanagement mitnehmen.
