Mit Datenanalysen das Maschinenbaustudium studierbarer machen – Joline Hansen über ihre Arbeit bei KI:edu.nrw
Hypothesen, Datensätze und KIs – dies sind nur einige der Themen, mit denen sich Joline Hansen, M. Sc., vom Lehrstuhl für Feststoffverfahrenstechnik (FVT) an der Ruhr-Universität Bochum (RUB) im Rahmen des landesgeförderten Projekts KI:edu.nrw beschäftigt.
KI:edu.nrw ist ein Kooperationsprojekt der RUB und der RWTH Aachen. Hier sondiert ein interdisziplinäres Projektteam, unter welchen Voraussetzungen ein Einsatz von KI-gestützten Lerndatenanalysen (Learning Analytics) zu einer besseren Hochschullehre beitragen kann. So wäre es bspw. denkbar, dass die Analyse von Studierendendaten zur Identifikation von Hürden im Studienverlauf genutzt werden kann. Sind diese Hürden bekannt, können entsprechende Beratungs- und Unterstützungsangebote für Studierende entwickelt werden.
In unseren Projekttagebüchern möchten wir einen Einblick in die verschiedenen Teilprojekte geben, die im Rahmen von KI:edu.nrw ganz unterschiedliche Schwerpunkte bearbeiten. Den Anfang macht Joline Hansen, M. Sc, vom Fakultätsprojekt Maschinenbau. In unserem Interview beleuchtet sie das Projektvorhaben, spricht über den aktuellen Projektstand und verrät uns ihre Highlights im bisherigen Projektverlauf.
Joline, worum geht es im Teilprojekt Maschinenbau? Wie genau sehen euer Vorhaben und die Zielsetzung aus?
Unser Teilprojekt ist wie alle anderen Teilprojekte bei KI:edu.nrw ein Sondierungsprojekt. Dabei fokussieren wir uns auf drei zentrale Fragestellungen:
- Können wir für den Studiengang Maschinenbau Indikatorkurse finden?
- Können wir die Studienperformance vorhersagen?
- Können wir typische Studienverläufe identifizieren?
Zur ersten Frage: Indikatorkurse sind in diesem Fall Kurse, die besonders schwer sind oder eine besondere Hürde für Studierende darstellen. Sie stellen also in irgendeiner Weise Ansatzpunkte dar, an denen man mit Beratung oder einem Unterstützungsangebot ansetzen kann. Es können natürlich auch Indikatorkurse im umgekehrten Sinne sein, nämlich wenn sie keine Hürde, sondern ein Indikator dafür sind, dass die Studierende das Studium besonders gut abschließen. Also, mit Blick auf die Studienperformance, ein Indikator in jederlei Hinsicht. Uns interessiert hier besonders, ob wir anhand der uns zur Verfügung stehenden Daten solche Kurse identifizieren können.
Geht es bei der ersten Frage schon gut voran, sind wir bei der zweiten noch sehr weit von der Praxis entfernt. Hier schauen wir uns erst einmal an, ob es mit unserem Datensatz überhaupt möglich ist, Aussagen zur Studienperformance zu treffen: Sind die Daten repräsentativ? Wie valide sind die Modelle zur Notenvorhersage? Mit welchen Methoden können die besten Modelle zur Vorhersage der Studienperformance gebaut werden?
Unsere dritte Fragestellung zielt in eine ähnliche Richtung wie die Frage nach den Indikatorkursen: Vielleicht gibt es ja auch typische Studienverläufe, also z. B. Fächerkombinationen oder zeitliche Abläufe, die typisch für einen bestimmten Outcome sind, bspw. typisch für einen Studienabbruch oder für eine besonders gute Note in Fach x.
Grundsätzlich möchten wir mit unserem Projektvorhaben im Rahmen von KI:edu.nrw die Lehre an der RUB verbessern.
Wer ist eure Zielgruppe?
Grundsätzlich möchten wir mit unserem Projektvorhaben im Rahmen von KI:edu.nrw die Lehre an der RUB verbessern. Da kann man natürlich an Lehrenden-, an Studierenden- oder an der organisatorischen Seite ansetzen. Wir haben uns aber für die Studienberater:innen und Studiengangsdesigner:innen als unsere primäre Adressatengruppe entschieden.
Wie sieht der aktuelle Projektstand aus? Kannst du einen Einblick in deine konkreten Aufgaben geben?
Ganz aktuell bearbeite ich zusammen mit meiner Hilfskraft die Indikatorkursfrage und arbeite mich in unseren Datensatz ein. Derzeit steht also statistische Analyse auf meiner To-Do-Liste. Hier arbeite ich mit MatLab, eine Software, die vor allem für numerische Berechnungen sowie Datenerfassung, Datenanalyse und -auswertung eingesetzt werden kann. Vorteil bei dieser Software ist, dass eine umfangreiche Machine Learning-Tool-Box zur Verfügung steht. Nach der Statistik kann ich mit MatLab also direkt Machine Learning betreiben. Diese Methode ist z. B. bei der Vorhersage der Studienperformance hilfreich.
Meine Hilfskraft beschäftigt sich momentan mit Machine Learning-Methoden: In unserem Projekt möchten wir sog. Decision Trees verwenden. Das ist im Learning Analytics-Kontext ein oft genutzter Machine Learning-Algorithmus, der sehr gut interpretierbar ist. Im Gegensatz zu Blackbox-KIs – die einzelnen Schritte des datenbasierten Lernvorgangs sind nicht nachvollziehbar – sind Decision Trees Whitebox-KIs. Auch hier findet eine datenbasierte Modellbildung statt, allerdings sind die einzelnen Schritte des Algorithmus nachvollziehbar und es lassen sich z. B. Klassifizierungsmerkmale genau identifizieren.
Machine Learning – was ist das?
Machine Learning oder maschinelles Lernen ist eine Datenanalysetechnik, mit der Computer aus Erfahrung lernen. Nach Beendigung dieser Lernphase können sie die Daten verallgemeinern und so Wissen aufbauen. Häufig wird maschinelles Lernen synonym zum Ausdruck „Künstliche Intelligenz (KI)“ verwendet. Um autonom aus Daten und Informationen zu lernen, nutzen diese System Computeralgorithmen. Ein wichtiges Charakteristikum ist, dass die Computer nicht explizit für die Lösung der Aufgaben programmiert sind, sondern die eingesetzten Algorithmen können selbstständig lernen und sich an die Aufgabe anpassen. Mit wachsender Anzahl von Stichproben, die zum Lernen zur Verfügung stehen, steigern die Algorithmen ihre Leistung adaptiv.
Weiterführende Literatur:
Mitchell, Tom M. (2006): The Discipline of Machine Learning. Pittsburgh: CarnegieMellon, S. 1
Woher stammen die Datensätze, die ihr euch gerade anschaut?
Unsere Daten stammen aus FlexNow. Das ist ein Prüfungsverwaltungssystem, welches an der RUB u. a. vom Studiengang Maschinenbau genutzt wird.
Wie ging es nach der Datenbeschaffung weiter?
Nach der Datenbeschaffung musste ich mich erstmal mit den Daten vertraut machen: Was sind das für Daten? Was kann ich mit den Daten machen? Müssen sie noch vor- oder aufbereitet werden? Unser Datensatz umfasst z. B. anonymisierte Informationen zu 3.000 Studierenden, die alle im Zeitraum von 2013 bis jetzt Maschinenbau im Bachelor in der Prüfungsordnung von 2013 studieren – eine riesige Kohorte also. Die Daten, die ich aus FlexNow erhalten habe, sind Performancedaten. Dazu gehören u. a. Abschlussnoten sowie Noten von Teilprüfungen, das Fachsemester, in dem die Prüfung absolviert wurde, und die Anzahl der Prüfungsversuche. Mit den Daten lassen sich z. B. Studienverläufe visualisieren.
Welche Herausforderungen sind dir im Projektverlauf begegnet? Gibt es etwas, was dir vorher vielleicht gar nicht so bewusst war?
Die größten Herausforderungen, die ich vorher nicht so wahrgenommen habe, waren eigentlich die Datenakquise und der Datenschutz. Wenn man sich mit dem System an der RUB nicht auskennt und nicht mit den technischen Schnittstellen vertraut ist, ist es extrem schwierig herauszufinden, wo welche Daten zu finden sind und welche Daten überhaupt in welchem Kontext zugänglich sind. Mittlerweile ist mir klar, dass das ein langer Prozess ist.
An der RUB befindet sich die Datenverarbeitung von Studierendendaten im Rahmen von Learning Analytics noch in den Kinderschuhen. Es gibt demnach keine etablierten Workflows, sondern man macht sich seinen ersten eigenen Trampelpfad. Das ist super interessant, aber auch sehr zeitaufwendig, da man viele Gespräche führen und sich in komplexe Themen einarbeiten muss. Ein Thema ist bspw. der Datenschutz. Hier musste ich erst einmal verstehen, was geregelt sein muss, damit eine Datenanalyse in solch einem Sondierungsprojekt datenschutzkonform möglich ist. Bei mir ging es ganz speziell um die Anonymisierung der Daten. Es ist nämlich ein Trugschluss zu denken, dass der Datensatz anonymisiert ist, sobald die Matrikelnummer entfernt wird. Das ist nicht so, denn es gibt viele Informationen und Kombinationen dieser Informationen, mit denen Studierende identifiziert werden können – und das möchten wir auf keinen Fall! Genau dafür gibt es das Datenschutzrecht.
Daten werden nicht einfach herausgegeben, sondern ein Datentransfer findet erst auf Basis eines sicheren Datenschutzkonzeptes statt.
Im Projekt KI:edu.nrw gibt es ein eigenes Teilprojekt, das sich mit datenschutzrechtlichen Fragestellungen beschäftigt. Hier habt ihr wahrscheinlich eng zusammengearbeitet, oder?
Genau, in der Phase der Entwicklung des Datenschutzkonzeptes hatte ich viel Kontakt mit Christopher Lentzsch aus dem Datenschutz-Team der RUB. Ohne seine Hilfe wäre ein Vorankommen gar nicht möglich gewesen, da die Datenschutzbeauftragten die Datenschutzkonzepte absegnen müssen. Was ich in diesem Zusammenhang auch gut finde: Die beiden technischen Partner IT.Services und FlexNow haben jeweils nach einem Datenschutzkonzept gefragt. Man merkt also: Daten werden nicht einfach herausgegeben, sondern ein Datentransfer findet erst auf Basis eines sicheren Datenschutzkonzeptes statt.
Arbeitest du sonst noch mit anderen KI:edu.nrw-Teilprojekten zusammen?
Am Anfang habe ich mich sehr intensiv mit Frederik Baucks vom Teilprojekt Neuroinformatik ausgetauscht. Frederik beschäftigt sich mit Educational Data Mining und Learning Analytics und durch den Austausch konnte ich mich gut in diesem Feld orientieren. Außerdem haben wir eine gemeinsame Schnittstelle, da wir beide Performancedaten analysieren.
Habt ihr Feedbacks auf euer Vorhaben bekommen?
Grundsätzlich merken wir, dass Interesse an unserem Vorhaben da ist. Ist man z. B. in der Lehre involviert, können die globalen Zahlen interessant sein, um sich im Universitätskosmos zu verorten. Die Studienfachberatung und Studienberatung können sich zudem vorstellen, dass es Datenauswertungen geben könnte, die für die Beratung oder Studienverlaufsplanung hilfreich sein können. Es gibt aber natürlich auch Vorbehalte. So haben einige Beratende die Sorge, dass die Beratung ausschließlich auf eine Datenauswertung reduziert werden könnte, aber das ist explizit nicht unser Ziel. Die Datenauswertungen sollen ein Unterstützungsangebot, quasi ein Add-On, sein.
Wenn du auf dein Projekt zurückblickst: Gab es ein besonderes Highlight?
Highlights sind für mich die Präsenztreffen – sowohl mit der großen Projektgruppe als auch in kleineren Gruppen. Hier findet immer ein guter Austausch statt und es wird ein Mehrwert generiert, von dem ich vorher gar nicht wusste, dass er existiert. In Präsenz kommt man dann doch nochmal anders ins Gespräch als online, man lernt neue Perspektiven kennen, die vielleicht auch für das eigene Teilprojekt relevant sein können.
Ein Blick in die Zukunft: Was sind die nächsten Schritte?
Gespräche mit der Studienfachberatung gehören zu den nächsten Schritten, um zu schauen, welche Aspekte unseres Vorhabens für die Beratung hilfreich sein könnten. Außerdem möchten wir als nächstes sondieren, welche Machine Learning-Algorithmen besonders gut funktionieren könnten.
Ein langfristiges Ziel von KI:edu.nrw ist es z. B., eine bessere Ausgangslange für Studierende zu schaffen und das Studium studierbarer zu machen.
Die letzte Frage: Was erhofft ihr euch am Ende des Projektes? Was wäre ein ideales Ergebnis?
Ideal wäre natürlich, wenn wir innerhalb des Maschinenbaustudiums Zeitpunkte oder Muster finden, die für spezielle Outcomes des Studiums typisch sind. Intuitiv und aus der Erfahrung heraus gibt es diese Punkte. Man weiß z. B., dass Durchfallquoten in einigen Fächern höher sind als in anderen. Als Studiengangsdesigner:in oder als Mitarbeiter:in im Prüfungsamt hat man ein Gefühl dafür, wo Hürden im Studium lauern könnten. Mithilfe von Datenauswertungen oder bestimmten (Machine Learning-)Anwendungen könnten diese Gefühle entweder untermauert oder widerlegt werden. Ein ideales Ergebnis wäre also, eine Datenbasis zu schaffen, mit der bestimmte Aussagen, die schon länger im Maschinenbau kursieren, unterstrichen oder verworfen werden können.
Wenn man das innerhalb unseres Projektes schafft, kann man im Anschluss überlegen, was man mit diesen Erkenntnissen macht: Ein langfristiges Ziel von KI:edu.nrw ist es z. B., eine bessere Ausgangslange für Studierende zu schaffen und das Studium studierbarer zu machen.