Entwicklung eines Industrial-LLMs zur Generierung von Wissensgraphen (GenAI zur intelligenten Wissensvernetzung)

Projektübersicht

Anzahl Studierende	1-2
Art	Studienprojekt (interdisziplinär, fachbereichsübergreifend; enge Anbindung an geförderte Projekte)
Projektverantwortung	Prof. Dr. M. Kohlhase & M. Niederhaus
Projektkontext	Das Projekt findet in enger Zusammenarbeit mit dem Center for Applied Data Science (CfADS) Gütersloh und dem Institute for Data Science Solutions (IDaS) statt.

Abstrakt

Deutsche produzierende KMU stehen vor großen Herausforderungen, insbesondere durch den zunehmenden Fachkräftemangel und den drohenden Wissensverlust. Der demografische Wandel und die steigende Nachfrage nach qualifizierten Arbeitskräften führen dazu, dass es immer schwieriger wird, offene Stellen zu besetzen und neues Personal effizient einzuarbeiten. Gleichzeitig droht wertvolles Expertenwissen verloren zu gehen, da erfahrene Mitarbeiter in den Ruhestand gehen oder das Unternehmen verlassen. Dieser Verlust von Know-how beeinträchtigt die Innovationsfähigkeit und Effizienz der Unternehmen erheblich. Um wettbewerbsfähig zu bleiben, benötigen KMU daher KI-Lösungen, die Wissen nachhaltig sichern, die Einarbeitung neuer Mitarbeiter beschleunigen und weniger erfahrene Fachkräfte in die Lage versetzen, komplexe Aufgaben zu bewältigen.

Kurzbeschreibung

Produzierenden Unternehmen müssen im Bereich der Wartung und Instandhaltung in Bezug auf Datendokumentation und Wissensvermittlung massive, digitale und infrastrukturelle Herausforderungen bewältigen. Ein zentrales Problem ist der drohende Wissensverlust aufgrund des Fachkräftemangels. Gleichzeitig wächst die Menge an instandhaltungsrelevantem Wissen und Daten exponentiell. Diese Informationen sind oft verteilt - von Wartungsprotokollen und Bedienungsanleitungen bis hin zu Live-Daten aus bspw. IoT-Geräten. Die Wissensfragmentierung erschwert es Unternehmen, schnell und gezielt auf relevante Informationen zuzugreifen, was zu ineffizienten Wartungsprozessen und längeren Ausfallzeiten führt. Ein weiteres Problem ist die zunehmende Datenflut, die von IoT-Sensoren und Produktionssystemen erzeugt wird. Diese Daten sind unstrukturiert und in ihrer Form oft schwer nutzbar. Unternehmen benötigen eine Lösung, die diese Informationen aufbereitet, analysiert und den Nutzer*innen textuell sowie grafisch zur Verfügung stellt, um Ausfälle zu vermeiden und Wartungsmaßnahmen zu optimieren. Hinzu kommt der wachsende Druck, Stillstandzeiten zu reduzieren, die Produktivität zu steigern und gleichzeitig die Qualität und Sicherheit der Instandhaltung zu gewährleisten. Ungeplante Ausfälle können erhebliche Kosten verursachen und die Wettbewerbsfähigkeit beeinträchtigen. Außerdem ist die Skalierung von Expertenwissen in der Produktion, aufgrund von Schichtarbeit und der damit verbundene Einsatz von Zeitarbeitnehmer*innen mit unterschiedlichem Ausbildungsgrad, essenziell ist. Diese müssen schnell eingearbeitet werden, um auch komplexere Aufgaben übernehmen zu können. Durch die Skalierung des Expertenwissens lässt sich die Einarbeitungszeit verkürzen. Das Wissen im Unternehmensnetzwerk zu verteilen ist für global agierende Unternehmen eine weitere Herausforderung, da Mitarbeiter*innen häufig wenig Möglichkeit haben, ihr Wissen international und mehrsprachig weiterzugeben. Das Expertenwissen nachhaltig festzuhalten und zu dokumentieren, stellt ein zusätzliches Problem dar. Der gezielte Wissenstransfer von Expertenwissen erfordert eine hohe soziale und didaktische Kompetenz und muss so ausgestaltet sein, dass Expert*innen in die Lage versetzt werden, ihr Wissen zu teilen ohne sich gleich im Unternehmen ersetzt zu fühlen.

Aufgabenstellung

Das Teilvorhaben „Entwicklung eines Industrial-LLMs zur Generierung von Wissensgraphen“ verfolgt das Ziel, ein Sprachmodell speziell für industrielle Anwendungen zu optimieren. Das Modell soll zur Vervollständigung fehlender Kanten sowie fehlender Knoten in Wissensgraphen eingesetzt werden. Hierfür stehen von der IoT-Factory in Gütersloh über 100 deutsch- und englischsprachige Dokumente zur Verfügung, die unter anderem für das Training des LLM genutzt werden. Im Verlauf des Projekts wird die Datenbasis durch zusätzliche Dokumente neuer Projektpartner erweitert, die in verschiedenen Sprachen (z. B. in indischer Sprache) vorliegen. Durch die Kooperation mit einem Projektpartner besteht die Möglichkeit, das Modell auf einen Anwendungsfall zu generalisieren, der sowohl von deutschen als auch indischen Nutzern verwendet werden kann.

Bezug zum Thema Data Science

Das Projekt hat in jeder Hinsicht einen sehr engen Bezug zum Thema Data Science: Von der Daten-sammlung über die Datenintegration bis hin zur Datenanalyse mit aktuellen Verfahren aus dem Bereichen Active Learning, Large Language Models und Knowledge Graphs.

Verfügbare Ressourcen

Der Data-Analytics-Cluster des CfADS steht über die Projektlaufzeit zur Verfügung.
Es existiert ein Wissensgraph einer IoT-Factory basierend auf Dokumenten und IoT-Daten
Aktive Unterstützung beim Erstellen von wissenschaftlichen Arbeiten, die auf (internationalen) Konferenzen präsentiert werden.
Die Betreuung durch das Team der Ansprechpartner ist über die Projektlaufzeit gewährleistet.

Projektplan

Erstes Semester: Ziel des ersten Semesters ist es, sich in die für das Projekt relevanten Themenbereiche einzuarbeiten und eine systematische Literaturrecherche durchzuführen. Die dabei identifizierten wissenschaftlichen Publikationen sollen anhand selbst definierter, relevanter Kriterien systematisch bewertet und eingeordnet werden. Diese Publikationen bilden die Grundlage für die weitere Arbeit in den folgenden Semestern. Die Prüfungsleistung besteht in der Erstellung eines Forschungsexposés in englischer Sprache sowie in der Präsentation im Rahmen eines Kolloquiums.

Zweites Semester: Ziel des zweiten Semesters ist die Datenaufbereitung sowie die Identifikation der Softwarekomponenten, die für den gesamten Workflow erforderlich sind. Es soll eine detaillierte Anforderungsanalyse durchgeführt werden, zudem wird die Datenbasis aufgebaut, bereinigt und gegebenenfalls annotiert. Darüber hinaus sollen Evaluationsmetriken entwickelt werden, um den Fortschritt des Modells über die Projektlaufzeit hinweg messbar zu machen und verschiedene Benchmarks durchführen zu können. Bis zum Ende des Semesters soll ein erster funktionsfähiger Prototyp vorliegen, der ausführlich benchmarked und evaluiert werden kann. Die Prüfungsleistung besteht im Verfassen eines Short Papers, das idealerweise auf einer (internationalen) Konferenz eingereicht und präsentiert wird.

Drittes Semester: Im dritten Semester soll der Prototyp des Modells weiterentwickelt werden, indem zusätzliche Dokumente eingebunden werden, die von neuen Projektpartnern akquiriert wurden. Diese sollen in den weiteren Trainingsprozess einfließen. Zudem wird das Modell um Multilingualität erweitert, sodass es sprachübergreifend einsetzbar ist. Gegebenenfalls müssen zusätzliche domänenspezifische Daten für das Finetuning beschafft werden. Anschließend wird das Modell erneut anhand der im zweiten Semester definierten Evaluationskriterien benchmarked. Ziel ist es, den Modellprototyp in einer verbesserten Version 2 vorliegen zu haben. Die Prüfungsleistung besteht im Verfassen eines Full Papers, das auf dem Short Paper des zweiten Semesters aufbaut und idealerweise auf einer (internationalen) Konferenz präsentiert wird.

Viertes Semester: Im vierten Semester soll das Industrial-LLM finalisiert werden. Der Fokus liegt dabei auf der Anwendung in konkreten Use-Cases, insbesondere der Identifikation fehlender Kanten und Knoten in Wissensgraphen. Zudem soll der Transfer auf den finalen Anwendungsfall erfolgen, bei dem die Multilingualität in Zusammenarbeit mit dem Projektpartner zum Einsatz kommt. Das Modell wird hinsichtlich Performance und Robustheit optimiert. Alle durchgeführten Arbeiten sollen umfassend dokumentiert werden, um eine Nachnutzung und Weiterentwicklung zu ermöglichen. Im Rahmen der Masterarbeit sollen die entwickelten Algorithmen in einer realen Umgebung erprobt werden. Dies bedeutet, die geschützte Entwicklungsumgebung zu verlassen und die Funktionalität unter realen Bedingungen zu testen. Dabei können unvorhersehbare Herausforderungen auftreten, die jedoch für den praktischen Einsatz besonders relevant sind. Das konkrete Thema der Masterarbeit entwickelt sich im Verlauf der ersten drei Semester und wird in Absprache mit den betreuenden Personen festgelegt.

Eignungskriterien

Zwingend:

Bachelorabschluss in einer einschlägigen Fachrichtung (Informatik, Kognitionswissenschaft, Jura verbunden mit umfassenden Informatikkenntnissen, o.ä.)
Umfassende Programmierkenntnisse in mindestens einer objektorientierten Programmiersprache
Fließendes Englisch in Wort und Schrift

Optional:

Programmierkenntnisse in Python
Grundkenntnisse in NoSQL-Datenbanken
Containerisierung

Erwerbbare Kompetenzen

Der/die Studierende ist nach Abschluss des Projekts in der Lage,

LLM-Algorithmen in Tiefe verstanden zu haben,
Wissensgraphen automatisiert aufbauen und verwalten zu können,
Algorithmische Komponenten in Form von Services in existierende Workflows zu integrieren,
die theoretischen Anforderungen von ML-Verfahren mit den Erfordernissen der Praxis in Einklang zu bringen,
textbasierte Dialogsysteme anzuwenden,
die eigenen Forschungsergebnisse vor einem Fachpublikum zu präsentieren
und wissenschaftliche Texte zu verfassen.