Seminare
Seminare

Generative KI Masterclass: Ein eigenes LLM bauen und trainieren

Seminar - GFU Cyrus AG

Diese Masterclass vermittelt ein tiefgehendes Verständnis darüber, wie LLMs aufgebaut, trainiert und optimiert werden. Die Teilnehmenden lernen, eigene Transformer-Modelle zu entwickeln, die richtigen Datensätze aufzubereiten, Tokenizer zu trainieren und den gesamten Trainingsprozess von LLMs nachzuvollziehen. Neben dem Training von Modellen wird auch Feintuning, Evaluierung und Optimierung behandelt. Nach dem Kurs sind die Teilnehmenden in der Lage, ein eigenes kleines LLM zu trainieren, es zu evaluieren und in Anwendungen zu integrieren. 
Termin Ort Preis*
firmenintern auf Anfrage auf Anfrage
*Alle Preise verstehen sich inkl. MwSt.

Detaillierte Informationen zum Seminar

Inhalte:

Tag 1: Deep Dive - Architektur & Daten


1. Eigene LLM-Architektur


  • Transformer intern (Self-Attention, Multi-Head, Position Embeddings)
  • GPT-Style Decoder vs. Encoder-Decoder (T5, BART)
  • 2. Datenauswahl & Aufbereitung
  • Öffentliche Datensätze (The Pile, Books3, OpenWebText2)
  • Copyright & Cleanup (Duplikate, Filters)
  • Geschlossene/unternehmensinterne Daten (Datenschutz)
  • 3. Tokenisierung
  • Byte Pair Encoding (BPE), SentencePiece, ttoken
  • Vocabulary-Größe, Trade-offs
  • 4. Hands-on:
  • Erstes Skript: Tokenizer-Training auf einem Mini-Korpus
  • Großer Korpus? Wie man ihn vorbereitet (Chunking, Sharding, etc.)


Tag 2: Implementierung & Training-Pipeline


  • 1. Implementierung eines Mini-Transformers
    • PyTorch oder TensorFlow: Layer (Attention, Feedforward), GPTBlock / DecoderLayer
    • Konfigurationsparameter (Hidden Dim, Heads, Depth)

  • 2. Training-Setup
    • GPU/TPU-Einrichtung (lokal vs. Cloud)
    • Batch Size, Lernrate, Optimizer (AdamW)
    • Mixed Precision (FP16/BF16)

  • 3. MLOps-Tools
    • MLflow, ClearML oder Weights & Biases zum Tracken von Experimenten

  • 4. Hands-on:
    • Starte ein Trainingsskript für einen kleinen Datensatz (z. B. 50-100 MB Text)
    • Protokolliere Training Loss, evaluiere gelegentliche Samples


Tag 3: Feintuning, Evaluierung & RAG


  • 1. Weiterführendes Training
    • Feintuning vs. Training-from-scratch
    • RLHF (Reinforcement Learning from Human Feedback) - theoretischer Überblick

  • 2. Evaluierung
    • Perplexity, Token-Accuracy
    • Generische Metriken: BLEU, ROUGE, etc.

  • 3. Retrieval-Augmented Generation
    • Eigene RAG-Pipeline auf selbst trainiertem Modell?
    • Einbinden einer Vektordatenbank (Chroma, FAISS)

  • 4. Hands-on:
    • Feinjustriere dein Modell auf einen speziellen Datensatz (z. B. interne Doku)
    • Baue eine Mini-RAG-Demo (prompt + fetch + generation)


Tag 4: Fortgeschrittene Optimierung & Multimodale Erweiterungen


  • 1. Fortgeschrittene Optimierung
    • Gradient Accumulation, ZeRO, LoRA (Low-Rank Adaptation)
    • Parameter-Effiziente Methoden (QLoRA, 4-Bit/8-Bit Training)
    • Modellkompression, Distillation

  • 2. Multimodale Szenarien
    • Text/Bild (CLIP-Ansätze, Vision Transformer-Encoder + GPT-Decoder)
    • Kurzer Abstecher: Diffusion Models integrieren (für Image Generation)

  • 3. Hands-on:
    • Probier LoRA-Fine-Tuning oder 4-Bit-Quantisierung, um GPU-Speicher zu sparen
    • Experimentiere mit kleiner Bild/Text-Integration (z. B. Bild-Captions)


Tag 5: Production-Ready & Abschlussprojekt


  • 1. Deployment & Skalierung
    • Serving-Frameworks (FastAPI, Triton Inference Server)
    • Monitoring & Logging
    • Parallel-LLM-Setups (Fallback, Ensembles)

  • 2. Sicherheit & Governance
    • Prompt Injection-Verhinderung, Content Filtering
    • Datenschutz und On-Prem-Lösungen

  • 3. Abschlussprojekt
    • Wähle: 
      • Eigener GPT-Klon (kleines Modell)
      • RAG-System mit selbst trainiertem Modell
      • Multimodaler Mini-Prototyp (Text + Bild)
      • Stelle Ergebnisse vor, diskutiere Performance und Limitierungen


  • 4. Ausblick
    • Größere Modelle (Llama, Bloom)
    • HPC-Anforderungen, verteiltes Training
    • Kommerzielle vs. Open-Source-Varianten

Zielgruppe:
Erfahrene Entwickler:innen, Data Scientists und Machine-Learning-Expert:innen, die tiefer in die Architektur und das Training großer Sprachmodelle eintauchen möchten. Der Fokus liegt auf Modellarchitektur, Datenauswahl, Tokenisierung, Training, Evaluierung und Optimierung.



Dieser Kurs richtet sich an erfahrene Entwickler:innen und Data Scientists, die selbst LLMs trainieren oder anpassen möchten. Voraussetzungen sind fundierte Kenntnisse in Python, Machine Learning (PyTorch/TensorFlow) sowie ein grundlegendes Verständnis von Deep Learning-Architekturen. Ideal für Forschende, ML-Ingenieur:innen oder KI Enthusiast:innen, die eigene Modelle entwickeln oder tiefgehendes Wissen über Sprachmodelle erlangen möchten.
Seminarkennung:
S5259
Nach unten
Nach oben
Wir setzen Analyse-Cookies ein, um Ihre Zufriedenheit bei der Nutzung unserer Webseite zu verbessern. Diese Cookies werden nicht automatisiert gesetzt. Wenn Sie mit dem Einsatz dieser Cookies einverstanden sind, klicken Sie bitte auf Akzeptieren. Weitere Informationen finden Sie hier.
Akzeptieren Nicht akzeptieren









Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha



Bei der Verarbeitung Ihrer personenbezogenen Daten im Zusammenhang mit der Kontaktfunktion beachten wir die gesetzlichen Bestimmungen. Unsere ausführlichen Datenschutzinformationen finden Sie hier. Bei der Kontakt-Funktion erhobene Daten werden nur an den jeweiligen Anbieter weitergeleitet und sind nötig, damit der Anbieter auf Ihr Anliegen reagieren kann.







Um Spam abzuwehren, geben Sie bitte die Buchstaben auf dem Bild in das Textfeld ein:

captcha