Aufbau einer Log-Ingestion- und Parsing-Pipeline für mehrgigabytegroße Archive (ZIP/XML/JSON/Windows-Event-Logs), um normalisierte Ereignisdaten zu erzeugen
Ereigniskorrelation und Datenanreicherung (zeitliche Sortierung, korrelierte Events aus unterschiedlichen Quellen, unscharfer Abgleich mit einer Fehler-/FMEA-Wissensdatenbank)
Entwicklung einer Embedding- und Hybrid-Retrieval-Pipeline (Azure OpenAI Embeddings + Keyword-Suche + Vektor-Suche) mit klar definierten Zielen für Latenz und Durchsatz
Durchführung von Datenqualitätsprüfungen (Schema-Validierung, Encoding-Checks, Erkennung von Duplikaten) sowie Erstellung einer präzisen technischen Übergabedokumentation

Erfahrung in Implementierung von ETL/ELT-Prozessen in Python zur Verarbeitung großer und heterogener Log-Datenmengen
Kenntnisse Design von Schemas und Datenmodellen für normalisierte Events und Wissensbank-Dokumente (JSON/JSONL + SQL)
Aufbau/Optimierung von Vektorindex-Sammlungen und Relevanzbewertungen (BM25/TF-IDF + Cosine Similarity)
Performance-Optimierung (Batching, Caching) und Bereitstellung wartbaren Codes inkl. Tests und Git-Workflow
Sehr gute Python-Kenntnisse (pandas/NumPy, File I/O, Regex/Textverarbeitung, Performance-Optimierung)
Praktische Erfahrung mit SQL und Datenmodellierung
Erfahrung im Parsing von JSON/XML/CSV und im Umgang mit verschiedenen Encodings
Sichere Zusammenarbeit über Git (Pull Requests, Branching)
Erfahrung mit Vektor-Datenbanken (z.B. ChromaDB) und/oder Embedding-Pipelines
Erfahrung mit Azure OpenAI-Integration
Grundkenntnisse in Information Retrieval

Data Engineer - AI Diagnostic Platform (m/w/d)