Aufgaben
- Aufbau einer Log-Ingestion- und Parsing-Pipeline für mehrgigabytegroße Archive (ZIP/XML/JSON/Windows-Event-Logs), um normalisierte Ereignisdaten zu erzeugen
- Ereigniskorrelation und Datenanreicherung (zeitliche Sortierung, korrelierte Events aus unterschiedlichen Quellen, unscharfer Abgleich mit einer Fehler-/FMEA-Wissensdatenbank)
- Entwicklung einer Embedding- und Hybrid-Retrieval-Pipeline (Azure OpenAI Embeddings + Keyword-Suche + Vektor-Suche) mit klar definierten Zielen für Latenz und Durchsatz
- Durchführung von Datenqualitätsprüfungen (Schema-Validierung, Encoding-Checks, Erkennung von Duplikaten) sowie Erstellung einer präzisen technischen Übergabedokumentation
Profil
- Erfahrung in Implementierung von ETL/ELT-Prozessen in Python zur Verarbeitung großer und heterogener Log-Datenmengen
- Kenntnisse Design von Schemas und Datenmodellen für normalisierte Events und Wissensbank-Dokumente (JSON/JSONL + SQL)
- Aufbau/Optimierung von Vektorindex-Sammlungen und Relevanzbewertungen (BM25/TF-IDF + Cosine Similarity)
- Performance-Optimierung (Batching, Caching) und Bereitstellung wartbaren Codes inkl. Tests und Git-Workflow
- Sehr gute Python-Kenntnisse (pandas/NumPy, File I/O, Regex/Textverarbeitung, Performance-Optimierung)
- Praktische Erfahrung mit SQL und Datenmodellierung
- Erfahrung im Parsing von JSON/XML/CSV und im Umgang mit verschiedenen Encodings
- Sichere Zusammenarbeit über Git (Pull Requests, Branching)
- Erfahrung mit Vektor-Datenbanken (z.B. ChromaDB) und/oder Embedding-Pipelines
- Erfahrung mit Azure OpenAI-Integration
- Grundkenntnisse in Information Retrieval
Benefits
- Spannendes Projekt in einem renommiertem Unternehmen mit Startup Charakter