Big Data
Große Datenmengen bieten enormes Potential zur Extraktion wertvoller Informationen, liefern aber auch neue Herausforderungen bei der Speicherung, Verarbeitung und Analyse. Besonders große und wenig strukturierte Datenmengen, wie sie etwa als Zeitreihen von Sensoren aber auch bei vielen digitalisierten Prozessen anfallen, können in spezialisierten Big Data Datenbanken erfasst und gespeichert werden. Wir bieten Tools und Unterstüzung bei der plattformunabhängigen Verwaltung sowie Analyse solcher Daten.
Unsere Werkzeuge:
- Speicherung großer Datenmengen in Hadoop Clustern und skalierbaren Cloud Datenbanken
- Datenpipelines mit Apache Spark, Google Big Query oder ähnlichen Technologien
- Technologien für Training und Anwendung unserer Modelle bei Datenmengen, die größer als der Arbeitsspeicher eines Rechners sind (out-of-core processing)
Anwendungsbeispiele
- Langfristige Erfassung von Zeitreihen von Sensordaten von Anlagen wie z.B. Windparks, für das Training von Modellen für Predictive Maintenance oder Ertragsprognosen
- Aggregation von Daten verschiedener Herkunft in Data Warehouses
- Marketing, Vertrieb, CRM auf Basis von Kundendaten
- Data Mining im Internet (z.B. Presse, soziale Netzwerke, Wettbewerbseiten)
- Supply Chain Management
Referenzen
Von unseren Teammitgliedern durchgeführte Projekte:
- Konzeption und Umsetzung einer hochparallelen Pipeline zur täglichen Verarbeitung von 200 Millionen Web-Cookies mit BigQuery und Apache Spark, Deployment bei einem Cloud Anbieter
- Verarbeitung von 1 Million Produktdaten für Klassifikation und Anomalieerkennung mit Apache Spark
- Analyse und Training von Machine Learning Modellen mit Sensordaten von Verbrennungsmotoren, die mit 2000 Messkanälen und bis zu 1000 Hz aufgezeichnet wurden
- Entwicklung einer parallelisierten Pipeline für die Auswertung von Fahrzeug-GPS-Daten für Automotive Services
- Verarbeitungskette für Speicherung, Zusammenführung und Analyse mehrerer Terabytes an Daten aus der Fertigung von Fahrzeugkomponenten in der Automobilindustrie