Daten-journal

Big Data Analysetools 2019

IBAW

Werkzeuge zur Datenanalyse

Von Marina Schulz | 04.06.2019
Analysetools rund um Big Data: Um Daten zu analysieren, gibt es eine Vielzahl von Möglichkeiten - über kostenlose Tools, integrierte Dienstleistungen oder spezialisierte Werkzeuge. Erhalten Sie eine Übersicht über einige der populärsten Big Data Analysetools aus dem Jahr 2019 sowie der Empfehlung eines IBAW-Dozierenden.

Die Daten, die ein Unternehmen besitzt, sind von unschätzbarem Wert: Durch zielgruppenorientierte Werbung werden neue Kunden gewonnen, Prozesse werden effizienter gestaltet oder vollständig digitalisiert und Entscheidungen werden basierend auf fundierten Erkenntnissen gefällt. Doch Daten sammeln alleine führt zu keinem Erfolg. Die Daten müssen korrekt analysiert werden, damit sie zu Gold werden. Da ist der Einsatz von geeigneten Werkzeugen gefordert. Folgende fünf Analysetools gehören im Jahr 2019 zu den populärsten:

1. Freie Programmiersprache «R»

Ein Werkzeug im Bereich der Datenanalyse ist die freie Programmiersprache R. R entstand in den 90er-Jahren und wurde ursprünglich vor allem als Werkzeug für statistische Modellierung im akademischen Umfeld eingesetzt. Durch eine stetig wachsende Menge von Erweiterungspaketen – aktuell sind es über 14’000 – entwickelte sich R zu einer vielseitig einsetzbaren Allzweckwaffe für Datenanalysen aller Art, die auch in der Privatwirtschaft vielerorts eingesetzt wird.
Mit R lassen sich Daten aus zahlreichen Dateiformaten (csv, Excel, JSON, XML, SPSS, SAS usw.) und Datenbanken (beispielsweise SQLite, PostgreSQL, Oracle, MySQL, MongoDB) einlesen. Die Sprache wird eingesetzt für statistische Modellierung, Visualisierung, Graphenanalysen, Geoanalysen, Text Mining, Natural Language Processing, Zeitreihenanalysen, statistische Tests und Machine Learning, um nur einige Beispiele zu nennen. Darüber hinaus können mit R aber auch Berichte, Präsentationsfolien, Dashboards und interaktive Webseiten erstellt werden, die eine wirkungsvolle Kommunikation der Analyseresultate ermöglichen.

R bietet folgende Vor- und Nachteile:

  • großer Funktionsumfang
  • R ist kostenlos und der Quellcode ist frei zugänglich
  • aus R lassen sich viele andere Softwarepakete einfach nutzen. Es gibt Anbindungen an zahlreiche Datenbanken, aber beispielsweise auch Apache Spark, git, Google Maps und plotly lassen sich direkt aus R heraus einsetzen
  • neue statistische Methoden und Schnittstellen zu neuer Software stehen oft sehr schnell zur Verfügung
  • R-Skripte lassen sich einfach automatisiert ausführen
  • umfangreiche Manuals, Tutorials etc. stehen frei zur Verfügung. Es gibt eine grosse Online-Community, die bei Schwierigkeiten gerne weiterhilft. Bei Bedarf kann man Support auch bei Drittanbietern einkaufen.
  • sehr leistungsfähige und flexible Skriptsprache (u.a. Unterstützung von objektorientierter Programmierung, etc.)
  • plattformunabhängig
  • mit RStudio steht eine ausgereifte, benutzerfreundliche und leistungsfähige Entwicklungsumgebung zur Verfügung, die speziell auf die Bedürfnisse von Data Scientists abgestimmt ist. Zu den Features gehören unter anderem die direkte Anbindung an git, Unterstützung für das Erstellen von eigenen R-Packages, Debugging, Profiling, Unittests, ein Add-In-System und die Möglichkeit, Prozesse im Hintergrund zu starten.
  • dank der Plattformen com und shinyapps.io lassen sich einfach und kostenlos Reports, Folien, interaktive Webseiten und Dashboards, die mit R erzeugt wurden, online publizieren
  • die Erarbeitung der Syntax entpuppt sich als eher mühsam und kompliziert
  • R arbeitet mit Daten im Memory. Für sehr grosse Datenmengen, die nicht mehr im Memory gespeichert werden können, muss man auf andere Tools oder eine kommerzielle R-Implementierung wie Microsoft R ausweichen.

«R» ist Schwerpunkt im Studiengang Data Scientist NDK HF

Stefan Lanz, IBAW-Dozent im Studiengang Data Scientist NDK HF und erfahrener Data Scientist in einem Schweizer Industrieunternehmen, arbeitet bevorzugt mit der Programmiersprache R. Sie ist kostenlos verfügbar, hat eine gute Community und bietet ein grosses Spektrum an Möglichkeiten und Methoden. Die Einarbeitung ist zwar etwas aufwändig, dafür können äusserst gute Resultate erzielt werden. Die Einführung in die Arbeit mit R ist einer der Schwerpunkte des Studiengangs «Data Scientist NDK HF». Die Studierenden erarbeiten die Grundlagen der Sprache und lernen das Tidyverse kennen, ein umfangreiches Ökosystem von Erweiterungspaketen für Data Scientists. Sie erstellen Visualisierungen mit ggplot2, analysieren Datentabellen mit dplyr und verarbeiten Textdaten mit stringr. Die nötigen statistischen Grundkenntnisse werden vermittelt und genutzt, um mit R lineare Modelle zu erstellen und statistische Tests durchzuführen. Die Studierenden führen eine Datenanalyse mit eigenen Daten aus und präsentieren ihre Resultate in einem Bericht, den sie mit R Markdown erstellen. Ausgestattet mit diesen Fähigkeiten sind die Data-Scientist-NDK-HF-Studierenden bereit für eine umfangreiche Einführung in verschiedene Klassifikations- und Machine-Learning-Methoden im letzten Modul des Studiengangs.

Weiter gehören folgende Tools zu den populärsten Analysetools aktuell:

2. Programmiersprache «Python»

Wie die Programmiersprache R entstand Python in den 90er Jahren mit dem Ziel, eine einfache und übersichtliche Programmiersprache zur Verfügung zu stellen. Im Vergleich mit anderen Sprachen können Python-Skripte oft deutlich knapper formuliert werden. Die Standardbibliotheken von Python bieten bereits einen breiten Umfang von Funktionalitäten. Darüber hinaus bietet der Python Package Index tausende von zusätzlichen Bibliotheken mit weiteren Funktionen. Dadurch ist es möglich, Python-Code in anderen Sprachen einzusetzen oder damit Plug-Ins für unterstützte Programme zu schreiben.

Die Programmiersprache eignet sich sowohl für die Erstellung von Skripten als auch für schnelle Anwendungsentwicklungen (Rapid Application Development).

Das sind die Stärken und Schwächen von Python:

  • vollständige und leistungsfähige interpretierte Programmiersprache
  • bietet sowohl objektorientierte als auch funktionale Konzepte an
  • ausgereifte und stabile Programmiertools (z.B. Unittests, Debugging)
  • auch im Bereich Machine- und Deep-Learning äusserst gut nutzbar
  • gut automatisierbar (z.B. über Skripte oder Webserver)
  • einfache Möglichkeit, angemessene und ansehnliche Visualisierungen von Daten zu erstellen
  • Python wird laufend sowohl im kommerziellen als auch im wirtschaftlichen Sektor benutzt – dadurch grosse Zukunftsmöglichkeiten mit sehr gutem Support – auch aufgrund einer sehr professionellen Entwicklungsumgebung
  • nicht alle statistischen Verfahren sind verfügbar
  • eine komplette Programmiersprache muss angeeignet werden
  • mitunter durch die hohe Beliebtheit ist eine grosse Sammlung von Tutorials und Schulungen verfügbar
  • eine für Data Science zugeschnittene Entwicklungsumgebung auf demselben Niveau wie z.B. RStudio existiert für Python (noch) nicht

3. Software-Suite «SAS» zur Datenanalyse

SAS ist eine Software, welche spezifisch für die Anforderungen der Datenanalyse entwickelt wurde – hauptsächlich für die Auswertung von geschäftlichen Daten (Business Intelligence) sowie für den Gebrauch in der Statistik.

Die Software wurde bereits in den 1970er Jahren entwickelt und kann lediglich mitsamt einer jährlichen Lizenz benutzt werden. SAS beinhaltet eine Skript-Sprache, eine integrierte Datenbank und ein eigenes Konzept, um unterschiedliche Datenformate auswerten zu können. Die Software wird heute insbesondere für die Aufbereitung und Auswertung von Unternehmensdaten verwendet, um damit Daten zu verarbeiten und diese anschliessend gewinnbringend zu nutzen.

Wann SAS im Bereich der Datenanalyse geeignet ist und wann nicht:

  • es existiert eine Vielzahl von verschiedenen Modulen und Schnittstellen – jedoch kostenpflichtig
  • SAS beinhaltet eine eigene Business Intelligence Software
  • insbesondere geeignet für den Umgang mit grossen Datensätzen
  • neue statistische Verfahren können schnell integriert werden
  • für Lizenzkosten ab rund CHF 7’500.—/Jahr erhält man eine mächtige, auf grosse Datensätze spezialisierte und professionelle Software mit verschiedenen, teils komplizierten Programmiersprachen
  • die Einarbeitung ist aufwändig

4. Statistik Software «SPSS»

Die modular aufgebaute Software SPSS entstand Ende der 1960er Jahren und ist seit 2009 eine Marke der IBM. Ursprünglich wurden statistischen Daten auf Lochkarten gespeichert und konnten anschliessend ausgewertet werden. In den frühen 1980er Jahren entstand die erste PC-Version von SPSS. In der Zwischenzeit beinhaltet die Software ein grundlegendes Datenmanagement sowie eine umfassende grafische Möglichkeit, um Datenanalysen und statistische Verfahren durchzuführen und zu präsentieren. SPSS wird häufig, aber nicht nur, im sozialwissenschaftlichen Bereich sowie in der Marktforschung eingesetzt.

Vor- und Nachteile der Software SPSS:

  • leicht erlernbar
  • modular erweiterbar (Preise ab ca. CHF 800.—)
  • spezifische Module insbesondere für Direct-Marketing
  • überzeugt durch eine grafische Oberfläche in Kombination mit der proprietären 4GL-Syntax
  • umfangreiche Literatur vorhanden – insbesondere zu Einstiegsthemen
  • Versionen für Windows und MacOS
  • Bedienung nicht immer intuitiv
  • nur bedingt automatisierbar und in anderen Lösungen schwer zu integrieren
  • die Lizenzkosten (ab CHF 1’200.—) sind kostengünstiger als bei SAS, jedoch ist der Funktionsumfang geringer
  • Mit GNU PSPP existiert eine freie Alternative, die gratis heruntergeladen werden kann, aber noch nicht ganz den vollen Funktionsumfang von SPSS aufweist.

5. Datenanalyse mit Software «STATA»

STATA ist bekannt dafür, eine grosse Anzahl von statistischen Methoden zur Datenauswertung zur Verfügung zu stellen. Grafiken sind können in druckreifer Qualität erstellt werden und die Software kann für komplexe Datensammlungen optimal benutzt werden. Die Software ist seit 1985 auf dem Markt und mittlerweile mit Version 15.1 für die Nutzer verfügbar. Den Anwendern steht eine Programmiersprache zur Verfügung und eigene Programme können über das Internet für andere Nutzer bereitgestellt werden.. Die Software kann sowohl über ein Menü als auch über die Kommandozeile bedient werden.

Was die Statistik-Software STATA kann und wo sie an ihre Grenzen kommt:

  • großer Funktionsumfang – nahezu jede etablierte statistische Methode findet sich auch in STATA wieder
  • einfacher Einstieg durch angenehme Benutzeroberfläche
  • automatisierbar und kompatibel mit älteren Versionen
  • guter Support durch die STATA-Community
  • umfangreiche Literatur vorhanden
  • lauffähig unter Windows, Mac, Unix
  • im Vergleich zur kommerziellen Konkurrenz vergleichsweise preiswert (ab CHF 730.—)
  • träge bei der Einarbeitung neuer Methoden und umständlich in der Integration in andere Software
  • es kann jeweils nur auf einen Datensatz zugegriffen werden, was die Produktivität eher vermindert

 

Quelle:https://www.inwt-statistics.de/blog-artikel-lesen/Statistik-Software-R_Python_SAS_SPSS_STATA_im_Vergleich.html

Autor
Angela Meier
Angela Meier