Die Daten, die ein Unternehmen besitzt, sind von unschätzbarem Wert: Durch zielgruppenorientierte Werbung werden neue Kunden gewonnen, Prozesse werden effizienter gestaltet oder vollständig digitalisiert und Entscheidungen werden basierend auf fundierten Erkenntnissen gefällt. Doch Daten sammeln alleine führt zu keinem Erfolg. Die Daten müssen korrekt analysiert werden, damit sie zu Gold werden. Da ist der Einsatz von geeigneten Werkzeugen gefordert. Folgende fünf Analysetools gehören im Jahr 2019 zu den populärsten:
Ein Werkzeug im Bereich der Datenanalyse ist die freie Programmiersprache R. R entstand in den 90er-Jahren und wurde ursprünglich vor allem als Werkzeug für statistische Modellierung im akademischen Umfeld eingesetzt. Durch eine stetig wachsende Menge von Erweiterungspaketen – aktuell sind es über 14’000 – entwickelte sich R zu einer vielseitig einsetzbaren Allzweckwaffe für Datenanalysen aller Art, die auch in der Privatwirtschaft vielerorts eingesetzt wird.
Mit R lassen sich Daten aus zahlreichen Dateiformaten (csv, Excel, JSON, XML, SPSS, SAS usw.) und Datenbanken (beispielsweise SQLite, PostgreSQL, Oracle, MySQL, MongoDB) einlesen. Die Sprache wird eingesetzt für statistische Modellierung, Visualisierung, Graphenanalysen, Geoanalysen, Text Mining, Natural Language Processing, Zeitreihenanalysen, statistische Tests und Machine Learning, um nur einige Beispiele zu nennen. Darüber hinaus können mit R aber auch Berichte, Präsentationsfolien, Dashboards und interaktive Webseiten erstellt werden, die eine wirkungsvolle Kommunikation der Analyseresultate ermöglichen.
R bietet folgende Vor- und Nachteile:
Stefan Lanz, IBAW-Dozent im Studiengang Data Scientist NDK HF und erfahrener Data Scientist in einem Schweizer Industrieunternehmen, arbeitet bevorzugt mit der Programmiersprache R. Sie ist kostenlos verfügbar, hat eine gute Community und bietet ein grosses Spektrum an Möglichkeiten und Methoden. Die Einarbeitung ist zwar etwas aufwändig, dafür können äusserst gute Resultate erzielt werden. Die Einführung in die Arbeit mit R ist einer der Schwerpunkte des Studiengangs «Data Scientist NDK HF». Die Studierenden erarbeiten die Grundlagen der Sprache und lernen das Tidyverse kennen, ein umfangreiches Ökosystem von Erweiterungspaketen für Data Scientists. Sie erstellen Visualisierungen mit ggplot2, analysieren Datentabellen mit dplyr und verarbeiten Textdaten mit stringr. Die nötigen statistischen Grundkenntnisse werden vermittelt und genutzt, um mit R lineare Modelle zu erstellen und statistische Tests durchzuführen. Die Studierenden führen eine Datenanalyse mit eigenen Daten aus und präsentieren ihre Resultate in einem Bericht, den sie mit R Markdown erstellen. Ausgestattet mit diesen Fähigkeiten sind die Data-Scientist-NDK-HF-Studierenden bereit für eine umfangreiche Einführung in verschiedene Klassifikations- und Machine-Learning-Methoden im letzten Modul des Studiengangs.
Weiter gehören folgende Tools zu den populärsten Analysetools aktuell:
Wie die Programmiersprache R entstand Python in den 90er Jahren mit dem Ziel, eine einfache und übersichtliche Programmiersprache zur Verfügung zu stellen. Im Vergleich mit anderen Sprachen können Python-Skripte oft deutlich knapper formuliert werden. Die Standardbibliotheken von Python bieten bereits einen breiten Umfang von Funktionalitäten. Darüber hinaus bietet der Python Package Index tausende von zusätzlichen Bibliotheken mit weiteren Funktionen. Dadurch ist es möglich, Python-Code in anderen Sprachen einzusetzen oder damit Plug-Ins für unterstützte Programme zu schreiben.
Die Programmiersprache eignet sich sowohl für die Erstellung von Skripten als auch für schnelle Anwendungsentwicklungen (Rapid Application Development).
Das sind die Stärken und Schwächen von Python:
SAS ist eine Software, welche spezifisch für die Anforderungen der Datenanalyse entwickelt wurde – hauptsächlich für die Auswertung von geschäftlichen Daten (Business Intelligence) sowie für den Gebrauch in der Statistik.
Die Software wurde bereits in den 1970er Jahren entwickelt und kann lediglich mitsamt einer jährlichen Lizenz benutzt werden. SAS beinhaltet eine Skript-Sprache, eine integrierte Datenbank und ein eigenes Konzept, um unterschiedliche Datenformate auswerten zu können. Die Software wird heute insbesondere für die Aufbereitung und Auswertung von Unternehmensdaten verwendet, um damit Daten zu verarbeiten und diese anschliessend gewinnbringend zu nutzen.
Wann SAS im Bereich der Datenanalyse geeignet ist und wann nicht:
Die modular aufgebaute Software SPSS entstand Ende der 1960er Jahren und ist seit 2009 eine Marke der IBM. Ursprünglich wurden statistischen Daten auf Lochkarten gespeichert und konnten anschliessend ausgewertet werden. In den frühen 1980er Jahren entstand die erste PC-Version von SPSS. In der Zwischenzeit beinhaltet die Software ein grundlegendes Datenmanagement sowie eine umfassende grafische Möglichkeit, um Datenanalysen und statistische Verfahren durchzuführen und zu präsentieren. SPSS wird häufig, aber nicht nur, im sozialwissenschaftlichen Bereich sowie in der Marktforschung eingesetzt.
Vor- und Nachteile der Software SPSS:
STATA ist bekannt dafür, eine grosse Anzahl von statistischen Methoden zur Datenauswertung zur Verfügung zu stellen. Grafiken sind können in druckreifer Qualität erstellt werden und die Software kann für komplexe Datensammlungen optimal benutzt werden. Die Software ist seit 1985 auf dem Markt und mittlerweile mit Version 15.1 für die Nutzer verfügbar. Den Anwendern steht eine Programmiersprache zur Verfügung und eigene Programme können über das Internet für andere Nutzer bereitgestellt werden.. Die Software kann sowohl über ein Menü als auch über die Kommandozeile bedient werden.
Was die Statistik-Software STATA kann und wo sie an ihre Grenzen kommt:
Quelle:https://www.inwt-statistics.de/blog-artikel-lesen/Statistik-Software-R_Python_SAS_SPSS_STATA_im_Vergleich.html