Big Data – intelligenter Umgang mit großen Datenmengen

Bei meinem Vortrag im 5. Semester, zur Lehrveranstaltung „Aktuelle Entwicklungen im Informationsmanagement“ habe ich mich mit dem Thema „Big Data – intelligenter Umgang mit großen Datenmengen“ auseinandergesetzt. Schon während der Literaturrecherche habe ich festgestellt, dass dies ein Thema ist, was in Zukunft uns alle, gerade uns Informationsmanager, betreffen wird.

Bei meinem Vortrag habe ich zunächst einmal die Frage geklärt, was ist Big Data überhaupt. Überall wird heute von Big Data gesprochen, aber wer weiß schon, was das genau ist? Dabei habe ich herausgefunden, dass jeden Tag 2,6 Millionen Terabytes an strukturierten und unstrukturierten Daten erzeugt werden – das ist so viel, dass 90 % der auf der Welt vorhandenen Informationen alleine in den letzten beiden Jahren erzeugt wurden. Diese erzeugten Daten kommen überall her z.B. von Sensoren zur Klimaüberwachung, Eingaben in Soziale Netzwerke, digitale Fotos und Videos, Finanz- und Handelstransaktionen, GPS-Signale von Mobiltelefonen und so weiter. Und genau das ist Big Data!!! Das zeigt uns, dass Big Data kein reines IT-Thema ist, sondern in alle Gesellschaftsbereiche hineinreicht. Des Weiteren habe ich herausgefunden, dass Big Data diese Informationen nutzt, um neue Erkenntnisse, Güter oder Dienstleistungen zu gewinnen. Das Wesentliche an Big Data ist jedoch die Verknüpfung zu anderen Daten und deren statistische Auswertung.

Das Bemerkenswerte an Big Data ist nicht nur die gewaltige Datenmenge, viel wichtiger sind die Beziehungen zu anderen Daten. Erst durch Definitionen und Auswertungen von Verknüpfungen zwischen verschiedenen Datenbeständen wird das wahre Gehalt sichtbar. Waren früher Daten dezentral und nicht für jeden zugänglich verteilt (z.B. amtliche Register und Archive, Kirchenbücher, Zeitungsarchive, private Tagebücher und Briefe), so werden die Daten heute immer mehr Personen und Maschinen zugänglich. Es können Verbindungen gezogen werden, die früher praktisch unmöglich waren.

Wie bereits gerade gesagt, nicht nur die Datenmenge ist bei Big Data wichtig, sondern auch die Datenvielfalt, die entsteht. Genauso wichtig ist bei Big Data die hohe Geschwindigkeit der Datengenerierung. Dies sind 3 Merkmale, die es Big Data ermöglicht, die großen Datenmassen zu analysieren und Zusammenhänge erkennen zu lassen.

Auch kommerzielle Unternehmen wie Amazon, Google und Facebook versuchen so viele Daten wie möglich von so vielen Personen wie möglich zu sammeln, auszuwerten und zu vermarkten. Man schätzt, dass es bis 2020 mehr als 44mal so viele Daten gibt wie heute. Verkauft werden die gesammelten Daten dann als Werbeanzeigen und Informationen über Benutzer. Sogar komplette Unternehmen werden verkauft.

In der Studie „Digital Universe“ von 2012, wird deutlich, wie enorm das Datenvolumen in den nächsten Jahren ansteigen wird. Auch wenn die Zahlen bisher nur Prognosen sind, hat die Studie herausgefunden, dass im Jahre 2015 ca. 8591 Exabytes an Daten generiert werden. Bis 2020 soll das Datenvolumen auf 40.000 Exabytes ansteigen. Das sind ca. 32.000 Exabytes mehr innerhalb von 5 Jahren. Allein wenn man von Datengrößen wie Exabytes spricht, macht es deutlich von wie vielen Daten man bei Big Data spricht. Im normalen Alltag beschäftigt man sich häufig mit Kilobyte, Megabyte oder Gigabyte. Eventuell auch mal mit Terabyte. Aber Big Data befindet sich im Bereich Exabyte. Das sind nochmal 1 Millionen Bytes mehr. Die Erfassung und dauerhafte Speicherung dieser ungeheuren Datenmengen ist jedoch nur durch die gigantisch angewachsene Kapazität der Speichermedien möglich.

Nachdem ich mich mit dem Begriff „Big Data“ auseinander gesetzt hatte und gesehen habe, was da eigentlich genau hinter steckt, kam mir die Frage auf: Was bedeutet Big Data eigentlich für ein kommerzielles Unternehmen wie Google? Um mir diese Frage beantworten zu knnen, habe ich geschaut, welche Daten Google sammelt. Dabei habe ich herausgefunden, dass Google Daten sammelt, die wir dem Unternehmen mitteilen. Dazu gehören z.B. Cookies, Benutzerdaten beim Google-Konto oder Begriffe mit denen wir eine Suchanfrage durchführen. Genauso sammelt Google Daten, die sie aufgrund von unserer Nutzung erhalten z.B. gerätebezogene Daten, standortbezogene Daten, lokale Speicherungen sowie auch Protokolldaten = IP-Adresse, Telefonprotokolle sowie Daten zu Geräteereignissen.

Aber was macht Google mit all diesen Daten? Google bietet dem Nutzer maßgeschneiderte Inhalte an und verknüpft personenbezogene Daten aus einem Google-Dienst automatisch mit anderen Google-Diensten. Außerdem verarbeitet Google Daten auf vielen miteinander vernetzten Servern, die sich in zahlreichen Ländern der ganzen Welt befinden.

Und wer bekommt nun die Daten von Google? Interessant sind diese Daten für Verbundene Unternehmen, die im selben Konzern arbeiten z.B. das Internet-Videoportal YouTube, die Start-Up-Firma Upstartle, LLC mit deren Produkt Writely. Später entstand hieraus Google Docs (heute: Google Drive). Aber auch andere Unternehmen wie z.B. Android nutzen Daten von Google. Auch die NSA und andere staatliche Organe bekommen diese Daten. Nicht-personenbezogene Daten gibt Google an die Öffentlichkeit weiter z.B. durch Produktempfehlungen. Dies findet man dann in den Werbebannern, wenn da steht „Andere kauften auch…“. Genauso werden nicht-personenbezogene Daten an Google-Partner wie Verlage, Werbeunternehmen und verbundene Webseiten weiter gegeben.

Dann habe ich mir noch die Frage gestellt: Wie wird es mit Big Data in Zukunft weiter gehen? In Zukunft könnte es so sein, dass Maschinen nicht mehr unsere Fragen beantworten, sondern sie sagen uns konkret, was wir tun sollen. Genauso werden Smartphones sich zur „guten Fee“ entwickeln, die immer einen Rat (hoffentlich den richtigen) bereithalten, um unsere (vermeintlichen) Wünsche zu erfüllen. Die Zukunft wird so aussehen, dass ich als Anwender im Endeffekt gar nicht mehr weiß, was ich will. Mein Verhalten wird mir von der Maschine vorgeschrieben. Das läuft darauf hinaus, dass mir mein Endgerät sagt, was ich zu tun habe. Der eigene Wille und eine selbständige Entscheidung werden damit untergraben.

Wollen wir DAS wirklich???

Update 5/6/15: Links zu den Referenzen, Google Drive, Adroid, YouTube hinzugefügt.

Hier die Quellen zum Nachlesen oder weiterlesen:

Alpár, Paul: Anwendungsorientierte Wirtschaftsinformatik. Strategische Planung, Entwicklung und Nutzung von Informationssystemen. 7., aktualisierte und erw. Aufl. Wiesbaden: Springer Vieweg 2014 (=Springer-Lehrbuch).

Google: Google Datenschutzerklärung. http://www.google.de/intl/de/policies/privacy (08.06.2015).

King, Stefanie: Big Data. Potential und Barrieren der Nutzung im Unternehmenskontext. Mit einem Geleitwort von Univ.-Prof. Dr. Ivo Hajnal. Wiesbaden: Springer VS 2014.

Knop, Carsten: Amazon kennt Dich schon. Vom Einkaufsparadies zum Datenverwerter. 1. Auflage. Frankfurt am Main: Frankfurter Allgemeine Buch 2013.

Kreutzer, Ralf T. u. Karl-Heinz Land: Digitaler Darwinismus. der Stille Angriff auf Ihr Geschäftsmodell und Ihre Marke. Das Think!book: Gabler 2013. http://dx.doi.org/10.1007/978-3-658-01260-1

Rippel, Jürgen u. Ronald Zehmeister: Was kommt nach Big Data? In: Wissensmanagement – Das Magazin für Führungskräfte (2014) H. 1. S. 30–33. https://www.econbiz.de/Record/was-kommt-nach-big-data-rippel-j%C3%BCrgen/10010251169

Rippel, Jürgen: Big Data & mehr: Das Drei-Welten-Modell. In: Wissensmanagement – Das Magazin für Führungskräfte (2014) H. 4. S. 36–38. https://www.econbiz.de/Record/big-data-mehr-das-drei-welten-modell-rippel-j%C3%BCrgen/10010362881

Unternehmen müssen jetzt das Fundament für Big Data legen. In: Wissensmanagement – Das Magazin für Führungskräfte (2014) H. 1. S. 52–53. http://www.wissensmanagement.net/online/online_artikel_und_e_paper_archiv/archiv/heft/1/2014/artikel/unternehmen_muessen_jetzt_das_fundament_fuer_big_data_legen.html

Advertisements

2 Gedanken zu “Big Data – intelligenter Umgang mit großen Datenmengen

  1. Personalisierte Werbung und Beeinflussung von Konsumverhalten scheint mir dabei das kleinste Problem zu sein. „Interessant“ wird es, wenn aufgrund statistischer Wahrscheinlichkeiten oder Fehlverknüpfung Einfluss (auch vorausgreifend) durch Gewähren/Verwehren auf den persönlichen Lebensbereich genommen wird. Dies erhält eine besondere Bedeutung wenn sensible Bereiche wie die Gesundheits-/ Krankeitsdaten einbezogen werden. Diese sollen zukünftig mit Hilfe einer Telematikinfrastruktur* von allen gesetzlich Krankenversicherten Personen an zentralen Orten gespeichert werden. Hinzu kommen der (ausschließlich) bargeldlose Zahlungsverkehr, intelligente Stromzähler, Smart-TV, Mautdaten, PKW-Blackbox & eCall, Vorratsdatenspeicherung usw., usw….
    Nicht alles ist grundsätzlich schlecht. Jedes System für sich ist durch aus mal mehr, mal weniger sinnvoll, lebenserleichternd (bequem) und nützlich. Zusammen betrachtet erscheint die „allways-online“ Entwicklung aber zumindest bedenklich. Zumal zentral gespeicherte Daten Begehrlichkeiten wecken und der Datenmissbrauch oder Diebstahl nur eine Frage der Zeit ist. Bisher tröstet der einzelne sich sicher damit, dass er/sie in der schieren Datenmenge anonym ist und nichts zu Verbergen hat. Die Zukunft wird es zeigen… oder wie mein Smartphone mir jedes Mal beim Einschalten sagt: „Share your identity“

    *Die Infrastruktur wird übrigens von Arvato (Bertelsmann), einem der größten deutschen Adresshändlern entwickelt. Ein Schelm wer Böses dabei denkt.

    Gefällt mir

  2. „Wollen wir das wirklich“ ist nicht die richtige Frage. Die Frage ist eher „Wie gehen wir mit dieser Technologie um“
    Big Data Technologien sind nicht grundsätzlich abzulehnen. Wie im Hauptbeitrag schon erwähnt wächst die Rate der Datenproduktion rasant an. Diese Datenmengen sind intellektuell nicht mehr erfassbar oder gar auswertbar. Beim einen Durchlauf des großen Teilchenbeschleunigers am CERN werden so große Datenmengen in Sekundenbruchteilen produziert, dass diese nicht einmal mehr speicherbar wären. Das heißt man braucht dort Algorithmen die blitzschnell entscheiden können welche Daten man braucht und welche nicht, sodass man die Datenmenge reduzieren kann bevor man sie weiterverarbeitet.

    Quelle: http://home.cern/about/computing

    Auch in anderen Bereichen bringen Big Data Technologien einen entscheidenden Vorteil. So hat zum Beispiel Dr. Carolyn McGregor, eine Informatikerin, die Sterblichkeitsrate von Frühgeborenen entscheidend verringert. Frühgeborene haben noch kein ausgeprägtes Immunsystem und sind deshalb besonders anfällig gegenüber Infektionen. Wenn Ärzte Symptome einer Infektion festgestellt hatten war es bisher schon zu spät entsprechende Antibiotika zu verabreichen. Die Mittel konnten nicht mehr anschlagen. Dr. McGregor hat in ihrer Untersuchung über Monate die Vitalzeichen von über 70 Frühgeborenen aufgezeichnet. Dabei liefen über 1200 Messpunkte pro Sekunde auf. Diese Daten wurden ausgewertet und man konnte ein Muster entdecken, dass 24 Stunden vor dem Auftreten von klassischen Symptomen einer Infektion messbar ist. Somit ist es jetzt möglich rechtzeitig Antibiotika zu verabreichen.

    Quelle: McGregor, Carolyn; Catley, Christina; James, Andrew; Padbury, James (2011): Next generation neonatal health informatics with Artemis. In: Studies in health technology and informatics 169, S. 115–119

    Technisch gesehen sind diese Technologien also durchaus notwendig. Es stellt sich die Frage wie damit in den Bereichen, wo die Technologien unsere Gedanken betreffen, damit umzugehen ist. Erstens: wie kommen die Unternehmen an die Daten die diese Überwachung möglich machen? Größtenteils bekommen Sie die Daten von uns selbst. Unsere Smartphones sind dauernd aktiv und senden sekündlich Standortdaten, Daten über besuchte Webseiten, angerufene Kontakte usw. in den Äther. Wenn wir Software oder Apps auf dem PC oder Handy installieren stimmen wir den Nutzbedingungen zu weil sonst diese Software nicht nutzen können. Die Nutzungsbedingungen beinhalten allerdings einen Passus, der es dem Unternehmen erlaubt Daten über unser Nutzungsverhalten und sogar personenbezogene Daten zu speichern, weiterzuverwenden oder sogar zu handeln. Meistens sind die Nutzungsbedingungen sogar so formuliert das die Nutzung noch nicht einmal irgendwie Zweckgebunden ist.
    Diese Praxis verstößt meiner Meinung nach gegen das Recht auf informationelle Selbstbestimmung, das aus dem sogenannten „Volkszählungsurteil“ von 1983 als Grundrecht abgeleitet wurde. Quelle: https://de.wikipedia.org/wiki/Informationelle_Selbstbestimmung Das bedeutet dass wir theoretisch die Möglichkeit haben, der unkontrollierten Nutzung unserer Daten einen Riegel vorzuschieben. Wir müssten dieses Recht aber auch wahrnehmen, und nicht aus Gründen der Bequemlichkeit einfach diese Weiterverwendung unserer Daten hinnehmen.
    Vom Gesetzgeber her fehlen allerdings bisher auch noch klare Vorgaben die der Wirtschaft andere Formen der Online-Vertragsabschlüsse vorschreiben. Letztendlich liegt es aber größtenteils in unserer Hand wie es in dieser Hinsicht weiter geht. Wir als Informationsprofessionals sollten uns mit dieser Technologie weiterhin kritisch auseinandersetzen und dieses Wissen auch der Öffentlichkeit zugänglich machen, damit jedermann die Möglichkeit hat zu entscheiden, was er in Kauf nimmt, wenn er seine Daten zur Verfügung stellt. Dann wird man in Zukunft eventuell kritischer darüber entscheiden ob man tatsächlich ein Smartphone oder einen mit dem Internet verbundenen Kühlschrank braucht.

    Gefällt mir

Kommentar verfassen

Bitte logge dich mit einer dieser Methoden ein, um deinen Kommentar zu veröffentlichen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s