Alles sind Daten!

Christian Luebbe @ EPFL Extension School · 12 Minuten

Daten finden sich überall, und mit allen können wir und KI lernen.

In unserem letzten Artikel (Daten in verschiedenen Formen) haben wir begonnen, verschiedene Datentypen und ihre Anwendungen näher zu betrachten. Insbesondere haben wir Ihnen die folgenden gängigen Datenformate vorgestellt:

    1. Tabellarische Daten
    2. Text
    3. Audiodaten
    4. Visuelle Daten – Bilder und Videos

Aber die Welt der Daten hat noch viel mehr zu bieten! Schliesslich erzeugt jede Information, die wir erfassen, Daten. In diesem Artikel stellen wir Ihnen fünf weitere Datentypen vor und diskutieren Bereiche, in denen sie zur Entwicklung von KI-Systemen verwendet werden:

    5. Zeitliche Sequenzen und Zeitreihen
    6. Netzwerke
    7. Geo- und Standortdaten
    8. Emotionen
    9. Das Internet der Dinge

Am Ende dieses Artikels werden Sie dann hoffentlich der Ankündigung des Titels dieses Artikels zustimmen: Alles sind Daten!

Jeder Gegenstand um uns herum enthält unzählige Informationen. Sofern man diese Informationen aufzeichnen und erfassen kann, kann man sie in Daten verwandeln.

Und weiter geht’s!

5. Zeitliche Daten und Zeitreihen

Wir sollten uns darüber im Klaren sein, dass Informationen selten statisch sind. Sie neigen dazu, sich im Laufe der Zeit zu verändern und weiterzuentwickeln. Wir können diese Veränderungen der uns zur Verfügung stehenden Informationen erfassen in dem wir auch die zeitlichen Aspekte von Daten registrieren. Die Audio- und Videodaten, die wir im letzten Artikel diskutiert haben sind ein exzellentes Beispiel dafür.

Aber es gibt noch viel mehr Anwendungen von zeitlichen Daten. Beispielsweise können wir die Uhrzeit und das Datum eines bestimmten Wettermusters oder die Dauer des Regens im Vergleich zur Dauer des Sonnenscheins aufzeichnen. Indem wir diese Aufzeichnungen in regelmässigen Abständen vornehmen, können wir Veränderungen wie Temperaturschwankungen über einen bestimmten Zeitraum wie beispielsweise eine Woche nachverfolgen.

Zeitliche Daten ermöglichen uns die Einordnung von Daten in chronologische Sequenzen. Diese Sequenzen werden Zeitreihen genannt und helfen uns, Einblicke in historische Ereignisse zu gewinnen. Wir können Zeitreihen zur sequenziellen Aufzeichnung all der Datentypen verwenden, die wir in diesem und dem letzten Artikel besprechen. Zum Beispiel, generieren unsere Social-Media-Posts eine Zeitreihe von kurzen Texten.

Wir können auch messen, wie viel Zeit zwischen einzelnen Ereignissen vergeht. Oder wiederkehrende Ereignisse, wie Geburten, aufzeichnen und ermitteln, zu welchen Zeiten sie häufiger vorkommen. So können wir quantitative Veränderungen beobachten und langfristige Trends und saisonale Muster entdecken, beziehungsweise entsprechend berücksichtigen. Für Geologinnen und Geologen ist es zum Beispiel nicht ungewöhnlich, eine Zeitreihe von Millionen von Jahren zu betrachten.

Die Erfassung solcher Daten hilft Unternehmen bei der Planung. Wann werden die meisten Flüge gebucht? Wann wird besonders viel Glacé gekauft? Aus der Vergangenheit zu lernen hilft uns, für die Zukunft zu planen und die Zeiten von erhöhter Nachfrage für bestimmte Güter und Dienstleistungen zu kennen, ermöglicht es uns, aus diesen Informationen Profit zu schlagen.

Detaillierte Analysen zeitlicher Daten können uns helfen, Zusammenhänge zwischen Ursache und Wirkung zu erkennen und die Genauigkeit unserer Prognosen weiter zu erhöhen. In vielen Situationen des realen Lebens finden wir jedoch eine Vielzahl unterschiedlicher Einflüsse und Faktoren vor, die auf höchst komplexe Weise miteinander interagieren.

Ein Flugzeug verwendet Millionen beweglicher Einzelkomponenten und eine Vielzahl elektronischer Systeme, die alle in Wechselwirkung zueinander stehen, um das Flugzeug in der Luft und auf Kurs zu halten. Es mag nahezu unmöglich erscheinen, Strukturen und Beziehungen innerhalb solch verworrener zeitlicher Daten zu erkennen, um damit mögliche Störfälle rechtzeitig vorhersagen zu können. Die enorme Rechenkapazität von KI-Technologien ermöglicht glücklicherweise die Beobachtung von Mustern in komplexen Systemen, die ein Mensch niemals erkennen könnte.

Wie Menschen lernen auch KI-Systeme aus vergangenen Ereignissen und extrahieren Muster und Erkenntnisse, um daraus Voraussagen über die Zukunft zu treffen. Zeitreihen spielen in vielen verschiedenen Bereichen eine wichtige Rolle, weshalb diese KI-Technologie über ein riesiges Potenzial verfügt. Unternehmen können mit Hilfe von ihnen Prognosen zu Budgets und Beständen sowie zu erwarteten Umsätzen und Kosten erstellen. Zeitreihen helfen ihnen auch, ihre treuesten Kunden zu identifizieren, genauso wie diejenigen, die möglicherweise bald abwandern.

Menschen erfassen nur einen sehr kleinen Teil von zeitlichen Daten. Der Grossteil wird automatisch von Sensoren und Maschinen erkannt und verarbeitet – und zwar aus dem einfachen Grund, dass sie viel besser dazu geeignet sind, eine Vielzahl von Signalen über längere Zeiträume hinweg zuverlässig aufzuzeichnen.

Ein gutes Beispiel hierfür sind Fitness-Tracker und Smartwatches. Sie verfügen über Beschleunigungsmesser, die Bewegungsänderungen messen. Mit der kleinen Hilfe von KI können sie zum Beispiel erkennen, ob Sie gerade gehen, laufen oder Rad fahren. Autoversicherungen verfolgen einen ähnlichen Ansatz, wenn sie den Fahrstil ihrer Kunden erfassen und kategorisieren, um damit ihre Prämien entsprechend anpassen zu können.

Zeitreihen können auch bei der Identifizierung von betrügerischen Aktivitäten helfen. Bereits heute setzen Banken und Kreditkartenunternehmen KI-Technologien ein, um verdächtige Muster zu erkennen. Aber auch bei Online-Gaming-Plattformen, bei denen die Nutzer oft mehrere Käufe innerhalb relativ kurzer Zeit tätigen können, besteht Betrugspotenzial. AI verwendet Zeitreihen, um festzustellen, welche dieser Transaktionen in den Rahmen des normalen Verhaltens fallen und welche verdächtig aussehen.

6. Netzwerke

Ein Netzwerk besteht aus einer Menge miteinander verbundener Punkte in der den Verbindungen zwischen diesen Punkten unterschiedliche Relevanz zugeordnet werden kann. Die Punkte in einem Netzwerk, auch Knoten genannt, können dabei für unzählige Dinge stehen. Von Menschen und Orten bis hin zu abstrakteren Dingen wie Wörtern, solange zwischen den Punkten eine Beziehung besteht, können sie in einem Netzwerk dargestellt werden.

Im Falle eines öffentlichen Verkehrsnetzes sind die verschiedenen Bus- und Tramhaltestellen die Knoten. Die Verbindung zwischen diesen Knotenpunkten sind die Bus- und Tramlinien. Die Relevanz der jeweiligen Verbindungen könnte daran gemessen werden, wie viele Busse oder Trams stündlich fahren oder wie weit es bis zur nächsten Haltestelle entlang der Linie ist.

Es ist einfach, solche Netzwerke in einem einzigen Diagramm darzustellen:

Transportnetzwerk des lokalen Bahnverkehrs in der Léman Region am Genfersee.

Obwohl wir das Diagramm für ein lokales Transportnetzwerk mühelos erstellen können, erscheint es uns im ersten Moment unmöglich, das Gleiche für etwas wie das World Wide Web zu tun1 – das weltweite Netzwerk aller Webseiten, auch allgemein als das Internet bekannt. Auch für Social-Media-Plattformen ist so eine Darstellung nicht ohne Weiteres möglich. Diese Netzwerke verfügen über bis zu 2,7 Milliarden Nutzer (Knoten) und jeder dieser Nutzer hat durchschnittlich 300 Bekannte (Verbindungen).

Wir sind aber mit Hilfe von KI in der Lage Gruppen und Gemeinsamkeiten innerhalb dieser komplexen Netzwerke zu identifizieren. So ist es zum Beispiel möglich, Vorhersagen darüber zu treffen, welche Arten von Social-Media-Posts ein hohes Mass an Interesse hervorrufen werden. Diese Art von Informationen ist für Marketing- und Werbeunternehmen äusserst relevant und erlaubt Rückschlüsse über die Art von Inhalten, die sie über ihre Social-Media-Kanälen verbreiten. Dieselben Ansätze und Informationen können jedoch auch zur Verbreitung von Gerüchten und Falschmeldungen (Fake News) verwendet werden.

Auch in der realen Welt gibt es zahlreiche, hochkomplexe Netzwerke. Physische Netzwerke wie länderübergreifende Strassen-, Schienen- und Stromnetze sowie andere Teile der kritischen Infrastruktur erfordern eine sorgfältige Planung und Ressourcenverteilung. KI-Anwendungen können dies viel effizienter und genauer tun als Menschen. Einzelhändler nutzen KI zur logistischen Organisation ihrer Lieferkette und um ihre Ressourcen dort einzusetzen, wo sie am wirkungsvollsten sind. Online-Streaming-Dienste nutzen KI, um Server-Netzwerke zeitnah an die sich ständig ändernden Nutzungsanforderungen anzupassen. # 7. Geo- und Standortdaten

Geospatial

Darstellung aller Haltestellen des öffentlichen Verkehrs in der Schweiz.

Vor nicht allzu langer Zeit, mussten wir auf einer Karte aus Papier nachschauen oder einen Fremden nach dem Weg fragen, wenn wir einen bestimmten Ort finden wollten. Heutzutage können wir eine App auf unserem Smartphone öffnen oder das Navigationssystem unseres Autos verwenden, um den Weg zu unserem Ziel zu finden. All dies verdanken wir dem globalen Navigationssatellitensystem zur Positionsbestimmung GPS (Global Positioning System), das unseren Standort erkennt und ihn in Beziehung zu unserem gewünschten Zielort setzt.

Mobile Apps verwenden GPS, um uns mit allen möglichen Informationen über unsere Umgebung zu versorgen. Auf unseren Bildschirmen sehen wir, wo in der Umgebung sich Geschäfte und Restaurants befinden, wo wir ein Taxi finden können oder ob wir auf der Autobahn Stau haben werden. Und selbst dort wo kein zuverlässiges GPS-Signal verfügbar ist, können wir inzwischen immer häufiger lokale WLAN-Hotspot nutzen um unsere Position zu bestimmen und auf Geodaten zugreifen.

Es gibt zwei Möglichkeiten zur Erfassung dieser standortbezogenen Daten. Wir können ein stationäres geographisches Referenzsystem verwenden, um uns mit geographischen Daten, kurz Geodaten, zu versorgen. Beispiele für Geodaten sind GPS-Koordinaten, Postadressen oder lokal definierte Raster wie die Grundrisse von Einkaufszentren oder Fabriken.

Alternativ können wir ein lokales, potenziell bewegliches Referenzsystem verwenden. Dieses lokale System ist das, was wir Menschen verwenden, um unser unmittelbares Umfeld im Verhältnis zu unserer eigenen Position wahrzunehmen und zu bewerten. Autonome Roboter und selbstfahrende Autos verwenden ein lokales System, das Infrarotsensoren, Radar und Lidar2 verwendet, um Objekte in ihrer Nähe zu lokalisieren und sie in Relation zu sich selbst zu verfolgen.

Jedes Mal wenn wir Navigations Apps benutzen verwenden wir standortbezogene Daten. Aber es gibt viele andere Einsatzbereiche, die womöglich weniger offensichtlich sind. Ridesharing-Apps nutzen diese neuen Technologien besonders effizient. Sie analysieren die Daten häufiger Abholpunkte und Fahrtziele, um die zukünftige Nachfrage vorherzusagen und Fahrzeuge vorab in diese Gebiete zu schicken.

Versicherungsunternehmen verwenden Standortdaten, um die Kosten Ihrer Gebäude- und Hausratversicherung zu berechnen. Wie hoch ist die Kriminalitätsrate in Ihrer Nachbarschaft? Kommt es in Ihrer Gegend häufig zu Überschwemmungen? Und Geodaten spielen auch eine wichtige Rolle in der Energiebranche, wo KI Entscheidungsträgern hilft, Rohölvorkommen zu entdecken und optimale Standorte für Windparks zu finden.

Standortbasierte Informationen sind auch von entscheidender Bedeutung, wenn es um die Organisation einer zeitnahen Reaktion auf eine Naturkatastrophe oder eine sich abzeichnende humanitäre Krise geht. KI-Systeme untersuchen automatisch Satellitenbilder, um das Ausmass der Schäden, die Anzahl der betroffenen Personen und die Zugänglichkeit des Gebietes zu beurteilen.

Und auch im öffentlichen Gesundheitswesen finden Geodaten Anwendung. So zum Beispiel, um Zusammenhänge zwischen Personengruppen, die an Krankheiten wie Atemwegserkrankungen leiden, und Umgebungen mit hoher Schadstoffbelastung zu erkennen. Eine der frühesten bekannten Analysen von Geodaten in der Epidemiologie fand während des Cholera-Ausbruchs von 1849–1854 in London statt. Durch die Kartierung der Standorte von Personen, die mit der Krankheit infiziert waren, gelang es John Snow eine einzelne Wasserpumpe als wahrscheinliche Quelle zu identifizieren. Heute verwendet KI Geodaten, um die Verbreitung von Viren wie Ebola und Covid-19 auf ähnliche, aber viel effizientere Weise zu verfolgen.

8. Emotionen

Nichts definiert Menschen mehr als unsere Emotionen und Gefühle. Aber es ist unglaublich schwierig, sie direkt mit Sensoren zu erfassen, zu messen und aufzuzeichnen.

Dennoch hinterlassen wir Spuren. So enthalten zum Beispiel unsere digitalen Aktivitäten Hinweise auf unsere emotionale Befindlichkeit. Die Worte und Ausdrücke, die wir in unseren Nachrichten, Bewertungen und Social-Media-Posts verwenden, jedes Emoji und Like sowie jeder geteilte Inhalt lassen Rückschlüsse darauf zu, wie wir uns fühlen. Soziale Netze verwenden KI-Algorithmen zur Erfassung all dieser unterschwelligen emotionalen Ausdrucksformen und erstellen für jeden Nutzer ein persönliches Profil.

😃😆😅🤣😊😇😉😍😘😋😜🤪🤨🧐😢😏😒😔😟😖😫😭😤😡🤬🤯😳😱🤗😰🤔🤭🤫😬😧😴🤤😵🤐🤧🤒🤕
Emojis sind eine sehr effektive Methode, um Emotionen auf eine kompakte Weise zu kommunizieren. Ein immer vielfältigerer Satz von Emoji ermöglicht die Beschreibung von immer differenzierteren Gefühlen.

Schon 250 «Likes» enthalten für KI-Systeme ausreichend Informationen zur Bestimmung Ihrer demografischen und psychologischen Eigenschaften. Ab diesem Zeitpunkt sind sie in der Lage Ihre Meinung zu verschiedenen Themen mit grösserer Genauigkeit vorherzusagen, als dies zum Beispiel Ihre Eltern oder Ihr Partner könnten. Anhand dieser Informationen wissen die sozialen Netzwerke, auf welche Beiträge Sie am ehesten reagieren werden.

Diese psychologischen Profiling-Methoden können dann dazu verwendet werden, Ihren Nachrichten-Feed gezielt mit Inhalten zu füllen, die Ihre Emotionen und daraus hervorgehenden Meinungen aktiv beeinflussen. Dass auf diese Weise mitunter Einfluss auf das Wahlverhalten genommen werden könnte, hat eine Studie von 2012 demonstriert.

9. Das Internet der Dinge

Schon bald wird alles miteinander verbunden sein und Daten austauschen. Immer mehr Maschinen und Geräte sammeln mittels eingebauter Sensoren Daten und übertragen diese über das Internet. Diese Geräte können miteinander interagieren und erlauben es uns, sie aus der Ferne zu überwachen und zu steuern.

Sie kommen in 20 Minuten von der Arbeit nach Hause! - Perfekt, der Kaffee ist gleich fertig! - Oh, nein! Ich habe vergessen Milch zu bestellen!

Maschinen in abgelegenen Orten können Daten live in eine Zentrale übertragen. Dadurch können Techniker Diagnosen durchführen, Software-Updates installieren und andere Wartungsarbeiten durchführen, ohne sich an den eigentlichen Standort begeben zu müssen.

Dieses Netzwerk von miteinander verbundenen Geräten wird als Internet der Dinge (Internet of Things, IoT) bezeichnet und produziert eine riesige Menge an Daten aller Art. In naher Zukunft werden Haushaltsgeräte wie Kühlschränke Teil dieses Netzwerks sein und über eine Schnittstelle verfügen, die es ihnen ermöglicht, Artikel zu Ihrer Einkaufsliste hinzuzufügen oder sogar völlig autonom Lebensmittel zu bestellen.

Bereits heute gibt es im Gesundheitssektor viele solcher verknüpfter Geräte, die bei der Pflege älterer und kranker Menschen helfen, indem sie deren Vitalfunktionen überwachen. Diese Geräte erzeugen einen stetigen Datenstrom, der auf Muster und Anomalien analysiert werden kann. Wenn sie so etwas wie einen unregelmässigen Herzschlag oder schwere Atmung feststellen, können die Geräte eine Warnmeldung an Ärzte und Betreuer in der Nähe senden und so lebenswichtige Zeit bei der Diagnose und Intervention hinzugewinnen.

Das Ganze ist grösser als die Summe seiner Teile

In diesem Artikel haben wir Ihnen eine Reihe verschiedener Arten von Daten vorgestellt und eine Vielzahl von Anwendungsfällen besprochen. Wir haben auch gesehen, wie all diese verschiedenen Datenformate uns und den KI-Systemen helfen, neue Erkenntnisse zu gewinnen und datengestützte Entscheidungen zu treffen.

Wir haben uns hauptsächlich mit einzelnen Datentypen befasst, aber es ist auch möglich, verschiedene Datentypen und Datenquellen miteinander zu kombinieren, um noch weiter zu gehen. Wir haben beispielsweise gesehen, dass Videos visuelle, akustische und zeitliche Daten kombinieren und uns so mehr Informationen vermitteln, als die einzelne Datentypen es alleine könnten. Zum Beispiel können wir den Sprecher sowie den Kontext dessen, was gesagt wird, identifizieren.

Wenn mehrere Datenformate miteinander kombiniert werden, wächst die Fähigkeit von KI-Systemen zur Wertschöpfung exponentiell an. Das Ganze ist grösser als die Summe seiner Teile und wir können momentan nur Mutmassungen darüber anstellen, auf welch innovative Weise die KI diese verschiedenen Datentypen kombinieren und nutzen wird.

Energieunternehmen liefern uns ein weiteres Beispiel, bei dem KI-Systeme an jedem Schritt der betrieblichen Abläufe beteiligt sind. Sie schulen KI mit Hilfe von Verbraucherverhalten, um die zukünftige Nachfrage vorherzusagen, und prognostizieren das Angebot an erneuerbarer Energie Dank der Analyse regionaler Wettermuster. Diese beiden Vorhersagen werden dann von einem anderen KI-System zur Planung der Stromerzeugung und Energiespeicherung genutzt. All dies wird mit dem nationalen Versorgungsnetz koordiniert, um Stosszeiten zu kompensieren und die Energie bedarfsgerecht zu verteilen. Anders als bei herkömmlichen Algorithmen verfügt die KI über die notwendige Flexibilität, um schnell und effizient auf sich ständig wechselnde Anforderungen zu reagieren.

Alles auf der Welt liefert uns Daten und ist wertvoll für jemanden

Unsere DNA enthält einen Grossteil der Informationen, die uns zu dem machen, was wir sind, von der Farbe unserer Augen und der Form unserer Nase bis hin zu unserer Fähigkeit, schnell zu laufen oder der Wahrscheinlichkeit, an Alzheimer zu erkranken. Die Sequenzierung ganzer Genome ist in den letzten zehn Jahren deutlich schneller, einfacher und günstiger geworden. Forschungsinstitute und Pharmaunternehmen arbeiten daran, die Gene zu identifizieren, die mit verschiedenen Krankheiten in Verbindung stehen, und zu untersuchen, wie Patienten auf Grundlage ihres DNA-Profils auf pharmazeutische Medikamente reagieren werden.

Dieser Bereich eignet sich ideal für KI-Technologie, da sie in der Lage ist, die Art von versteckten Mustern zu erkennen, die in grossen und komplexen DNA-Datensätzen vorkommen. Somit werden nun selbst die Daten unseres natürlichen «Bauplans» von KI analysiert und interpretiert.

In diesem und dem vorangegangenen Artikel (Daten in verschiedenen Formen) haben wir Ihnen eine Reihe verschiedener Datentypen vorgestellt und eine Vielzahl von Anwendungen für KI diskutiert. Wir haben auch gesehen, wie all diese unterschiedlichen Datenformate uns und KI-Systemen helfen, neue Erkenntnisse zu generieren und datengesteuerte Entscheidungen zu treffen.

Es sollte inzwischen klar sein, dass alles, was aufgezeichnet werden kann, zu Daten werden kann. Anschliessend können die Daten entweder zur Schulung von KI-Systemen verwendet oder in KI-Anwendungen implementiert werden, um aus ihnen Erkenntnisse und Schlussfolgerungen zu möglichen Ergebnissen abzuleiten. Diese doppelte Nutzung ist der Grund, warum Daten selbst zu einer so wertvollen, gefragten Ware geworden sind. Etwas, das geerntet, ausgebeutet, veredelt und gehandelt werden kann.

  1. Mit dem Opte Project visualisiert Barrett Lyon in 2003 zumindest einen Teil des Internets. In dieser Abbildung repräsentieren die Farben verschiedene Domain-Endungen (Dunkelblau: net, ca, us Grün: com, org Rot: mil, gov, edu Gelb: jp, cn, tw, au, de Magenta: uk, it, pl, fr Gold: br, kr, nl Weiss: unbekannt). 

  2. Lidar ist die englische Abkürzung für “laser imaging, detection, and ranging”, zu deutsch “Laserabtastung, -erkennung und -entfernung”. 

Nächster

KI und Philosophie