Data 2020 Outlook Teil II: Erklärbare KI und Datenbanken mit mehreren Modellen

Bildnachweis: Accenture

Im kommenden Jahr sehen wir Cloud, KI und Datenmanagement als die Megakräfte der Daten- und Analyseagenda. Wir knüpfen also dort an, wo Big on Data, Bruder Andrew Brust, letzte Woche aufgehört hat, und schauen uns einige der zugrunde liegenden Probleme an, die die Akzeptanz prägen.

In der Welt der Daten und Analysen können Sie heute kein Gespräch beginnen, ohne Cloud und KI einzubringen. Gestern haben wir in Teil I das Kontrollkästchen Cloud aktiviert: Wir haben untersucht, wie der bevorstehende Generationswechsel bei Unternehmensanwendungen wiederum den Kontext verändern wird, wie Unternehmen die Cloud-Bereitstellung bewerten werden. Heute richten wir unsere Aufmerksamkeit auf den Kernbaustein, was in Datenbanken passiert und was wir erwarten, dass dieses Jahr in der KI zum Schläferproblem wird.

Es ist jetzt Data, nicht Big Data

Aber zuerst etwas Kontext. Bisher haben wir unseren Jahresausblick auf Big Data bezogen, weil es bis vor kurzem noch als außergewöhnlich galt. Die Definition von Big Data wurde von Doug Laney, heute Principal bei Caserta, bereits 2001 bei der Analystenfirma Meta Group eingeführt. Big Data war neu, weil die Verarbeitung über die bestehenden Data-Warehousing-Technologien und BI-Analysetools hinausging. .

Big Data ist heute nur noch Daten, denn Not macht erfinderisch. Wie wir weiter unten bemerken werden, hat sich das Datenbankuniversum weit über das grundlegende relationale Modell hinaus erweitert und umfasst ein breites Spektrum von Datenplattformen und -typen. Wir nennen es jetzt einfach Daten und ändern den Namen unseres Jahresausblicks. Natürlich sind wir nicht die ersten, die diese Beobachtung machen, denn Gartner hat Big Data bereits 2015 aus dem Hype-Zyklus genommen.

Kommen wir nun zurück zu unserem regulären Programm.

KI aus der Blackbox holen

Zu den Branchenbeobachtungen, die Andrew letzte Woche berichtete, gehörte die Wahrnehmung, dass KI in der Analytik zum Mainstream geworden ist. Tatsächlich ist Analytics die Spitze des Eisbergs, da Verbraucher, Maschinen und Unternehmen täglich Dienste nutzen, die von KI unterstützt werden. Da sich der Konsum der Ergebnisse der KI jedoch auf die Dienste ausdehnt, die die Wirtschaft antreiben, wächst die Besorgnis über Ethik, Verzerrungen oder andere Annahmen, die die Algorithmen und die Auswahl der Daten, die die KI antreiben, leicht verzerren können.

KI gilt heute kaum noch als smart. Während die Datensätze und Modelle komplex sein können, fehlt den Entscheidungen der menschliche Kontext. KI kann Ja/Nein-Entscheidungen treffen, Muster erkennen und prädiktive oder präskriptive Empfehlungen abgeben, aber auf absehbare Zeit wird KI im Gegensatz zum Menschen nicht in der Lage sein, etwas in einem Kontext zu lernen und auf einen anderen anzuwenden. Aber auch bei einfachen Entscheidungen, etwa ob ein Kredit gewährt oder Empfehlungen ausgesprochen werden sollen, kann KI Schaden anrichten. Die ehemalige Wall-Street-Quante Cathy O’Neil machte mit ihrem 2016 erschienenen BuchWeapons of Math Destruction auf potenzielle KI-Bias aufmerksam.

Die Auswahl und Handhabung von Daten ist eine andere. Holen Sie sich einen ausreichend großen Datensatz und Sie können immer zumindest ein Muster finden. Sammeln Sie beispielsweise Ernährungsgewohnheiten in einem ausreichend großen Pool von lizenzierten Fahrern, und Sie könnten einige Muster in Bezug auf Risiken finden. Da Korrelation jedoch nicht immer ursächlich ist, erfordert die Bestimmung, ob diese Muster für die Änderung von Underwriting-Standards relevant sind oder nur Sampling-Freaks, immer noch einen Menschen auf dem Laufenden.

Mit der zunehmenden Verbreitung von KI werden Unternehmen zunehmend für die Entscheidungen verantwortlich, die mit Hilfe von KI-Algorithmen getroffen werden, unabhängig davon, wie leistungsfähig oder eingeschränkt ihre Fähigkeiten sind. Im letzten Jahr haben wir erste Versuche gesehen, KI von IBM, Google, H2O.ai und anderen „erklärbar“ zu machen.

Angesichts der Tatsache, dass dies noch in den Anfängen der KI-Erklärbarkeit und Bias-Erkennung liegt, sind die Fähigkeiten erwartungsgemäß noch recht rudimentär: Sie funktionieren normalerweise auf der Ebene einzelner Features oder Attribute, ähnlich wie das Sehen der Bäume, aber nicht Der Wald. Schauen Sie sich Offenlegungsseiten wie diese oder Videos an, die ein realistisches Bild davon zeichnen, was heute möglich ist.

Zum Beispiel können die heutigen Fähigkeiten statistisch identifizieren, welche(s) Merkmal(e) eines Modells das Ergebnis am stärksten beeinflusst hat (z. B. Generieren einer Entscheidung, Vorhersage oder Erkennen eines Bildes oder Textes). Für ganz einfache Modelle, wie sie im letzten Schritt einer Nahrungskette zur Entscheidungsfindung in regulierten Sektoren wie dem Finanz- oder Gesundheitswesen stehen, können sie „Reason Codes“ generieren. Sie können auch identifizieren, welche Attribute oder Merkmale auf potenzielle Verzerrungen verfolgt werden sollten (ähnlich wie Datensicherheitstools zur Identifizierung von PII-Daten). Und basierend auf diesen Ergebnissen können die heutigen Tools eine „ungleiche Wirkungsanalyse“ durchführen, was ein schicker Begriff ist, um festzustellen, ob das Modell gegen ein bestimmtes Segment von Menschen voreingenommen war. In einigen Fällen sind die Möglichkeiten zum Interpretieren oder Erklären von Modellen auf ein einzelnes Framework wie TensorFlow beschränkt. Was ehrgeizigeres angeht, gibt es heute bestenfalls die besten Vermutungen, um ganzheitlichere Erklärungen dafür zu extrapolieren, warum Modelle Entscheidungen treffen.

Wir gehen davon aus, dass die Erklärbarkeit oder Interpretierbarkeit von Modellen reif für die Entwicklung ist. Suchen Sie hier nach Ankündigungen. Hinter all dem Lärm von KI-bezogenen Produktankündigungen in diesem Jahr erwarten wir, dass Tools für die Zusammenarbeit in der Datenwissenschaft und Cloud-basierte KI- und AutoML-Dienste ihre Erklärbarkeit verbessern werden. Heutzutage können die meisten dieser Dienste Änderungen an Modellen im Laufe der Zeit dokumentieren, und sie werden wahrscheinlich Modellherkunftsdaten als Ausgangspunkt für den Ausbau ihrer Fähigkeiten verwenden, um zu artikulieren, warum Modelle Entscheidungen treffen. Anfänglich präsentieren diese Funktionen ihre Ergebnisse wahrscheinlich durch statistische Visualisierungen, die von einem Datenwissenschaftler übersetzt werden müssen. Später werden sie wahrscheinlich später weitere natürliche Sprachfunktionen hinzufügen, die sich an Geschäftsleute richten.

Bei der KI-Erklärbarkeit geht es nicht nur um Technologie, sondern auch um Best Practices. Eine der interessanten Lektionen, die wir beim Hören von Patrick Hall von H2O.ai mitgenommen haben, lautet: Wenn Sie Ihr Modell erklärbar machen möchten, machen Sie es nicht zu komplex. Data Scientists könnten ein oder zwei Dinge von App-Entwicklern lernen.

Dennoch werden wir bis Jahresende noch lange nicht in der Lage sein, ganzheitliche Erklärungen zu bekommen, die über einzelne Details oder Attribute hinausgehen. KI-Erklärbarkeit wird noch einige Zeit in Arbeit sein.

hadoop-sql-nosql-ovum-dbms-convergence-slide.png

Bildnachweis: Ovum

Clash of the Titans: Spezialisierte vs. Multi-Modell-Datenbanken

Nach dem Ende des Jahrs 2000 wurde die relationale Datenbank zum De-facto-Standard für Unternehmen, aber mit der Explosion der Datenmengen und -typen stieg auch eine ganz neue Art von Plattformen von Schlüsselwerten bis hin zu Dokumenten, Grafiken, Spaltenspeichern, Blockchain und mehr. Es ist an einem Punkt angelangt, an dem das Portfolio von Amazon jetzt 15 verschiedene Datenbankplattformen auflistet.

Und das hat eine Debatte unter den Plattformanbietern eröffnet, die vertraut klingen sollte: Die uralte Debatte zwischen Single-Dach-Plattform und Best-of-Breed hat sich nun von der Anwendung auf den Datenbankbereich ausgeweitet. Auf der einen Seite fördert Amazon die Strategie, die richtige Datenbank für den Job auszuwählen; Auf der anderen Seite stehen Akteure wie Oracle, Microsoft und sogar SAP, die den Ansatz von Swiss Army Knife gefördert haben. Traditionell haben sich Datenbankplattformen wie Oracle oder SQL Server der Multimodellfähigkeit genähert, indem sie ihre SQL-Abfragefunktionen erweitert oder Funktionen wie datenbankinterne R- oder Python-Unterstützung hinzugefügt haben.

Mit der neuen Generation von Born-in-the-Cloud-Datenbanken speichern viele Daten in einem kanonischen Format und stellen sie dann über APIs zur Verfügung. Microsoft Azure Cosmos DB ist das Aushängeschild dieses Ansatzes, aber wenn Sie unter die Oberfläche blicken, werden Sie feststellen, dass einige der spezialisierten Cloud-nativen Datenbankplattformen anderer Anbieter auch APIs in ihren Architekturen prominent verwenden.

In einem früheren Leben als Ovum-Analyst haben wir bereits 2014 prognostiziert, dass das kommende Zeitalter der Datenbankvielfalt auch zu Datenbanküberschneidungen führen würde (siehe Diagramm). Spezialisierte Datenbanken würden weiterhin erfolgreich sein, aber sie würden Funktionen hinzufügen, die sich mit anderen Datenformen überschneiden, wie etwa relationalen Datenbanken, die JSON-Dokumente abfragen, oder für dokumentorientierte Datenbanken SQL-ähnliche Abfragesprachen. Dies ist nützlich, um die große Basis von SQL-Entwicklern zu stärken und ihnen zusätzliche Abfragefunktionen zu geben. Die Tatsache, dass beispielsweise Oracle oder IBM Db2 JSON abfragen konnten, sollte jedoch nicht die Notwendigkeit von MongoDB ersetzen; Stattdessen betrachteten wir sie als Randfälle, ob die Linienorganisation, die mit einer Kundentransaktionsdatenbank arbeitet, auch die Möglichkeit wünschte, nicht relationale Daten zum Kundenprofil abzufragen.

Übrigens haben wir in derselben Recherche die Frage gestellt, wem die Abfrage “besitzen” würde. Geben Sie die aktuelle Ära der Datenkataloge ein.

Wie wir in Teil I unseres Ausblicks für 2020 festgestellt haben, wird unsere Ansicht, dass Unternehmen zunehmend Cloud-native als ihre Standard-Bereitstellungswahl betrachten werden, diese fast uralte Debatte einfach eskalieren. Wir nehmen an, dass es keine einzige binäre Antwort gibt.

Verstehen Sie uns nicht falsch, zweckmäßige Datenbanken sind hier, um zu bleiben. Wenn sich der Anwendungsfall stark auf einen einzelnen Datentyp konzentriert, ist eine Datenbank, die als Multi-Modell hochgestuft wird, übertrieben. Es stellt sich auch die Frage nach hochentwickelten Fähigkeiten, wie zum Beispiel das Schreiben extrem komplexer SQL-Anweisungen, die mehrere Tabellen-Joins erfordern, oder Graph-Abfragen, die über drei Hops laufen. Für diese ist es am besten, bei den Besten ihrer Klasse zu bleiben.

Wir erwarten aber auch, dass Randfälle, die eine Mischung aus Datenzugriffsansätzen erfordern, weitaus häufiger vorkommen werden. Kombinieren Sie ein Asset-Management-Transaktionssystem mit IoT-Daten für die Planung der Wartung oder ein Supply-Chain-Planungssystem mit mobilen und IoT-Daten, und Sie haben ein einsatzbereites Argument für die Erweiterbarkeit.

Und hier würden wir gerne die Cloud-nativen Datenbankanbieter sehen, die auf die Platte kommen. Da einige ihrer Plattformen bereits APIs verwenden, um Daten bereitzustellen, sollten sie das Potenzial ausschöpfen, mehrere Pfade zu den Daten bereitzustellen, beispielsweise durch die Kombination von SQL, JSON, Graph und/oder Suche. Es geht nicht nur darum, SQL zu erweitern. Wir erwarten, dass wir in diesem Jahr von jedem der großen Anbieter von Cloud-Datenbanken mehr über übergreifende Funktionen erfahren.

Unser Datenausblick für 2020 besteht aus zwei Teilen. Für Teil I, der die Hybrid-Default-Cloud abdeckt, Klicke hier.

Leave a Comment