beyond touch sprachassistent

Article

Megatrend Sprachassistent: Wie Alexa & Co. den Markt aufmischen

Deloitte-Experten analysieren in der Studie „Beyond Touch: Voice-Commerce 2030“ Chancen und Risiken für Händler und Hersteller

Der Siegeszug von cloudbasierten Sprachassistenten scheint unaufhaltsam. Mit ihrer schnellen Verbreitung eröffnet sich vielen Branchen ein neuer Kanal zum Verbraucher. Der Haken: Auf diesem Weg können große Tech-Firmen wie Amazon und Google zentrale Kontaktpunkte zu den Kunden besetzen. Was bedeutet das für die Zukunft des Verkaufskanals Voice in Unternehmen? Deloitte hat vier Szenarien entworfen, die für Hersteller und Händler von größter strategischer Bedeutung sind.

Die Vorstellung von einem Computer, der nur über das gesprochene Wort bedient wird, war lange Zeit Science-Fiction. Etwa in der „Star Trek“ TV-Serie, wenn Captain Kirk und Mr. Spock an Bord des Raumschiffs USS Enterprise galaktisch schwierige Fragen stellen und umgehend eine freundliche Computerstimme die gewünschte Auskunft gibt – bis auf die Kommastelle genau. Heute, ein halbes Jahrhundert später, ist diese Vision Wirklichkeit geworden. Technische Geräte reagieren auf Sprache schon fast ebenso zuverlässig wie auf die Eingabe über Maus, Tastatur oder Screen. Und das überall, wo es einen Internetzugang gibt: im Wohnzimmer, im Auto und beim Joggen.

Im Alltag ist das höchst praktisch – nichts muss bei einem Sprachassistenten eingeschaltet, keine App geöffnet und nicht eine Funktion darin gesucht und angeklickt werden. Die Sprachsteuerung funktioniert viel einfacher. Nur das Aktivierungswort aussprechen – und einen Satz später erfahren wir zum Beispiel, in welchem Geschäft in der Nähe wir einen von uns gesuchten Artikel finden können. Und wenn gewünscht, aktiviert sich automatisch der Bestellvorgang in einem Online-Shop.

Die freihändige Art der Kommunikation über Smartphone oder smarte Lautsprecher funktioniert so einfach, dass ihr Siegeszug unaufhaltsam erscheint. Schon 2017 wurden weltweit 33,3 Millionen Smart Speaker verkauft. Pro Woche werden laut Deloitte Hochrechnung zwei Milliarden Voice-Anfragen gestellt. Und es ist zu erwarten, dass der globale Markt für smarte Lautsprecher bis zum Jahr 2022 durchschnittlich um mehr als 30 Prozent pro Jahr wachsen wird.

Mit künstlicher Intelligenz zur Hochleistungstechnologie

Tatsächlich griffen die Macher der TV-Serie „Star Trek“ Ende der 60er Jahre eine technologische Entwicklung auf, an der bereits ein Jahrzehnt früher geforscht wurde. Zunächst beschränkte sich die Fähigkeit zur maschinellen Spracherkennung darauf, eine einzige Stimme und ein knappes Dutzend Wörter zu identifizieren. In der Folge entwickelten IBM und das US-Verteidigungsministerium mit seiner Agentur DARPA die Systeme weiter, sodass in den 80er-Jahren bereits etwa 20.000 Wörter erkannt wurden und im folgenden Jahrzehnt die erste kommerzielle Anwendung einer Spracherkennungssoftware möglich war. Von einer maschinellen Intelligenz, die Zusammenhänge herstellen und ihrerseits verbal reagieren kann, war diese Spracherkennung aber noch weit entfernt. Erste bescheidene Ansätze eines responsiven Systems beschränkten sich auf Anwendungen in Callcentern, bei denen der Kunde durch das Nennen von Ziffern anhand eines Entscheidungsbaums schrittweise durch ein Menü geführt wurde.

Erst der technologische Fortschritt der zugrundeliegenden künstlichen Intelligenz ermöglicht heute eine effektive Spracherkennung. Sie basiert auf dem Zusammenspiel von vier Kerntechnologien:

  • Automated Speech Recognition (ASR) sorgt für die Umwandlung der Spracheingabe in Textform
  • Natural Language Processing (NLP) ermöglicht die Zuordnung einer Bedeutung zu einzelnen Textfragmenten
  • Dialog Manager (DM) veranlasst die Entscheidung und Durchführung notwendiger Schritte zur Beantwortung der Anfrage
  • Text-to-Speech (TTS) übernimmt die Text- oder Sprachausgabe einer Antwort zur Anfrage

Gleichzeitig sind leistungsstarke, moderne Prozessoren in der Lage, statistische Modelle künstlicher Intelligenz zu verarbeiten, sodass zusammen mit großen Mengen strukturierter Daten fortgeschrittene Analytics machbar wird. Der Nutzen von Sprachassistenzsystemen erhöht sich zusätzlich dadurch, dass die Sprachausgabe in immer mehr Sprachen erfolgt und Metadaten im Kontext intensiver genutzt werden können. Dies führt zu einer nahezu natürlichen Interaktion mit Maschinen und beschleunigt die Verbreitung von Geräten mit Sprachsteuerung exponentiell.

A Glimpse into the Future of Shopping

Das drohende Oligopol der Tech-Giganten

Weltweit führend sind beim Thema Sprachassistenten die drei großen Tech-Firmen Google, Amazon und Apple. Amazon verfolgt bei der Hardware eine offene Lizenzpolitik, sodass viele andere Hardware-Hersteller Amazons cloudbasierten Sprachdienst Alexa nutzen. Bei der regionalen Abdeckung mit Voice-assisted Interfaces führt Amazon das Feld an. Allerdings nutzt Amazon international vorwiegend die englischsprachige Version, was die Funktionalität einschränkt, aber eine schnelle Marktabdeckung mit einheitlichen Produkten ermöglicht.

Google Assistant ist im firmeneigenen Speaker Google Home sowie auch auf vielen Geräten externer Hersteller verfügbar. Die Expansion von Google erfolgt langsamer als bei Amazon, dafür jedoch zielgerichteter. Hier sticht insbesondere die hohe Zahl verfügbarer Sprachen heraus.

Dagegen verfolgt Apple mit seinem Voice-assisted Interface Siri eine restriktive Lizenzpolitik und nutzt primär eigene Hardware. Apple legt dabei besonderen Wert auf Qualität und Individualisierung, zudem bietet Siri die breiteste Palette an Sprachen an.

Die offene Lizenzpolitik von Amazon und Google führt zu einer größeren Reichweite und Nutzung ihrer Sprachassistenzsysteme über Hardware von Drittanbietern, sodass Alexa und Google Assistant dabei sind, sich als hardwareübergreifende Standards zu etablieren.


Die neuen Herausforderungen für Unternehmen

Die weit entwickelten Kommunikationsmöglichkeiten zwischen Mensch und Maschine und deren rasante Verbreitung werden die Verhaltensmuster von Verbrauchern voraussichtlich in hohem Maße beeinflussen und weitreichende Veränderungen für Hersteller, Händler und Kunden mit sich bringen – von der Automobilbranche über Finanzdienstleister bis hin zum Handel mit Konsumgütern.

Was für den Kunden ein nahezu schrankenloses Einkaufserlebnis verspricht, zieht für Unternehmen erhebliche Unsicherheiten nach sich. Zwar eröffnen Voice-assisted Interfaces neue Verkaufskanäle. Doch geben Unternehmen zwangsläufig die Kontrolle über einen erheblichen Teil ihres Kundenzugangs ab, wenn die Anbieter der Technologie wie Google, Amazon und Apple den Kontakt zum Verbraucher herstellen.
Heute stehen wir am Anfang einer Entwicklung, die für Unternehmen drei zentrale Fragen aufwirft.

  • Welchen Einfluss haben Sprachassistenten auf die Zukunft des Einkaufens? 
  • Welche Konsequenzen ergeben sich für Händler, Hersteller und Konsumenten? 
  • Und welche strategischen Fragestellungen sollten sich einzelne Marktteilnehmer stellen, um sich optimal aufzustellen?

Aus diesen drei übergreifenden Punkten, lassen sich eine Vielzahl weiterer Fragen ableiten, deren Beantwortung für den Erfolg eines Unternehmens im Bereich Voice-Commerce ausschlaggebend sind.

Neben ihrer Funktion als Kanal zum Kunden können Voice-assisted Interfaces auch einen maßgeblichen Einfluss auf Backend-Prozesse haben. Hier schlummert in diversen Bereichen ein großes Potenzial, das durch den Einsatz von Sprachassistenten realisiert werden kann, wie z.B. in der Effizienzsteigerung von Lager- und Logistikprozessen oder als Unterstützung während der Ausführung manueller Tätigkeiten. So gibt es eine Vielzahl potenzieller Use Cases von Voice-assisted Interfaces in professionellen Anwendungsgebieten, in denen übergreifende Vernetztung von Prozessen, Personen und Geräten eine große Rolle spielt.

Am Beispiel von Einzelhandel und Herstellern der Konsumgüterbranche hat die Strategieberatung Monitor Deloitte mithilfe von künstlicher Intelligenz, Szenariodesign, erfahrenen Experten des Deloitte Center for the Long View sowie mithilfe der Expertise von Technologie- und Branchenexperten vier Szenarien zur Zukunft von Voice-assisted Interfaces entwickelt. Sie bilden den jeweiligen Einfluss auf das Einkaufserlebnis ab und leiten daraus Implikationen für alle Marktteilnehmer ab.

Die vier plausibelsten Szenarien für den Kanal Voice im Jahr 2030

Sprachunterstützte Schnittstellen haben eine technologische Reife erreicht, mit der sie genügend Wert generieren, um für Verbraucher und Unternehmen relevant zu werden. Da sich die Technologie aber noch in einer recht frühen Phase ihrer Marktdurchdringung befindet, lässt sich ihr Einfluss auf den europäischen Einzelhandel nicht sicher bestimmen. Tendenziell kann der Kanal Voice für Verbraucher das Einkaufen erleichtern, indem er allgegenwärtig wird, aufgrund einer umfassenden Datenbasis Orientierung bietet und die Bedürfnisse der Verbraucher so optimal erfüllen kann. Da die Interaktion mit Sprachassistenten eine hohe Transparenz der Kundendaten erfordert, wird ihr Erfolg stark durch die Bereitschaft der Verbraucher zur Weitergabe ihrer Daten sowie das Vertrauen in die Datensicherheit des jeweiligen Anbieters beeinflusst.

Für Einzelhändler und Konsumgüterunternehmen stellen sprachgestützte Schnittstellen die Herausforderung dar, Marketing-, Vertriebs-und Backend-Prozesse entsprechend anzupassen. Sie bieten aber auch eine große Chance, von Erkenntnissen über die Erwartungen der Verbraucher und den direkten Zugang zu ihnen zu profitieren. Da Technologieanbieter damit beginnen, einen zentralen Knoten in der Wertschöpfungskette des Einzelhandels zu besetzen, besteht für Einzelhändler und Konsumgüterunternehmen zugleich die Gefahr, die Kontrolle über ihre Kundenkontakte zu verlieren. Zusätzlich können die Technologieanbieter Einzelhandelsaktivitäten übernehmen und zu starken Mitbewerbern werden.

Die Experten von Monitor Deloitte haben die vier folgenden Szenarien entworfen, um in der Studie „Beyond Touch: Voice-Commerce 2030“ das Spektrum wahrscheinlicher Entwicklungen des Kanals Voice im Einzelhandel und in Konsumgüterunternehmen bis 2030 abzubilden.

Klicken Sie hier für eine vergrößerte Ansicht

Szenario 1: Das neue Internet

In diesem Szenario haben sprachgestützte Schnittstellen einen maßgeblichen Einfluss auf das Einkaufsverhalten und die Marktdynamik; die Marktteilnehmer kollaborieren in einem offenen System. Spracherkennung ist nicht nur auf dem Smartphone vollständig mit anderen Technologien wie Bilderkennung und Sensorik verbunden. Die Art des Einkaufens hat sich dadurch komplett verändert. Datengesteuerte Analysen und die Verbindung von intelligenten Geräten ermöglichen vorhersagbares und automatisiertes Einkaufen. Die Relevanz des Handels hat abgenommen, und großvolumige Einkäufe werden über Direktverkäufe getätigt. Neue Logistikdienstleister kümmern sich 24/7 um die Lieferung direkt nach Hause.

Voraussetzungen für das Eintreten dieses Szenarios:

Die großen Provider von Voice-assisted Interfaces bieten ihre Technologie und Daten (aus strategischen Gründen oder aufgrund regulatorischer Verpflichtung) als Open Source an und haben ihre Ertragsmodelle entsprechend angepasst. Händler und Hersteller haben die Chance, die Potenziale eines integrierten technologischen Ökosystems für sich zu nutzen. Verbraucher sind aufgrund des großen Mehrwerts, den die Voice-Assistant-Nutzung verspricht, bereit, ihre persönlichen Daten offenzulegen.

  • Für Hersteller ist dies eines der besten Szenarien. Durch die Chance des Direktvertriebs können sie Händler umgehen und damit höhere Margen erzielen. Insbesondere für große Hersteller im Non-Food Bereich ist dies vorteilhaft, da sie Skaleneffekte nutzen können. Zudem erweist sich die bestehende Markenpräsenz für A-Brands als Vorteil.
  • Für Händler ist diese Szenario vor allem im Food Bereich eher negativ zu bewerten, da eine Kanalverschiebung in Richtung des kostenintensiven Versandhandels zu erwarten ist. Es herrscht hoher Preisdruck, Fulfillment-Kompetenz wird zum Wettbewerbsfaktor. Entscheidend für den Erfolg sind Kundenbindung sowie analytische Fähigkeiten, um zum Beispiel durch künstliche Intelligenz generierte Warenkörbe zu erstellen, die den Kunden ein komfortables Einkaufen ermöglichen. Im Bereich der Non-Food Händler sind außerdem Customer Experience und Kuration wichtige Wettbewerbsfaktoren.

Szenario 2: Das Zeitalter heterogener Allianzen

In diesem Szenario agieren die Marktteilnehmer sehr kooperativ. Händler und Hersteller schließen sich zusammen, um gegen die großen Technologie-Provider zu bestehen. Sie nutzen eigens entwickelte Sprachassistenz-Technologien, die auf verschiedenen Standards beruhen. Daten werden in einem offenen System innerhalb einer Allianz ausgetauscht, aber technologische Hürden erlauben keinen aktiven Austausch über Allianzgrenzen hinweg.

Voraussetzungen für das Eintreten dieses Szenarios:

Um ihre Unabhängigkeit zu sichern, haben sich Marktteilnehmer aus unterschiedlichen Bereichen zusammengeschlossen und ihren eigenen Technologiestandard geschaffen. Vorübergehend wurden die Systeme der großen Technologie-Provider genutzt, jedoch wenden sich die Allianzen von diesen ab, sobald sie technisch dazu in der Lage sind. Allianzübergreifend sind Technologien und Geräte nicht integriert und Voice wird eher als isolierter Kanal genutzt.

  • Für Hersteller ist dieses Szenario am schwierigsten zu bewerten. Die Auswahl einer starken Allianz ist überlebenswichtig, was aufgrund eines volatilen und undurchsichtigen Marktes aber schwierig ist. Wer versucht, dieses Problem durch mehrere Allianzen zu umgehen, muss mit hohen Kosten und erheblichem Aufwand rechnen. Im Non-Food Bereich ist aufgrund fehlender Cross-Media Einsätze eine geringe Relevanz für High-Involvement-Produkte zu erwarten.
  • So kritisch dieses Szenario für Hersteller ist, so sehr können vor allem große Händler profitieren. Sie haben die Möglichkeit, zum Mittelpunkt einer Allianz zu werden und von der Verschiebung der Marktanteile zu profitieren.

Szenario 3: Altes Europa

In diesem Szenario verhindern die Verschärfung des Kartellrechts zur Vermeidung von Monopolen und strenge Datenschutzrichtlinien, dass sich übergreifende Lösungen für sprachgestützte Schnittstellen zwischen den Marktteilnehmern durchsetzen. Der Markt für den Kanal Voice besteht aus nicht integrierten Silo-Lösungen einzelner Marktteilnehmer und liefert Verbrauchern nur marginalen Mehrwert.

Voraussetzungen für das Eintreten dieses Szenarios:

Strenge Regulatorik verbietet die extensive Nutzung personenbezogener Daten, sodass die Vernetzung über Technologien und Marktteilnehmer hinweg nicht möglich ist. Als Konsequenz betreiben Technologie-Provider sowie große Händler und Hersteller jeweils ihre eigenen Insellösungen.

  • Für Hersteller enthält dieses Szenario große Herausforderungen. Voice Commerce wird nur für breite Produktportfolios genutzt werden. Somit sind eher Händler-Anwendungen zu erwarten, insbesondere im niedrigpreisigen Low-Involvement-Bereich.
  • Für Händler ist dieses Szenario positiv zu bewerten, denn Voice Commerce bietet die Chance, Eigenmarken stärker zu platzieren und so die Marge zu erhöhen.

Szenario 4: Die Welt der Aggregatoren

Im diesem Szenario kontrollieren die Provider von Sprachassistenten den Marktzugang für Anbieter und Verbraucher. Es bestehen geschlossene, technologisch integrierte Systeme, die als Oligopole von den großen Technologiefirmen kontrolliert werden. Diese können als Gatekeeper Angebot und Nachfrage maßgeblich beeinflussen. In dieser Welt haben sich die großen Technologie-Provider durchgesetzt und das Einkaufen durch ihre geschlossenen Systeme von sprachgestützten Schnittstellen neu definiert. Der Kanal Voice ist zwar stark integriert, die Zusammenarbeit zwischen den Marktteilnehmern bleibt jedoch schwach. Big Data Analytics bietet den Tech-Firmen vollständige Kundentransparenz, die genutzt wird, um über datenbasiertes Marketing und prädiktive Serviceangebote eine größere Kundenbasis zu gewinnen.

Voraussetzungen für das Eintreten dieses Szenarios:

Der Vorsprung der Technologie-Provider ist so groß, dass Händler und Hersteller darauf angewiesen sind, das Voice-Ökosystem eines der Marktführer zu nutzen. Durch die hohe technologische Integration ist der Voice-Assistant omnipräsent. Er bietet einen so großen Mehrwert, dass kein Weg an ihm vorbeiführt. Der Staat engagiert sich mit Maßnahmen zum Datenschutz und Kartellrecht nur zurückhaltend. Verbraucher vertrauen den Technologie-Providern und akzeptieren sie als „neue Händler“. 


  • Für Hersteller ist dies ein positives Szenario. Ähnlich wie bei Szenario 1 ist auch hier der Direktvertrieb einfacher möglich. Es findet eine Kanalverschiebung zu Tech-Providern statt, sodass die mühsam aufgebauten Beziehungen zu Händlern mehr und mehr bröckeln. Durch eine rechtzeitige Verschiebung des Marketingbudgets in Richtung Recommender Marketing kann dies aber langfristig sehr positive Auswirkungen haben – zum Beispiel durch ein zwar kostenintensives, aber effektives Targeting. Zudem stärkt vor allem im Non-Food Bereich eine starke Marke die Marktposition.
  • Für Händler ist die Welt der Aggregatoren das Szenario mit den größten Herausforderungen. Sie verlieren die wertvolle digitale Kundenschnittstelle an die Tech-Provider. Der stark erhöhte Preisdruck führt zu geringeren Margen. Um langfristig erfolgreich und profitabel im Markt zu bestehen, sind neue Geschäftsmodelle notwendig.

Jedes der oben entwickelten Szenarien ist plausibel und stellt für die Marktteilnehmer eine große Herausforderung dar. Um das Potenzial von Sprachassistenten zu nutzen und aus dem zusätzlichen Kundenkontaktpunkt einen Absatzkanal zu machen, wird eine Strategie benötigt, die dem spezifischen Geschäftsfeld des Unternehmens, der jeweiligen Marktpositionierung sowie den plausibelsten Zukunftserwartungen entspricht.

Bei der Vorbereitung auf diese Herausforderungen kann Deloitte Unternehmen von der Strategie bis zur schlüsselfertigen Umsetzung mit einem Bündel von Maßnahmen unterstützen.

Unser Deloitte-Service

Die Grundlage für eine zielführende Strategie, die auf unternehmerische Unsicherheiten vorbereitet, ist die Analyse der individuellen Risiken und Chancen. Basierend auf dieser Bewertung können Unternehmen einen Weg entwickeln, der flexibel genug ist, um sich immer wieder ändernden Bedingungen anzupassen. Unser Service erfolgt dabei in fünf Schritten.

1. Zunächst erfolgt die Klärung, wie relevant das Thema „voice-assisted Interfaces“ für das Unternehmen konkret ist. Dabei werden alle Risiken und Chancen geprüft, die in Verbindung zur Sprachsteuerung stehen. Mittels dediziertem Impact Assessment kann der Einfluss von Voice-Technologien auf bestehende Geschäftsfelder und Kundenstrukturen für ein Unternehmen individuell analysiert werden.  Folgende Fragen stehen hierbei im Fokus: Was bedeuten voice-assisted Interfaces für das Geschäftsfeld, in dem das Unternehmen aktiv ist? Welche direkten Konsequenzen hat die Entwicklung von voice-assisted Interfaces für das Unternehmen? Welche Kundenstruktur strebt es an? Welche finanziellen Ziele sind gesteckt? Was ist das gewünschte Risikoprofil? Und schließlich: Wie sinnvoll ist es, auf dieser Basis einen Business Case zu rechnen?

2. Im zweiten Schritt werden die Geschäftsprozesse identifiziert, in denen die neue Technologie eingesetzt werden kann. Hierfür kommen zum Beispiel Marketing-, Vertriebs- und Backend-Prozesse infrage. Auch die Herausforderung, den Kanal Voice mit bereits bestehenden Technologien des Unternehmens zu verbinden, wird analysiert. Auf dieser Basis kann eine belastbare Entscheidung getroffen werden, welche Handlungsoptionen auf Basis unterschiedlicher Szenarien als die vorrangigsten anzusehen sind.

3. Im Anschluss an die Identifizierung der relevantesten Optionen setzen Unternehmensmanagement und Deloitte gemeinsam konkrete Use Cases auf. Sie sollen zeigen, wie gut der Lösungsansatz funktionieren kann und was sie für den Unternehmenserfolg bewirken können.

4. Im vierten Schritt geht es darum, die Umsetzung der Maßnahmen zu strukturieren. Je nachdem, ob das Unternehmen eine Einzellösung oder eine Kooperation mit anderen Unternehmen präferiert, unterstützt Deloitte das Management durch die Kollaboration mit Know-how-Trägern des Deloitte-Netzwerks. Ziel ist es, die passenden Partner aus unterschiedlichen Branchen zusammenzubringen, einen Kosten- und Betriebsplan aufzustellen und zu analysieren, welche technologischen Anforderung im konkreten Fall erfüllt werden müssen.
Bei einer Kooperation mit anderen Unternehmen empfiehlt es sich häufig, in dieser Phase einen neuen Szenario-Prozess aufzusetzen, der die erforderlichen Fähigkeiten für verschiedene Geschäftsfeld-Verläufe untersucht.

5. Abschließend begleitet Deloitte die Umsetzung der festgelegten Maßnahmen bis zur schlüsselfertigen Lösung. Insbesondere wenn mehrere neue Partner (vielleicht sogar direkte Mitbewerber) eine gemeinsame Strategie erarbeiten wollen, erweist sich diese Begleitung als zielführend – vom Aufbau einer belastbaren Governance-Struktur bis hin zur Entwicklung eines Businessplans und dem Aufbau der erforderlichen IT-Architektur.

In diesem Prozess gestaltet Deloitte die Handlungsoptionen gemeinsam mit dem Kunden und steuert den Beratungsprozess und die Umsetzung dabei so, dass das Unternehmen am Ende eine einsatzbereite Lösung erhält, die es allein weiterbetreiben kann.

Erfahren Sie mehr zur Zukunft des Kanals Voice im Handel in unserem Interview mit Christian Bärwind, Industry Leader Retail, Strategic Partnerships bei Google. 

Fanden Sie diese Information hilfreich?