PODCAST: Warum gutes Audio essentiell ist in einer virtuellen Welt

Hören Sie sich jetzt die komplette Episode an:
In einer Welt, in der virtuelle Interaktionen dominieren, entscheidet oft ein Element darüber, ob diese Erlebnisse authentisch und vertrauenswürdig wirken: der Klang.
In dieser Episode des MIT Technology Review Business Lab beleuchten zwei Experten die wissenschaftlichen und strategischen Grundlagen von Audio in digitalen Umgebungen:
- Erik Vaveris, Vice President of Product Management und CMO bei Shure, einem weltweit führenden Unternehmen für Audio-Innovation.
- Brian Scholl, Forscher an der Yale University mit Schwerpunkt Wahrnehmungs- und Kognitionswissenschaft.
Gemeinsam untersuchen sie, wie Klang menschliche Verbindungen in virtuellen Umgebungen beeinflusst – und warum Unternehmen Audioqualität ebenso priorisieren sollten wie Video.
Die Forschung von Brian Scholl: Sound und Glaubwürdigkeit
Brians Arbeit an der Yale University zeigt eine faszinierende Erkenntnis: Audioqualität beeinflusst direkt die wahrgenommene Glaubwürdigkeit und Vertrauenswürdigkeit. . In virtuellen Meetings kann schlechte Audioqualität unbewusst Inkompetenz oder fehlende Autorität signalisieren, während klares, konsistentes Audio Vertrauen und Engagement stärkt. Diese Erkenntnis ist entscheidend für Führungskräfte, Lehrende und alle, die in digitalen Räumen kommunizieren.
Das erwartet Sie in dieser Episode
- Warum Sound für immersive virtuelle Erlebnisse entscheidend ist.
- Die Psychologie der Audio-Wahrnehmung und ihr Einfluss auf Engagement und Vertrauen.
- Wie Unternehmen Sound Design für eine bessere Zusammenarbeit nutzen können.
- Praxisnahe Tipps zur Optimierung von Audio in hybriden und Remote-Arbeitsumgebungen.
Warum das wichtig ist
Da virtuelle Meetings, Events und Unterrichtsformate zum Standard werden, kann Audioqualität über Erfolg oder Misserfolg der Kommunikation entscheiden. . Erik und Brian teilen Einblicke, die Führungskräften und Teams helfen, ihren Umgang mit Audio im digitalen Zeitalter neu zu denken.
Tauchen Sie tiefer ein in die neueste Erkenntnisse von IDC über die digitale Transformation und erfahren Sie, wie die Zusammenarbeit von Mitarbeitern messbare Auswirkungen auf das Unternehmen hat.
Vollständiges Transkript
Megan Tatum:Von MIT Technology Review, ich bin Megan Tatum, und dies ist Business Lab, die Sendung, die Führungskräften aus der Wirtschaft hilft, den Sinn neuer Technologien zu verstehen, die aus dem Labor auf den Markt kommen.
Diese Folge wurde in Zusammenarbeit mit Shure produziert.
Unser heutiges Thema ist die Wichtigkeit des Sounds. Da unser privates und berufliches Leben zunehmend virtuell wird, entwickelt sich Audio zu einem zentralen Werkzeug – von Remote‑Arbeit über virtuelle Konferenzen bis hin zu virtuellen After-Work-Events. Während bei Videokonferenzen und Streams häufig das Erscheinungsbild im Fokus steht, ist Audio mindestens genauso wichtig – nicht nur für effektive Kommunikation, sondern auch für die Markenwahrnehmung von Sprecher:innen und Unternehmen.
Ein Wort ist hier besonders Wichtig: kristallklar.
Meine heutigen Gäste sind Erik Vaveris, Vice President Product Management und Chief Marketing Officer bei Shure, sowie Brian Scholl, Leiter des Perception & Cognition Laboratory an der Yale University.
Willkommen, Erik und Brian.
Erik Vaveris: Vielen Dank, Megan. Und hallo, Brian. Ich freue mich, heute hier zu sein.
Brian Scholl: Guten Tag zusammen.
Megan:Fantastisch. Vielen Dank, dass Sie beide hier sind. Erik, lassen Sie uns mit etwas Hintergrundinformationen beginnen. Ich vermute, die Pandemie hat die Audiobranche in vielerlei Hinsicht spürbar verändert – durch den schnellen Wechsel zu unseren heutigen Remote- und Hybrid-Arbeitsweisen. Kannst du ein wenig über diese Entwicklung sprechen – und über spannende Audio-Innovationen, die aus diesem grundlegenden Wandel entstanden sind?
Erik:Auf jeden Fall, Megan. Es ist spannend, heute – im Jahr 2025 – darüber nachzudenken. Wenn man sich zurückversetzt in 2020, als alles komplett heruntergefahren war und praktisch alles remote stattfand, wurde die Bedeutung von guter Audioqualität sofort offensichtlich. Als Menschen quasi über Nacht Zoom, Teams oder ähnliche Plattformen nutzten, gab es viele technische Herausforderungen – doch wie stark sie sich über ihre Audioqualität präsentieren, war deutlich weniger präsent. Wie Brian in vielen Pressebeiträgen zu seiner großartigen Studie anmerkt: Wir wissen, wie wir im Video aussehen. Wir sehen uns selbst auf dem Bildschirm – aber wir wissen nicht, wie wir für die Menschen klingen, mit denen wir sprechen.
Wenn Teilnehmende auf der anderen Seite die Worte gerade noch verstehen können, melden sie sich meist nicht und sagen: „Ich habe gerade Probleme, dich zu hören.“ Sie lassen das Meeting einfach weiterlaufen. Und wenn die Audioqualität nicht wirklich gut ist, verlangt man von seinen Gesprächspartnern viel zu viel kognitive „Rechenleistung“, nur um überhaupt die Worte zu entschlüsseln, die man sagt. Und es wird ermüdend sein, überhaupt nur zuzuhören. Und die eigene Botschaft wird nicht ankommen. Im Gegensatz dazu kannst du – wenn du dir bei deinem Audio-Setup kurz Zeit nimmst – die volle Wirkung deiner Botschaft transportieren und dich selbst authentisch präsentieren: gegenüber Kolleginnen und Kollegen, Mitarbeitenden, Vorgesetzten, Lieferanten – und natürlich Kundinnen und Kunden. Schon 2020 wurde das sehr schnell zu einer Marketing-Story, die wir sofort erzählen mussten.
Und ich muss sagen: Es ist unglaublich erfreulich, Brians Forschung in den Nachrichten zu sehen – für mich war das wie: „Ja, genau das erleben wir. Und genau darüber versuchen wir, Menschen aufzuklären.“ Dass es dafür belastbare Wissenschaft als Grundlage gibt, bedeutet viel. In der Folge hat sich die Entwicklung besserer Audio-Processing-Algorithmen in der gesamten AV-Branche deutlich beschleunigt.
Ich glaube, Megan und Brian, ihr erinnert euch an lautes Tastaturklacken in Calls und Leute, die Chips essen – solche Dinge hat man damals ständig gehört. Heute hört man das viel weniger, weil die meisten Plattformen in KI-trainierte Algorithmen investiert haben, um unerwünschte Geräusche zu entfernen. Und ich weiß, dass wir später noch mehr darüber sprechen werden.
Zum Glück ist noch etwas passiert: Im späten Frühjahr und Sommer 2020 wurde Bildungseinrichtungen – vor allem Universitäten – und auch Unternehmen klar, dass sich sehr schnell etwas ändern musste. Nichts würde mehr so sein wie zuvor. Universitäten erkannten, dass alle Unterrichtsräume hybride Fähigkeiten brauchen – für Remote-Studierende genauso wie für Studierende im Raum. Das half dem Markt für professionelle AV-Technik, sich zu erholen, weil wir in den ersten Monaten zuvor praktisch komplett stillstanden. Und dieser Fokus auf hybride Meeting- und Lernräume aller Art hat zusätzliche Investitionen und mehr F&E beschleunigt – sowohl in Geräte als auch in die Weiterentwicklung dieser zentralen Audio-Processing-Algorithmen für noch mehr Raumtypen und Use Cases. Seitdem sehen wir eine starke Verbreitung unterschiedlichster, unauffälliger Lösungen zur Audioaufnahme – basierend auf Mikrofon-Arrays und der dazugehörigen Signalverarbeitung. Und inzwischen ist Signalverarbeitung auf Basis von Machine Learning im Grunde der Standard. Und das alles hat sich leider durch die Pandemie beschleunigt.
Megan: Ja. Eine wirklich spannende Phase des Wandels, wie du sagst. Und Brian – was hast du in der Wissenschaft in dieser Zeit beobachtet und erlebt? Wie hat dieser Zeitraum die Arbeit in deinem Labor beeinflusst?
Brian:Ich gebe zu, Megan, bis zur Pandemie habe ich kein einziges Mal über Audioqualität oder Ähnliches nachgedacht. Ich wurde in diese Situation hineingeworfen, so wie der Rest der Welt auch. Ich glaube nicht, dass ich vor der Pandemie jemals eine einzige Videokonferenz mit Studierenden oder einer Lehrveranstaltung hatte. Aber in mancher Hinsicht waren unsere Erfahrungen an den Universitäten ziemlich extrem. Ich bin an einem Dienstag noch vor Ort vor 300 Studierenden gestanden – und am Donnerstag waren plötzlich alle auf Zoom. Business-Meetings gibt es in allen Formen und Größen. Aber das war ziemlich extrem. Plötzlich spreche ich über Zoom mit Hunderten von Menschen. Und jede einzelne Person weiß genau, wie ich klinge – außer ich selbst, denn ich spreche ganz normal und habe keine Ahnung, wie das durch all die verschiedenen technischen Ebenen übertragen wird.
Ein Teil der allgemeinen Erzählung über die Pandemie fokussiert auf all die negativen Seiten: weniger persönliche Verbindung, weniger Nuancen, und die Tatsache, dass wir nicht sehen können, wie aufmerksam alle einander folgen. Unsere Erfahrungen waren ein bisschen gemischter. Ich erzähle euch eine kurze Anekdote. Kurz nach Beginn der Pandemie begann ich ein Seminar mit etwa 20 Studenten. Und natürlich war das alles noch online. Ich habe dann Folgendes gemacht: Zu jedem Thema, das wir an einem Tag diskutierten, habe ich der Person geschrieben, die eindeutig die führende Expertin bzw. der führende Experte auf diesem Gebiet war. Ich habe gesagt: „Hey, bereite keinen Vortrag vor. Du musst keine Fragen beantworten. Komm einfach zu uns auf Zoom dazu und nimm an der Diskussion teil. Die Studierenden haben einige deiner Arbeiten gelesen.“
Jede einzelne Person sagte: „Lass mich kurz in meinen Kalender schauen.“ "Oh, ich sitze ein Jahr lang zu Hause fest." "Ja, sicher." "Das würde ich gerne tun." Und das war durchaus positiv. Die Studenten lernten dabei das Who is Who der Kognitionswissenschaft kennen. Und ja, es gab all diese technischen Schwierigkeiten – aber das wäre niemals passiert, wenn wir das Seminar in Präsenz unterrichtet hätten. Das wäre schlicht viel zu viel Reiseaufwand, Flugkosten, Hotel und Terminplanung gewesen. Für uns war es also ein gemischtes Bild.
Megan:Das ist faszinierend.
Erik:Ja. Megan, darf ich etwas ergänzen?
Megan:Natürlich.
Erik: Das ist wirklich interessant. Und das ist so eine coole Idee. Und es ist so wunderbar, dass das geklappt hat. Ich würde sagen, dass wir, die wir für ein globales Unternehmen arbeiten, gerne denken: "Oh, wir sind alle zusammen. Und wir haben diese Meetings. Und wir sind in demselben Raum", aber in Wirklichkeit waren wir gar nicht in demselben Raum. Und es wurde zu wenig darauf geachtet, wie schwierig es für Menschen ist, in Konferenzen nicht in ihrer Muttersprache und in einer anderen Zeitzone zu sprechen – in manchen Fällen spät am Abend. Die sofortige Umstellung auf Remote Work zu Beginn der Pandemie hat uns gezwungen, stärker über genau diese Interaktionen nachzudenken – und hat alle auf ein vergleichbar faires Spielfeld gebracht.
Und das war aufschlussreich. Und es hat einigen Menschen mehr Stimme und Sichtbarkeit in unserer Zusammenarbeit gegeben, als sie vielleicht vorher hatten. Und es hat Unternehmen insgesamt – darüber wurde viel geschrieben – deutlich stärker darauf fokussiert, dass Teilnehmende, ob zu Hause remote, im Büro, in anderen Büros oder in anderen Zeitzonen, wirklich auf Augenhöhe teilnehmen und zusammenarbeiten können. Und das ist positiv. Das ist eine gute Sache.
Megan: Absolut. Es gibt durchaus auch positive Nebeneffekte, nicht wahr? Und es hat dich, Brian, inspiriert, dir das genauer anzusehen. Du hast eine Studie durchgeführt, die zeigt, dass schlechte Audioqualität tatsächlich beeinflussen kann, wie Zuhörende Menschen wahrnehmen. Ich frage mich: Was hat die Studie ganz konkret ausgelöst? Und welche Daten habt ihr erhoben? Welche Methodik habt ihr verwendet?
Brian: Die Motivation für diese Studie war tatsächlich eine Erfahrung aus der Praxis – genau wie das, worüber wir gerade sprechen. Neben der Tatsache, dass all unsere Lehrveranstaltungen ohne Vorwarnung online gingen, galt das Gleiche auch für unsere Fachbereichs-Professorenmeetings. Schon sehr früh in der Pandemie hatten wir eines dieser Meetings. Und wir sprachen über einige strittige Fragen bezüglich der Einstellung von Mitarbeitern. Und zwei meiner Kollegen, die ich seit vielen, vielen Jahren sehr gut kenne, meldeten sich zu Wort, um ihre Meinung zu sagen. Und einer dieser Kollegen ist jemand, mit dem ich sehr eng befreundet bin. Wir sind fast immer auf einer Wellenlänge. Er war früher tatsächlich einmal mein Doktorand. Und wir sind in fast allen Fragen einer Meinung. Er nahm an diesem Meeting über einen alten, nicht gerade tollen Laptop teil. Seine Audioqualität hatte diesen vertraut „blechernen“ Klang, den wir alle kennen. Ich konnte alles verstehen, was er sagte, aber ich merkte, dass ich innerlich etwas skeptischer war.
Seine Argumente wirkten auf mich nicht so überzeugend wie sonst. Gleichzeitig gab es einen anderen Kollegen – jemanden, den ich sehr respektiere, mit dem ich zusammengearbeitet habe, bei dem wir aber nicht immer einer Meinung sind. Und er nahm an dieser ersten virtuellen Fakultätssitzung von seinem heimischen Tonstudio aus teil. Erik, ich weiß nicht, ob seine Ausrüstung auf deinem Level ist oder nicht, aber er klang besser als im echten Leben. Er klang so, als wäre er überall um uns herum. Und ich habe mich dabei ertappt, wie ich ihm ganz natürlich zustimmte, was in diesem Zusammenhang bemerkenswert und ein wenig überraschend war. Und so haben wir eine Studie daraus gemacht.
Wir haben den Leuten eine Reihe von kurzen Audio-Clips vorgespielt, etwa 30 Sekunden. Und wir haben diese Clips in sehr vertraute Situationen und Entscheidungen eingebettet. Ein Beispiel wäre eine Einstellungsentscheidung. Man hört einer Person zu, die erklärt, warum sie denkt, gut zu der Stelle zu passen. Und danach sollte man ein einfaches Urteil fällen. Es ging auch darum: Wie intelligent wirkte diese Person? Oder es konnte eine praxisnahe Entscheidung sein wie: „Wie wahrscheinlich wäre es, dass du, basierend darauf, diese Person einstellen würdest?“ Und entscheidend war: Wir ließen die Teilnehmenden exakt dieselben Skripte anhören – mit gezielten Anpassungen im Hintergrund, um die Audioqualität zu verändern. In einem Fall klang der Sound klar und deutlich. Aufgenommen mit einem anständigen Mikrofon. Und so hörte es sich an.
Audioclip: Nach acht Jahren im Vertrieb suche ich derzeit eine neue Herausforderung, bei der ich meine hohe Detailgenauigkeit und mein freundliches, professionelles Auftreten einbringen kann. Ich passe hervorragend zu Ihrem Unternehmen und werde Ihr Team als Senior Sales Manager wertvoll unterstützen.
Brian: Okay. Unabhängig davon, wie man den Inhalt dieser Aussage bewertet – zumindest ist sie klar und deutlich zu verstehen. Andere Testpersonen hörten exakt dieselbe Aufnahme. Allerdings hatte sie diesen bekannten ‚blechernen‘ Klang, den wir alle kennen, wenn Stimmen über ein weniger hochwertiges Mikrofon oder Setup übertragen werden. Das hörte sich so an.
Audioclip: Nach acht Jahren im Vertrieb suche ich derzeit eine neue Herausforderung, bei der ich meine hohe Detailgenauigkeit und mein freundliches, professionelles Auftreten einbringen kann. Ich passe hervorragend zu Ihrem Unternehmen und werde Ihr Team als Senior Sales Manager wertvoll unterstützen.
Brian: Was diese Aufnahme verdeutlichen soll: Obwohl sie das aufweist, was wir technisch als ‚nicht flüssigen‘ Klang bezeichnen – also schwerer zu verarbeiten ist –, bleibt sie verständlich. Megan, Erik, ihr konntet die Worte in der zweiten Aufnahme verstehen?
Megan: Absolut.
Erik: Ja.
Brian:Und wir haben uns vergewissert, dass dies für alle unsere Themen gilt. Nach diesen Bewertungen mussten sie eine wortgetreue Transkription anfertigen. Ich möchte außerdem betonen: Diese Manipulation kann sich offensichtlich nicht auf die Person selbst beziehen. So kann niemand im echten Gespräch klingen – selbst wenn man es versuchen würde. Stimmen verhalten sich einfach nicht so. Und dennoch beeinflusste dieser Klang – auf eigentlich irrationale Weise – zahlreiche Urteile über Menschen.
Die Personen wurden als rund acht Prozent weniger einstellungswürdig bewertet. Sie galten als etwa acht Prozent weniger intelligent. Wir haben das auch in anderem Kontext untersucht. Zum Beispiel im Dating-Kontext: Man hörte einen kurzen Audioclip einer Person und sollte einschätzen, wie wahrscheinlich ein Date wäre. Exakt dasselbe Ergebnis. Personen wurden als etwas weniger attraktiv wahrgenommen, wenn ihre Audioqualität ‚blecherner‘ war – obwohl sie vollständig verständlich waren.
Das aus meiner Sicht eindrucksvollste Ergebnis betraf jedoch einen anderen Clip. Dabei ging es um eine Person, die von einem Autounfall berichtete. Es war eine kurze Schilderung des Unfallhergangs. Sie sagte: "Hey, es war nicht meine Schuld. So ist es geschehen." Anschließend sollten die Teilnehmenden intuitiv bewerten, wie glaubwürdig sie die Geschichte einschätzten. Wurde sie mit hochwertiger Audioqualität aufgenommen, galten diese Aussagen als rund acht Prozent glaubwürdiger. Das sind also unsere Experimente. Sie zeigen letztlich die enorme Wirkung unserer Wahrnehmung. Wir wissen, dass dieser Klang nichts über die Person selbst aussagt – und dennoch entziehen wir uns diesen Eindrücken kaum. Und ich weiß nicht, wie es bei euch ist, aber Erik, ich glaube, du hast Recht, dass wir alle intuitiv verstehen, dass es schlecht ist, wenn wir Schwierigkeiten haben, verstanden zu werden, während wir reden. Aber wir sind der Meinung, solange man die Worte versteht, die ich sage, ist das schon in Ordnung. Diese Forschung zeigt deutlich, dass das nicht stimmt..
Megan:Das ist absolut faszinierend.
Erik:Wow.
Megan:Was denkst du, Erik, aus Sicht der Branche über diese Studienergebnisse? Hat dich das überrascht?
Erik: Nein, wie ich schon sagte, fand ich es sehr, sehr erfreulich, denn wir investieren viel, um sicherzustellen, dass die Menschen die Bedeutung von hochwertigem Audio verstehen, aber wir kommen irgendwie intuitiv darauf. Unser gesamtes Unternehmen besteht aus Audio-Expertinnen und -Experten. Natürlich denken wir auch so. Und es ist unsere Mission, Menschen überall zu besserem Klang zu verhelfen – ob im Gottesdienst, im Unterricht oder auf der Bühne. Als ich erstmals von Brians Studie in den Nachrichten gelesen habe – ich glaube, es war ein NPR-Artikel –, fühlte sich das wie eine Bestätigung meiner Arbeit an. Ich habe es gelesen und hatte das Gefühl, dass mein Lebenswerk in gewisser Weise bestätigt wurde. Überrascht waren wir nicht, aber es ergab vollkommen Sinn. Sagen wir es mal so.
Megan: Und wie..
Brian:Genau das hören wir auch von vielen Audio-Profis. Oh, Entschuldigung. Megan, ich wollte gerade sagen, dass wir das von vielen Audio-Fachleuten hören, die sagen: "Hey, ihr Wissenschaftler, ihr habt uns endlich eingeholt" Aber natürlich..
Erik: So würde ich das nicht sagen, Brian.
Brian:Erik, du befindest dich in einer ungewöhnlichen Situation, weil ihr jeden Tag über Audio nachdenkt. Wenn wir auf Zoom sind, kann ich das kleine Rechteck genauso gut sehen wie du. Ich kann genau sehen, wie ich aussehe. Ich kann die Beleuchtung überprüfen. Ich kontrolliere meine Frisur. Wir alle tun das jeden Tag. Aber ich würde sagen, dass die meisten Leute wirklich das Mikrofon benutzen, das zu ihrem Setup gehört, und keine Sekunde darüber nachdenken, wie sie klingen, weil sie nicht wissen, wie sie klingen.
Megan: Ja. Absolut.
Erik: Auf jeden Fall.
Megan:Wir vermeiden es auch, uns selbst zu hören. Ich denke, das ist üblich. Wir achten nicht so sehr auf das Audio, wie wir sollten. Ich frage mich, Erik, wie siehst du seit der Veröffentlichung der Studie diese Forschung sich in der Branche auswirken? Kannst du ein bisschen über die Bedeutung von starkem, klarem Audio in der heutigen virtuellen Welt und die Herausforderungen sprechen, denen Unternehmen und Mitarbeiter gegenüberstehen?
Erik: Ja. Sicher, Megan. Das ist eine gute Frage. Und Studien unterstützen das: Unternehmen verstehen, dass Zusammenarbeit der Schlüssel zu vielen Dingen ist, die wir tun. Sie wissen, dass dies von entscheidender Bedeutung ist. Und sie investieren darin, die Erfahrungen für die Menschen bei der Arbeit aufgrund dieses Wissens, dieses intuitiven Verständnisses, zu verbessern. Aber es gibt auch Herausforderungen. Und das kann teuer werden. Sie brauchen Lösungen, die Menschen, die in einen Raum gehen oder einer Besprechung auf ihrem persönlichen Gerät beitreten werden, motiviert sind zu nutzen und die sie nutzen können, weil sie einfach sind. Man muss auch die Investitionshindernisse überwinden. Wir in der AV-Branche mussten viel darüber nachdenken, wie wir die Gesamtbetriebskosten für die Einrichtung von AV-Technologie senken können, denn wie wir gesehen haben, sinken die Preise von allem, was in ein Produkt einfließt, nicht.
Die Vereinfachung von Bereitstellung und Verwaltung ist entscheidend. Über die reine Audiotechnologie hinaus sind IoT-Technologie und Cloud-Technologie für IT-Teams, um Klassenzimmer über einen gesamten Universitätscampus oder Konferenzräume über ein globales Unternehmen einfach bereitzustellen und zu verwalten, wirklich, wirklich entscheidend. Und diese entwickeln sich schnell weiter. Und Integrationen mit mehr standardmäßigen, gängigen IT-Tools kommen heraus. Und das ist nur ein Bereich. Auch für die End-User ist es wichtig, in jedem Konferenzraum das gleiche User Interface zu haben, das jeder von seinen persönlichen Geräten her kennt. Viele, viele Jahre lang haben viele Leute die Erfahrung gemacht: "Hey, es wird Zeit, dass wir ein Meetingabhalten." Und man hat vielleicht ein paar Räume in seinem Unternehmen oder in seinem Büro, in denen das möglich ist. Und man geht in den Besprechungsraum. Und wie lange dauert es dann, bis man tatsächlich mit den Personen verbunden werden, mit denen man sprechen will?
Es gibt den Witz, dass man immer die ersten 15 Minuten eines Meetings damit verbringen musste, das alles zu klären. Und das liegt daran, dass die Technologie fragmentiert war und man viel kundenspezifische Arbeit leisten musste, um das zu ermöglichen. Aber heutzutage würde ich sagen, Plattformen wie Zoom und Teams und Google und andere machen das wirklich gut. Wenn Sie das Neueste und Beste in Ihren Besprechungsräumen haben und wissen, wie man von seinem eigenen persönlichen Gerät beitritt, ist es im Grunde die gleiche Erfahrung. Und das vereinfacht den Prozess für alle. Die Kosten für den Besitz zu senken, damit Unternehmen die Vorteile der Zusammenarbeit nutzen können, ist gewissermaßen der Schlüssel.
Megan: Ich wollte fragen, ob wir etwas tiefer in diese Art von Audioqualität eintauchen könnten, die technologischen Fortschritte, die KI ermöglicht hat, was du dort leicht angesprochen hast, Erik. Was sind deiner Meinung nach die bedeutendsten Fortschritte? Und wie beeinflussen diese die Art und Weise, wie wir Audio nutzen, und die Dinge, die wir damit tun können?
Erik: Okay. Lass mich versuchen, das aufzuschlüsseln in..
Megan:Das ist eine wichtige Frage. Entschuldigung.
Erik:... ein paar verschiedene Bereiche. Ja, das ist es. Und eine, die einfach so aufregend ist. Die auf maschinellem Lernen basierende digitale Signalverarbeitung (Digital Signal Processing, DSP) ist da und mittlerweile die Norm. Wenn man an den Anfang von Telefonen und Telefonkonferenzen denkt, ganz weit zurück, war eines der ersten Probleme, das man hatte, wann immer man versuchte, etwas von einem Handy oder Laptop in einem Meeting abzuspielen, das Echo. Und ich bin sicher, dass wir das alle schon einmal in unserem Leben gehört haben. Man brauchte also eine Möglichkeit, Echo zu vermeiden. Man will übrigens auch, dass man an beiden Enden eines Anrufs zur gleichen Zeit sprechen kann. Man kommt dadurch schnell zu einigen dieser sehr rudimentären Dinge. Das maschinelle Lernen verbessert diese Algorithmen, um eine bessere Leistung mit weniger Kompromissen und weniger Artefakten im eigentlichen Audiosignal zu erzielen.
Die Rauschunterdrückung hat einen langen Weg zurückgelegt. Ich habe vorhin Tastaturgeräusche und die Geräusche von essenden Menschen erwähnt, und wie man das einfach nicht mehr hört, zumindest ich nicht, wenn ich in Telefonkonferenzen bin. Aber noch vor ein paar Jahren hätte das ein großes Problem sein können. Die auf maschinellem Lernen basierende digitale Signalverarbeitung ist jetzt auf dem Markt, und sie entfernt besser als je zuvor Dinge aus Ihrem Sound, die man nicht haben will. Wir haben einen neuen Algorithmus zur Nachhallreduzierung. Wenn also ein halliger Raum mit Echos und Reflexionen in das Audio-Signal eindringt, konnte das bislang das Erlebnis dort beeinträchtigen. Wir können das jetzt entfernen. Eine andere Sache, die Kehrseite davon ist, dass es auch einen Fokus darauf gibt, den Klang, den du willst, und das Signal, das du willst, zu isolieren.
Microsoft hat eine Stimmabdruck-Funktion in Teams eingeführt, die es dir ermöglicht, eine Stimmprobe abzugeben. Und wann immer du dann von deinem Gerät sprichst, wird alles andere herausgenommen, was das Mikrofon aufnehmen könnte, sodass selbst wenn du in einer wirklich lauten Umgebung im Freien oder, sagen wir, an einem Flughafen bist, die Leute, mit denen du sprichst, dich und nur dich hören werden. Und das ist ziemlich erstaunlich. Das sind also einige der Dinge, die heute passieren und die heute bereits verfügbar sind.
Eine andere Sache, die aus all dem hervorgegangen ist, ist, dass wir darüber gesprochen haben, wie wichtig Audioqualität für die Menschen ist, die an einer Diskussion teilnehmen, die Sprechenden, die Zuhörenden, wie jeder wahrgenommen wird. Aber ein neuer "Konsument" von Audio in einer Diskussion oder einer Besprechung ist entstanden, und das in Form des KI-Agenten, der Besprechungen zusammenfassen und Aktionspläne erstellen kann. Aber damit es funktioniert, ist eine saubere Transkription dessen, was gesagt wurde, bereits das Minimum. Es darf dabei nicht behindert werden. Es darf wichtige Dinge nicht verpassen. Es muss Wort für Wort, Satz für Satz die gesamte Besprechung erfassen. Und die Fähigkeit zuzuordnen, wer was gesagt hat, den Besprechungsteilnehmern, selbst wenn sie alle im selben Raum sind, steht uns bald bevor. Und die Fähigkeit, die Stimmung und Emotion der Teilnehmer zu erkennen und zu integrieren, wird auch sehr wichtig werden, damit wir wirklich den vollen Wert aus diesen Arten von KI-Agenten herausholen.
Also ist Audioqualität so wichtig wie eh und je für Menschen, wie Brian anmerkt, in gewisser Weise wichtiger, weil dies jetzt die normale Art ist, wie wir sprechen und uns treffen, aber es ist auch entscheidend, damit KI-Agenten richtig funktionieren. Und das ist plötzlich etwas ganz Anderes, richtig? Das sind ganz andere Überlegungen. Und auch dazu gibt es eine Menge neuer Überlegungen und Analysen. Und, Megan, es gibt so viel mehr, was wir darüber sagen könnten, über Besprechungen und Videokonferenzen hinaus. KI-Tools zur Vereinfachung des Produktionsprozesses. Und natürlich gibt es generative KI von Musikinhalten. Ich weiß, das geht über den Rahmen dessen hinaus, worüber wir sprechen. Aber es ist wirklich ziemlich unglaublich, wenn man sich die Arbeit ansieht, die passiert, und die Fähigkeiten, die entstehen.
Megan: Ja. Absolut. Klingt, als gäbe es so viele Elemente zu berücksichtigen und laufende Arbeit an diesem Thema. Das alles ist faszinierend. Brian, welche Arten von aufkommenden Fähigkeiten und Anwendungsfällen rund um KI und Audioqualität siehst du auch in deinem Labor?
Brian: Nun, es tut mir leid, dass Brian selbst heute nicht hier sein konnte, aber ich bin sein KI-Agent.
Megan:Du hast mich für eine Sekunde erwischt.
Brian:War nur ein Scherz. Das Faszinierende, was wir aus dem Labor sehen, aus der Untersuchung der Eindrücke von Menschen, ist, dass all diese Technologie, die Erik beschrieben hat, wenn sie am besten funktioniert, völlig unsichtbar ist. Erik, ich liebte deinen Punkt darüber, dass man keine Kartoffelchips essen hört oder Regen im Hintergrund oder so etwas. Du hast total recht. Das ist mir früher ständig aufgefallen. Ich glaube nicht, dass ich das kürzlich bemerkt habe, aber ich habe auch nicht bemerkt, dass ich es kürzlich nicht bemerkt habe, richtig? Es verschwindet einfach. Das Interessante an diesen wahrnehmungsbezogenen Eindrücken ist, dass wir ständig intuitive Schlüsse über Menschen ziehen, basierend darauf, wie sie klingen. Und das könnte eine gute oder eine schlechte Sache sein, wenn wir Dinge wie Vertrauenswürdigkeit beurteilen, zum Beispiel auf der Grundlage eines kurzen Audioclips.
Aber einige dieser Dinge sind eindeutig gültig, richtig? Wir können die Größe von jemandem oder sogar von einem Tier beurteilen, basierend darauf, wie sie klingen, richtig? Ein Chihuahua kann nicht das Geräusch eines Löwen machen. Ein Löwe kann nicht das Geräusch eines Chihuahuas machen. Und das war schon immer so, weil wir Audiosignale produzieren, die direkt in die Ohren des anderen gehen. Und jetzt, natürlich, ist alles, worüber Erik spricht, wahr. Es geht durch all diese verschiedenen Schichten von Technologie, zunehmend angetrieben von KI. Aber wenn diese Technologie optimal funktioniert, ist es so, als ob sie gar nicht da wäre und wir uns einfach direkt hören.
Erik: Das ist das Ziel, richtig? Das ist eine nahtlose, offene Kommunikation, bei der wir nicht mehr über die Technik nachdenken müssen.
Brian:Es ist jedoch ein hartes Geschäft, in dem man ist, denke ich, Erik, weil die Leute wissen müssen, was unter der Oberfläche vor sich geht, um es zu schätzen. Ansonsten erwarten wir einfach, dass es funktioniert.
Erik:Nun, deshalb versuchen wir, das Logo unserer Produkte an der Seite anzubringen, damit sie in den Videos zu sehen sind. Aber ja, das ist ein gutes Argument.
Brian: Sehr gut. Sehr gut.
Erik: Ja.
Megan:Und wir haben schon oft über virtuelle Meetings und Gespräche gesprochen, aber es gibt auch gestreamte und aufgezeichnete Inhalte, die auch bei der Arbeit immer wichtiger werden. Erik, könntest du ein bisschen darüber sprechen, wie Unternehmen Audio auf neue Art und Weise für Marketingkampagnen, interne Weiterbildung und Schulungen und ähnliche Bereiche nutzen?
Erik: Ja. Nun, eine der Dinge, die wir alle im Marketing gesehen haben, ist, dass nicht mehr alles ein Werbespot mit hohem Produktionswert ist. Dafür gibt es immer noch einen Platz, ganz sicher. Aber Menschen neigen dazu, Influencern zu vertrauen, denen sie folgen. Menschen suchen auf TikTok, auf YouTube nach Themen. Das kann der Ausgangspunkt sein. Und da die Technologie zugänglicher geworden ist, nicht nur Audio, sondern natürlich auch Videotechnologie, können Content-Ersteller zufriedenstellende Inhalte allein oder mit nur ein paar Leuten bei sich produzieren. Und Brians Studie zeigt, dass es nicht wirklich darauf ankommt, woher der Inhalt stammt, damit er überzeugend ist.
Damit die Person, die die Botschaft übermittelt, überzeugend ist, muss die Audioqualität ein gewisses Niveau erreichen. Aber weil die Tools einfacher zu bedienen sind und man weniger Dinge verbinden und zusammenstellen muss, um ein anständiges Produktionssystem zu haben, wird von Erstellern getriebener Inhalt immer mehr ein integraler Bestandteil einer Marketingkampagne. Und so nicht nur, was sie vielleicht auf ihrer Instagram-Seite posten oder auf LinkedIn posten, zum Beispiel, sondern wir als Marke können diesen Inhalt nehmen und tatsächlich in bezahlten Medien und solchen Dingen verwenden, ist alles durchaus möglich wegen der Gesamtqualität des Inhalts. Das ist also ein Trend, der sich seit dem Aufkommen von Podcasts entwickelt hat, würde ich sagen. Aber es war eine Entwicklung. Und die hat einen langen, langen Weg hinter sich.
Eine andere Sache, und das ist wirklich interessant, und das trifft mich persönlich, aber ich erinnere mich, als ich zum ersten Mal ins Berufsleben eintrat, und ich hoffe, ich zeige mein Alter hier nicht zu sehr, aber ich erinnere mich an die Textverarbeitungsabteilung. Man schrieb etwas auf ein Blatt Papier, z. B. ein Memo, und gab es an die Textverarbeitungsabteilung weiter, die es dann für einen tippte. Das war tatsächlich so. Und heutzutage sehen wir tatsächlich immer mehr Videoproduktion mit Audio, natürlich, die auf die tatsächlichen Produzenten des Inhalts übergeht.
In meinem Unternehmen, bei Shure, machen wir Videos für verschiedene Zwecke, um über verschiedene Initiativen oder Produkteinführungen oder Dinge zu sprechen, die wir nur für den internen Gebrauch tun. Und im Moment macht jeder, einschließlich unserer CEO, diese Videos einfach an ihrem eigenen Schreibtisch. Sie hat eine kleine Software, mit der sie eine PowerPoint-Präsentation zeigen und sich selbst vorstellen kann. Und mit sehr, sehr begrenztem Schnitt kann man das veröffentlichen. Und ich habe Freunde und Kollegen in anderen Unternehmen in sehr hochrangigen Positionen gesehen, die einfach ihre eigene Produktion machen. Ein sehr hochwertiges Mikrofon mit wirklich fortschrittlicher Signalverarbeitung direkt eingebaut kaufen zu können, es aber einfach über USB anschließen zu können und es so einfach wie jedes Verbrauchergerät behandeln zu lassen, hat es möglich gemacht, wirklich sehr nützliche Produktion zu machen, bei der man tatsächlich gut klingt und seine Botschaft rüberbringt, aber ohne so eine große Produktion daraus machen zu müssen, was irgendwie cool ist.
Megan: Absolut. Der Zugang zur Erstellung hochwertiger Inhalte wird dadurch wirklich demokratisiert, nicht wahr? Und natürlich ist keine Technologiediskussion vollständig ohne die Erwähnung des Return on Investment, insbesondere in der heutigen Zeit. Erik, was sind einige Möglichkeiten, wie Unternehmen Renditen aus ihren Audio-Technologie-Investitionen erzielen können? Wo sehen Sie am häufigsten Kosteneinsparungen?
Erik: Ja. Nun, wir haben an einer Studie mit IDC Research zusammengearbeitet. Und sie kamen dabei zu einigen wirklich interessanten Ergebnissen. Und eines davon war, keine Überraschung, zwei Drittel oder mehr der Unternehmen haben Maßnahmen zur Verbesserung ihrer Kommunikations- und Collaboration-Technologie ergriffen und noch mehr haben zusätzliche oder erste Investitionen noch geplant. Aber der ROI dieser Initiativen ist nicht wirklich an die Initiative selbst gebunden. Wenn Sie ein neues Produkt auf den Markt bringen, schauen Sie sich nicht an, wie dieses Produkt abschneidet, und das ist die Grundlage für Ihren ROI. Die Vorteile einer reibungsloseren Zusammenarbeit kommen in Form von kürzeren Meetings, produktiveren Meetings, besserer Entscheidungsfindung, schnellerer Entscheidungsfindung, stärkerer Teamarbeit. Und um ein ROI-Modell zu erstellen, schloss IDC, dass du dein Modell so aufbauen müssen, dass diese Vorteile wirklich im gesamten Unternehmen oder an deiner Universität oder was auch immer es sein mag berücksichtigt werden, und gewissermaßen auf und ab durch die verschiedenen Aktivitäten, wo sie tatsächlich genutzt werden.
Das kann also sehr komplex sein. Dinge zu quantifizieren kann immer eine Herausforderung sein. Aber wie ich schon sagte, die Unternehmen scheinen das zu verstehen. Und ich denke, das liegt daran, dass weil jeder, einschließlich des CEO und des CFO und der gesamten Finanzabteilung, Collaboration-Technologie in ihrer Zusammenarbeit auch nutzt und davon profitiert. Vielleicht ist das ein Grund, warum der Wert leichter zu vermitteln ist. Auch wenn sie sich nicht die Zeit genommen haben, Dinge so zu artikulieren, wie wir es heute hier tun, weißt du, wann ein Meeting gut ist und wann nicht. Und vielleicht ist das eines der Dinge, die Unternehmen helfen, diese Investitionen zu rechtfertigen. Aber es ist immer schwierig, den ROI für solche Projekte zu ermitteln. Aber auch hier ist es sinnvoll, sich auf die allgemeinen Vorteile der Zusammenarbeit zu konzentrieren und sie auf die Bedeutung für bestimmte Aktivitäten und Typen von Sitzungen herunterzubrechen.
Megan:Auf jeden Fall. Und Brian, welche Arten von Fortschritten siehst du im Labor, die vielleicht eines Tages zu diesen Kosteneinsparungen beitragen könnten?
Brian: Nun, ich weiß nichts über Kosteneinsparungen, Megan. Ich bin ein Hochschulprofessor. Ich lebe ein reines Leben des Geistes.
Megan:Natürlich.
Brian:ROI ist für mich nicht nachvollziehbar. Nein, ich würde sagen, wir befinden uns gerade an einer extrem aufregenden Grenze wegen KI und vieler verschiedener Technologien. Die Studien, über die wir vorhin gesprochen haben, waren in gewisser Weise breit angelegt. Wir haben viele verschiedene Eigenschaften erforscht, von der Partnersuche über die Einstellung bis hin zur Glaubwürdigkeit. Und wir haben sie auf alle möglichen Arten isoliert, über die wir nicht gesprochen haben. Wir haben gezeigt, dass dies nicht auf eine allgemeine Beeinträchtigung oder Pessimismus oder etwas Ähnliches zurückzuführen ist. Aber in diesen Studien haben wir wirklich nur eine ganz bestimmte Gruppe von Dimensionen getestet, entlang derer ein Audiosignal variieren kann, nämlich eine Art Modell der Klarheit. Aber in Wirklichkeit ist das Audiosignal mehrdimensional. Und da wir heutzutage immer mehr Tools zur Verfügung haben, können wir Audio nicht nur in Bezug auf die Klarheit verändern, wie wir bereits erwähnt haben, sondern wir können es auch auf alle möglichen Arten manipulieren.
Wir sind sehr daran interessiert, diese Studien voranzutreiben und zu erforschen, wie die groben Eindrücke, die die Menschen machen, von allen möglichen Dingen beeinflusst werden. Meg und Erik, wir laufen die ganze Zeit in der Welt herum und fällen diese Urteile über Menschen, richtig? Du triffst jemanden und denkst dir: "Wow, mit dem könnte ich wirklich befreundet sein. Das scheinen tolle Leute zu sein." Und man weiß, dass man dieses Urteil fällt, aber man hat keine Ahnung warum, richtig? Es scheint einfach intuitiv zu sein. Nun, in einem Audiosignal, wenn du mit jemandem sprichst, kannst du dich auch fragen: "Was, wenn das Signal basslastiger ist? Und wenn es ein wenig höhenlastiger ist? Was, wenn wir es auf diese Weise manipulieren? Wie verändert das das Urteil?"
Als wir über die Fakultätssitzung sprachen, die der Auslöser für dieses ganze Forschungsprogramm war, erwähnte ich, dass mein Kollege, der von seinem Heimstudio aus sprach, tatsächlich nicht exakt so klar klang wie in Wirklichkeit. Er klang besser als in Wirklichkeit. Er klang so, als wäre er überall um uns herum. Was hat das zu bedeuten? Ich glaube, es gibt so viele verschiedene Dimensionen eines Audiosignals, die wir einfach kontrollieren und manipulieren können, dass es sehr spannend sein wird, zu sehen, wie all diese Dinge unsere Eindrücke voneinander beeinflussen werden.
Megan: Auch hier gibt es vielleicht einige Überschneidungen, aber ich habe mich gefragt, ob wir mit einem Blick in die Zukunft schließen können, Brian. Worauf freust du dich bei der aufkommenden Audiotechnologie? Was sind einige aufregende Möglichkeiten am Horizont, vielleicht im Zusammenhang mit dem, worüber du gerade gesprochen hast?
Brian: Nun, wir sind daran interessiert, dies aus einer wissenschaftlichen Perspektive zu untersuchen. Erik, du hast darüber gesprochen, wie du angefangen hast. Als ich mit dieser Wissenschaft anfing, hatten wir noch keine Abteilung für Textverarbeitung. Wir hatten eine Abteilung für Steintafeln. Aber ich höre, dass die aktuelle Generation, wenn sie Fotos hin und her schickt, dass sie als Selbstverständlichkeit alle möglichen Filter anwendet-
Erik:Oh, ja.
Brian:... zu diesen Videosignalen, diesen Video- oder einfach fotografischen Signalen. Das ist uns allen bekannt. Bei den Audiosignalen ist das noch nicht ganz der Fall, aber ich denke, das wird auch noch kommen. Man kann sich vorstellen, dass man sich selbst aufnimmt, um eine kleine Nachricht zu sagen, und sie dann auf diese oder jene Weise filtert. Und das wird zum Wilden Westen, wenn es um die Art von Eindrücken geht, die wir aufeinander machen. Vor allem, wenn man nicht weiß, dass diese Filter von vornherein in Betrieb waren.
Megan:Das ist sehr interessant. Erik, worauf freust du dich auch in der Audiotechnik?
Erik: Nun, ich denke immer noch darüber nach, was Brian gesagt hat.
Megan: Ja. Das ist..
Erik:Das ist sehr interessant.
Megan: Es ist erschreckend.
Erik: Ich muss noch einmal zurückgehen. Ich gehe zurück in die Vergangenheit, vielleicht 15 bis 20 Jahre. Und ich erinnere mich, dass wir bei der Arbeit Besprechungsräume hatten, in denen die Starfish-Telefone in der Mitte des Tisches standen. Und ich erinnere mich, dass wir internationale Meetings mit unseren Partnern dort hatten, die unsere Produkte in verschiedenen Ländern verkauften, einschließlich in Japan und China, und den Leuten tatsächlich in unserem eigenen Unternehmen in diesen Ländern. Wir wussten, dass die Zeitzone schlecht ist. Und wir wussten, dass Englisch nicht ihre Muttersprache war, und versuchten, so höflich wie möglich mit schriftlichen Unterlagen und Ähnlichem umzugehen. Aber ich ging nach China und musste tatsächlich am anderen Ende eines dieser Gespräche sein. Und ich bin ein englischer Muttersprachler, oder zumindest ein Muttersprachler des Chicagoer Dialekts des amerikanischen Englisch. Und ich habe wirklich verstanden, warum es schwierig für sie war, aktiv an diesen Treffen teilzunehmen, und das hat mich wie ein Blitz getroffen.
Wir sind schon so weit gekommen, das ist wunderbar. Aber ich stelle mir ein Szenario vor - und das ist nicht mehr weit entfernt, es gibt viele Unternehmen, die daran arbeiten -, bei dem man nicht nur Untertitel in Echtzeit in seiner Muttersprache erhält, unabhängig von der Sprache des Teilnehmers, sondern bei dem man auch die Stimme des Sprechers in seiner Muttersprache hören kann.
Ich werde nie fließend Japanisch oder Chinesisch sprechen, das steht fest. Aber ich liebe den Gedanken, dass ich mich tatsächlich mit Menschen unterhalten könnte und sie mich so verstehen würden, als ob ich ihre Muttersprache sprechen würde, und dass sie mit mir kommunizieren könnten und ich sie so verstehen könnte, wie sie verstanden werden wollen. Ich glaube, dass es eine Zukunft gibt, in der diese Technologie wirklich etwas sein kann, das uns hilft, Menschen näher zusammenzubringen. Da wir nun schon so viele Jahre Erfahrung mit dem Internet haben, wissen wir, dass die Technologie in der Regel zwei Seiten hat, aber es wird auf jeden Fall eine positive Seite geben, und darauf freue ich mich schon sehr.
Megan:Donnerwetter, das klingt absolut faszinierend. Vielen Dank an euch beide für diese interessante Diskussion.
Das waren Erik Vaveris, VP of Product Management und Chief Marketing Officer bei Shure, und Brian Scholl, Direktor des Perception & Cognition Laboratory an der Yale University, mit denen ich von Brighton in England aus sprach.
Das war's für diese Folge von Business Lab. Ich bin Ihre Gastgeberin, Megan Tatum. Ich bin mitwirkender Redakteur bei Insights, der custom publishing-Abteilung von MIT Technology Review. Wir wurden 1899 an dem Massachusetts Institute of Technology gegründet. Außerdem finden Sie uns jedes Jahr in Print-Form, im Web und bei Events in aller Welt. Für weitere Informationen über uns und die Sendung besuche bitte unsere Website unter technologyreview.com.
Diese Sendung ist überall dort verfügbar, wo Sie Ihre Podcasts beziehen. Wenn Ihnen diese Folge gefallen hat, hoffen wir, dass Sie sich einen Moment Zeit nehmen, um uns zu bewerten und zu rezensieren. Business Lab ist eine Produktion der MIT Technology Review. Und diese Folge wurde von Giro Studios produziert. Vielen Dank fürs Zuhören.









