Das Audio-Ecosystem, Teil 2: Digitale Signalverarbeitung

Chris Lyons | 17.06.2020 Das Audio-Ecosystem, Teil 2: Digitale Signalverarbeitung

Eine Besprechung ohne Bild ist immer noch eine Besprechung; eine Besprechung ohne Ton ist gestrichen. Tatsächlich geben 81% der IT-Entscheidungsträger an, dass der Ton den größten Einfluss auf die Qualität von Videokonferenzen hat. Guter Ton ist ein Thema, das leicht übersehen wird – schlechter Ton dagegen lässt sich nicht überhören. Er ist ermüdend, lenkt ab und behindert die Verständigung, was sich in der Summe produktivitäts- und umsatzmindernd auswirkt.

In dieser Serie von Blogbeiträgen untersuchen wir, wie die verschiedenen Teile eines Audio-Ecosystems die Klangqualität beeinflussen. Ein Audiosystem soll die Stimmen der Personen in einem Raum für die Übertragung an einen anderen Standort abnehmen und die Beiträge der Teilnehmer vom anderen Standort wiedergeben. Um reibungslose Besprechungen zu ermöglichen, muss eine gute Sprachverständlichkeit gewährleistet sein (d.h. das Gesprochene wird deutlich wiedergegeben), und das Klangbild muss natürlich sein (d.h. die Stimmen klingen, als würde man von Angesicht zu Angesicht miteinander sprechen). In diesem zweiten Blogbeitrag gehen wir auf die Rolle der digitalen Signalverarbeitung ein.

Wie der DSP die Audioqualität verbessert

Ein Mikrofon wandelt Schallwellen in ein elektrisches Audiosignal, das übertragen, verstärkt oder aufgenommen werden kann. Abgesehen von kleinen Huddle Rooms reicht ein einzelnes Mikrofon fast nie aus. Die meisten Besprechungsräume erfordern mehrere Mikrofone, die zusammengemischt werden müssen. Die unbearbeiteten Mikrofonsignale sind vergleichbar mit den Sängern in einem Chor – egal, wie gut sie alleine sind, letztendlich geht es um das Zusammenspiel.

Die einzelnen Signale müssen aufbereitet und zu einem ausgeglichenen, harmonischen Gesamtmix zusammengefügt werden. Früher benötigte man dafür ein ganzes Rack voller Geräte mit vielen Knöpfen, LEDs und Pegelanzeigen, die von einem erfahrenen Tontechniker sorgfältig zu einem funktionierenden Ganzen zusammengefügt wurden.

Zum Glück geht das Ganze mittlerweile auch ohne tiefere Kenntnisse in der okkulten Kunst der Tontechnik – heutzutage wird die gesamte Signalverarbeitung in einem einzigen Gerät umgesetzt, dem digitalen Signalprozessor (DSP). Ein digitaler Signalprozessor kann als Stand-alone-Hardwaregerät oder als rechnergestützte Anwendung umgesetzt sein, und sehr unterschiedliche Technologien und Features bieten. Die integrierte digitale Signalverarbeitung einer Videokonferenz-Anwendung beispielsweise ist zuständig für Video, Anrufmanagement und andere Verwaltungsaufgaben; Audio ist hier nur ein Aspekt unter vielen.

Es gibt sehr unterschiedliche DSP-Technologien und -Features. Die integrierte digitale Signalverarbeitung einer Videokonferenz-Anwendung beispielsweise ist zuständig für Video, Anrufmanagement und andere Verwaltungsaufgaben; Audio ist hier nur ein Aspekt unter vielen.

Sie benötigen einen spezifischen Audio-DSP, der für die Verarbeitung von Mikrofonsignalen konzipiert ist und dessen Ressourcen und Funktionalität ganz darauf ausgerichtet sind, Sprache so natürlich wie möglich klingen zu lassen. Wie ein Schweizer Taschenmesser verfügt ein Audio-DSP über eine umfassende Palette an Bearbeitungstools, um die Sprachverständlichkeit und allgemeine Klangqualität zu optimieren.

Audio-Probleme, die sich mit einem DSP beheben lassen

In einer aktuellen Studie nannten 80% der Befragten Audio-Probleme als Hauptursache von Frustrationen im Zusammenhang mit virtuellen Besprechungen. Die meisten Videokonferenzen haben mit denselben chronischen Problemen zu kämpfen. Jedes Werkzeug bzw. jeder Signalbearbeitungsblock im Audio-DSP hat einen bestimmten Zweck und löst eines dieser Probleme:

Problem 1: Zu laut oder zu leise

Ein ganz grundsätzliches Audio-Problem bei Videokonferenzen ist die Steuerung der Lautstärke. Manchmal werden die Stimmen der anderen Teilnehmer so leise wiedergegeben, dass man sie kaum hört, in anderen Fällen sind sie dagegen unangenehm laut. Die Lösung für dieses Problem ist eine Technologie namens Automatic Gain Control (AGC), die den Pegel jedes Raummikrofons (bzw. den vom anderen Standort kommenden Ton) so regelt, dass eine einheitliche, angenehme Lautstärke gewährleistet ist. Wie ein guter Tontechniker stellt die AGC leise Stimmen ein bisschen lauter und regelt laute Sprecher etwas herunter. Dies ist besonders wichtig für Besprechungsräume, in denen mehrere Leute in unterschiedlichem Abstand zum Mikrofon sitzen.

Problem 2: Wir klingen „topfig“

Ein hohler Klang – als säße man in einem Tunnel oder in einem Fass – kann entstehen, wenn zu viele Mikrofone gleichzeitig offen sind. Ein Automatikmischer sorgt dafür, dass sofort das nächstliegende Mikrofon aktiviert wird, wenn eine Person zu sprechen beginnt, und nicht benötigte Mikrofone abgeschaltet werden. Wenn in einem Raum mit acht Mikrofonen die sieben momentan nicht genutzten Mikrofone deaktiviert werden, verbessert sich die Klangqualität erheblich.

Problem 3: Echo, Echo, Echo

Bei einer Videokonferenz kann es passieren, dass der Ton aus einem Lautsprecher von einem Mikrofon im Raum aufgenommen und wieder zurück an die Gegenstelle übertragen wird, wodurch sich die Sprecher der Gegenstelle zeitverzögert selbst über ihre Lautsprecher hören und ein störendes Echo entsteht. Die akustische Echokompensation (AEC) löscht auf digitalem Weg den Ton des eingehenden Signals aus dem ausgehenden Audiosignal, um dies zu verhindern. Die meisten Videokonferenz-Anwendungen (wie Microsoft Teams, Zoom oder Skype for Business) verfügen über eine einkanalige Echokompensation, die ausreichend ist, wenn Sie mit Ihrem Laptop an einer virtuellen Besprechung teilnehmen. Doch für größere Besprechungs- und Seminarräume mit vielen Teilnehmern und Mikrofonen kann nur ein DSP mit separater AEC für jeden einzelnen Mikrofonkanal gute Klangqualität gewährleisten.

Problem 4: Störende Nebengeräusche

In Besprechungsräumen gibt es fast immer Störgeräusche von Projektoren, Rechnern, Klimaanlagen, Gebäudeschall oder von außen eindringenden Umgebungslärm. Auch wenn die anwesenden Personen die Geräusche selbst gar nicht wahrnehmen, werden diese von den Mikrofonen erfasst. Mit einem EQ lassen sich tieffrequenter Störschall und Rauschen größtenteils entfernen, aber eine elektronische Störgeräuschunterdrückung löscht zusätzlich Geräusche mit höheren Frequenzen, die den Sprachbereich überlagern. Ein DSP mit guter Störgeräuschunterdrückung kann wahre Wunder wirken.

Problem 5: Hören die uns eigentlich?

Je höher der Störgeräusch- und Hallanteil im Audiosignal ist, desto schwerer wird es für den Videokonferenz-Codec (egal ob PC-Anwendung oder Hardware-Gerät), eine natürliche Interaktion zu gewährleisten. Wenn die Audio-Probleme nicht gelöst sind, bevor das Signal den Codec erreicht, kann es schwierig werden, die jeweils andere Seite zu unterbrechen. Dies verlangsamt die Kommunikation und hat eine störende und ablenkende Wirkung.

Problem 6: Audio und Video sind nicht synchron

Zur Übertragung von Video über eine herkömmliche Internet-Verbindung benötigt man eine viel höhere Rechenleistung als zur Audioübertragung. Entsprechend dauert die Videoübertragung ein bisschen länger. Der Ton kommt bei der Gegenstelle also etwas früher an als das Bild, weshalb man einen Menschen schon sprechen hört, bevor man auf dem Bildschirm sieht, wie sein Mund sich bewegt. Mit einem regelbaren Delay im DSP lässt sich der Zeitversatz des Audiosignals so anpassen, dass Bild und Ton synchron laufen.

Audio-DSP-Hardware im Vergleich zu Software

Der DSP für die Audioübertragung sollte je nach Anwendungsbereich ausgewählt werden. In kleineren Räumen macht ein Mikrofon mit integriertem DSP (wie das Microflex Advance MXA710 oder MXA910) externe Hardware überflüssig und vereinfacht die Konfiguration. Für mittelgroße oder größere Räume mit mehreren Mikrofonen und weiteren Audioquellen empfiehlt sich ein dedizierter Hardware-Audio-DSP (wie der IntelliMix P300), da dieser eine höhere Leistung und mehr Features bietet und eine flexiblere Einbindung in Hardware- oder Software-Codecs ermöglicht. Ein Software-DSP kann auf einem im Raum befindlichen Computer oder Conferencing-Gerät installiert werden, was die Nutzung sowie die zentralisierte Instandhaltung durch die IT erleichtert. Unabhängig von der DSP-Ausführung gewährleistet hochwertige digitale Audio-Signalverarbeitung einen natürlichen Klang, der eine reibungslose Kommunikation ermöglicht und den Wert Ihrer Investition in Ausrüstung und Technik maximiert.

Hier finden Sie weitere Artikel zum Shure Audio-Ecosystem für Videokonferenzen:

Die digitalen Signalprozessoren von Shure gewährleisten eine optimale Aufbereitung und Mischung der Raummikrofone und sind als Hardware- oder Software-Ausführung erhältlich. Weitere Informationen erhalten Sie hier.

Chris Lyons

Chris Lyons is a 30-year Shure veteran who has filled a variety of different marketing and public relations roles. His specialty is making complicated audio technology easy to understand, usually with an analogy that involves cars or food. He doesn't sing or play an instrument, but he does make Shure Associates laugh once in a while.