8. Juli 2021 von Veronika Demykina
Unterstützung der Aufmerksamkeit in Videokonferenzen durch KI - Eine Chancen- und Risikobewertung
Schon über ein Jahr hält die Corona-Krise die Welt in Atem. Doch gerade Krisen sind wertvolle Ideengeber und Motivatoren, bestehende Prozesse zu überdenken, neue Möglichkeiten und ihre Grenzen auszukundschaften, zu evaluieren sowie daraus entstehende Erkenntnisse zukünftig gewinnbringend zu nutzen. So auch der Einsatz von Videokonferenzen, die seit Beginn der Pandemie ein ständiger Begleiter in der Arbeitswelt geworden sind.
Vorteile und Herausforderungen
Viele sind sich einig: auch nach der Corona-Pandemie wird der Einsatz von Videokonferenzen bestehen bleiben. Die Vorteile liegen auf der Hand: der Wegfall von Anfahrts- und gegebenenfalls Übernachtungskosten schonen nicht nur das Budget für Reisekosten der Unternehmen, sondern auch die zeitlichen Ressourcen der Mitarbeitenden. Ein Beitrag zum Klimaschutz könnte dadurch ebenfalls geleistet werden, denn durch den Wegfall der Geschäftsreisen könnten vor allem der Bahn-, Auto- und Flugverkehr deutlich gesenkt werden.
Die Nutzung von Videokonferenzen bringt jedoch auch Herausforderungen mit sich. Es treten Effekte wie Überforderung, Ermüdung sowie Ablenkung auf. Durch den Wegfall von kurzen Kaffeepausen oder auch einfach nur des Gangs zum nächsten Konferenzraum, erhöht sich die Arbeitsbelastung. In den einzelnen Online-Meetings mit wechselnden Themen und Teilnehmenden, die sich terminlich aneinanderreihen, wird volle Aufmerksamkeit und Konzentration erwartet. Als wäre das nicht genug, können verstärkt Unsicherheiten auftreten, da unsere Wahrnehmung für die Stimmung und Haltung der Teilnehmenden über das Videobild stark eingeschränkt ist. Die Suche nach Signalen der Zustimmung oder Ablehnung, verbunden mit der verstärkten Arbeitsbelastung, kostet uns viel Energie. Eine zentrale aber leider auch endliche Ressource rückt somit in den Fokus: unsere Aufmerksamkeit.
Welche Lösungsansätze gibt es?
Diese Erkenntnis sowie der wachsende Datenverkehr durch den Einsatz der Videotelefonie und ihre absehbare weitere Nutzung könnte jedoch auch zur Optimierung der virtuellen Zusammenarbeit genutzt werden. Wenn uns Fahrassistenzsysteme darauf hinweisen können, dass wir müde werden und eine Pause brauchen, warum sollte das dann nicht auch in Videokonferenzen der Fall sein? Weiter gedacht könnte an die Sprecherin oder den Sprecher anonymisiert gespiegelt werden, ob vielleicht eine Auflockerungseinheit oder Pause eingelegt werden sollte, da die Audienz nicht mehr fokussiert oder zu sehr abgelenkt scheint.
Eine Idee für die Umsetzung könnte sein, ein System zu entwickeln, das auf Basis von Videodaten Signale der Unaufmerksamkeit anhand der Kopfposition sowie der Gesichts- und Augenmerkmale identifiziert. Das System wäre im besten Fall in der Lage umgehend einzugreifen und Zuhörer in ihrer Selbstregulation zu unterstützen.
Exkurs Selbstregulation
Selbstregulation kann als Modus der Handlungssteuerung beschrieben werden. Dabei hängen die Strategien der Selbstregulation von der Willenseffizienz einer Person ab. Denn dies ist eine weitgehend unbewusste Form des Willens, die vor allem aus Selbstbeobachtung, Selbstbeurteilung (auf Basis der Selbstzielsetzung) und der Selbstreaktion auf extrinsische und intrinsische Anreize resultiert. Entstehen jedoch internale, motivationsbedingte Handlungsbarrieren, kommt unser volitionales System zum Einsatz. Dieses parallel zur Motivation operierende System beschreibt die Überwindung internaler und motivationsbedingter Handlungsbarrieren. Es geht mit einer kontrollierten Aufmerksamkeitslenkung einher, weshalb ein hohes Anstrengungserleben wahrgenommen wird. Störende Verhaltensimpulse werden unterdrückt und Ablenkungen vermieden. Das kann langfristig zu Beeinträchtigungen des emotionalen Wohlbefindens, Unzufriedenheit und Blockaden von kognitiven Kapazitäten führen. Um dem entgegenzutreten, gibt es verschiedene Strategien, zu denen die Selbstbeobachtung und Selbsterinnerung zählen.
Mittels Machine Learning könnte das System die Aufmerksamkeit der Teilnehmenden vorhersagen und Empfehlungen zur Verbesserung dieser, zum Beispiel durch verschiedene kleine Übungen, bereitstellen (Unterstützung der Selbstbeobachtung). Vorstellbar wären in dem Kontext, entsprechende und unmittelbare Hinweise über die Unaufmerksamkeit der Teilnehmenden als PopUp-Nachricht (Unterstützung der Selbsterinnerung) einzublenden. Mittels Deep Learning und neuen Feedback-Daten für das System, also ob es richtig lag oder nicht, sollte die Trefferwahrscheinlichkeit verbessert werden. Am Ende einer Online-Konferenz könnte zudem eine Zusammenfassung der Ergebnisse zur Aufmerksamkeit als weiterer Bestandteil der Optimierung der virtuellen Zusammenarbeit dienen – sowohl für die Teilnehmenden als auch für die oder den Speaker.
Klartext: Welche Chancen und Risiken bringt diese Idee in Kombination mit KI/ML mit sich?
KI ist heutzutage kaum noch wegzudenken, begleitet den Menschen in vielen Situationen im Alltag und beeinflusst maßgeblich, wie wir Menschen arbeiten, kommunizieren, Entscheidungen treffen und unseren Alltag meistern. Unternehmen benötigen mit KI-Services weniger von ohnehin knappen KI-Kompetenzen, um KI-Projekte umzusetzen. Solche Services, wie beispielsweise die Aufmerksamkeitserkennung, können über APIs angebunden und gewinnbringend genutzt werden. Automatisch würden Unternehmen so auf alle Updates und verbesserte Verfahren, die in der Lösung integriert sind, zugreifen.
Folgende Chancen bietet die Nutzung von KI in Videokonferenzen
Erhöhtes Wohlbefinden
Die Nutzung von KI in Videokonferenzen führt zu einer verbesserten Balance von Belastung und Pausen, da gezielt analysiert wird, wie hoch die Aufmerksamkeitsspanne der Teilnehmenden ist. Langfristig kann dies durch Reduktion der Belastung zu einem höheren Grad an psychischem Wohlbefinden am Arbeitsplatz oder auch allgemein führen.
Effizienzsteigerung aufgrund erhöhter Aufmerksamkeit
Durch die gezielte Steuerung von Belastung und Pausen während der Online-Konferenzen und Meetings kann die Aufmerksamkeit der Zuhörenden stark erhöht werden. Dies führt unweigerlich auch zu einem höheren Level an Effizienz von Videokonferenzen, da mehr Inhalte aufgenommen und verarbeitet werden können. Dies steigert die Produktivität und die Leistung jedes Einzelnen.
Fördert Interaktionen
Oft verfallen Speaker während ihrer Vorträge in einen Monolog. Sie nehmen das gedankliche Abschweifen oder parallele Fokussieren auf andere Arbeiten der Teilnehmende – etwa das Beantworten von E-Mails – nicht wahr. Die KI soll hier in der Lage sein, die Sprecherinnen und Sprecher frühzeitig via Popup-Nachricht hinsichtlich eines niedrigen Levels an Aufmerksamkeit zu informieren. So wird es dem Sprechenden ermöglicht, seinen Vortrag zum Beispiel mit Übungen oder gezielten Fragen interaktiver zu gestalten. Der rechtzeitige Einsatz der Interaktion würde eine Erhöhung der Aufmerksamkeit bewirken. Vorstellbar wäre hier, dass auch die Teilnehmenden über ihr niedriges Level an Aufmerksamkeit informiert werden. Auf diese Weise wird ihr Fokus wieder auf das Online-Meeting gelenkt. Langfristig kann es dadurch zu tiefergehenden Diskussionen zwischen den Teilnehmerinnen und Teilnehmern und den Sprechenden führen.
Wertvolles Feedback: Am Ende einer Online-Konferenz oder eines Meetings könnte eine Zusammenfassung der Aufmerksamkeit sowohl den Zuhörenden als auch der/dem Präsentierenden als Bestandteil der Optimierung der virtuellen Zusammenarbeit dienen. Auf diese Weise erhalten beide Seiten ein wertvolles Feedback, welches zu einer Verbesserung der Selbstwahrnehmung und Regulation beitragen würde.
Chancen: Ein Beispiel aus der Praxis
Microsoft plant, das Wohlbefinden mit Hilfe von biometrischen Daten zu messen und damit die laufende Arbeit in MS-Office-Anwendungen zu unterstützen. Wenn das Belastungsniveau vom System als zu hoch beurteilt wird, soll der Algorithmus darauf hinweisen und Vorschläge machen, wie das Stressniveau reduziert werden könnte.
Innovative Technologien wie Künstliche Intelligenz führen oft zu vielen Vorteilen und Chancen, die den Alltag verbessern. Der Einsatz eines Systems, wie oben besprochen, bietet vielversprechende Möglichkeiten, muss aber weitere Themenbereiche berücksichtigen.
Im Fall dieser Idee in Kombination mit KI konnten folgenden Risiken identifiziert werden:
Technische Umsetzung
Zahlreiche interne und externe Faktoren müssen bei der Umsetzung des Systems berücksichtigt werden. Da wäre unter anderem die Echtzeitverarbeitung der Daten zu nennen, deren Leistung und Performance von vielen verschiedenen Parametern abhängig ist. Langfristig soll das System nicht nur auf Basis von Videodaten die Aufmerksamkeit messen, sondern auch diverse weitere Daten von Input-Devices – beispielsweise Tastatur, Maus oder Mikrofon – in das System und dessen Aufmerksamkeitsdetektion einfließen lassen. Im Falle des Mikrofons können Hintergrundgeräusche der Teilnehmenden analysiert werden. Eine laute Umgebung kann zum Beispiel nachweislich zu Konzentrationsschwierigkeiten und verminderter Arbeitsleistung führen. Daher wäre es denkbar, dass ein hoher Geräuschpegel als Einflussvariable in die Klassifikation einfließen kann. Problematisch ist hier, dass der Vortragende keinen Einfluss auf den Geräuschpegel der Umgebung anderer Teilnehmenden hat. Er wird zwar von dem System gewarnt, aber kann das sinkende Aufmerksamkeitsniveau nicht vermeiden.
Überwachung und Datenschutz
Da sich der Großteil der User bedingt durch die Corona-Situation in einer häuslichen und privaten Umgebung aufzeichnet, muss ein großer Fokus auch auf die Überwachung und den Datenschutz gelegt werden. Die gesammelten Daten enthalten oftmals standortbezogene oder auch personenbezogene Informationen, wie zum Beispiel das Verhalten während der Konferenz. Auf diese Weise ist es möglich, Personenprofile zu erstellen, deswegen sind die genutzten Informationen als sensible Daten einzustufen. Im schlimmsten Fall könnte so ein System auch für eine Art Überwachung der Teilnehmenden genutzt werden und für eine automatisierte Leistungskontrolle missbraucht werden. Aus diesem Grund muss der Datenschutz oberste Priorität haben, sodass die gewonnenen Informationen nicht missbräuchlich genutzt werden können. Im besten Fall wird das System so entwickelt, dass die Erhebung, Speicherung und Nutzung von personenbezogenen Informationen vermieden wird und die Daten nur anonymisiert und simultan zur Online-Konferenz verfügbar sind.
Verletzung der KI-Ethik-Standards
Aufbauend auf Machine-Learning-Algorithmen soll das System große Datenmengen analysieren und daraus Muster erkennen, die das Level der Aufmerksamkeit der Zuhörenden während einer Online-Konferenz tracken. Anhand dieser Muster lernt das System und trifft Entscheidungen, ob beispielsweise der Sprecher vor sinkender Aufmerksamkeit der Zuhörenden gewarnt wird. Doch genau hier liegt das Problem. Beim Auswerten großer Datenmengen wird oft der Aspekt von verzerrten (biased) Datensätzen und Algorithmen vergessen. Die Folge können unfaire Systeme sein. Ziel muss es sein, dass das System im Zuge der Gleichberechtigung und Fairness niemanden benachteiligt oder diskriminiert.
Nutzerakzeptanz
All die zuvor benannten Risiken beeinflussen maßgeblich die Akzeptanz das System zu nutzen. Auch allgemeine Ängste innerhalb der Bevölkerung gegenüber Künstlicher Intelligenz könnten die Nutzerakzeptanz negativ beeinflussen. Daher ist es wichtig (potenziellen) Usern transparent aufzuzeigen, für welchen Zweck die Daten genutzt werden und wie der Datenlebenszyklus aussieht. Im Vordergrund sollte stehen, welche persönlichen Vorteile die Nutzung der Technologie mit sich bringt und dass sie zum Beispiel nicht zur Überwachung eingesetzt wird.
Risiken: Ein Beispiel aus der Praxis
Zu Anfang der Pandemie brachte Zoom ein Feature auf den Markt, das sich ähnlichen Ideen bediente. Bei dem Feature wurde die Aufmerksamkeit der Zuhörenden nicht auf Grundlage ihrer Bild- oder Audiodaten gemessen, sondern auf Grundlage dessen, ob die Zoom-Meeting-Ansicht geöffnet und aktiv war oder nicht. Wenn ein Teilnehmender den Zoom Desktop Client oder die Mobile App für mehr als 30 Sekunden nicht „im Fokus“ behielt, wurde dem Gastgebenden eine Uhranzeige neben dem Namen des Teilnehmenden aufgeblendet. Diese Verfolgungsfunktion konnte zwar auch deaktiviert werden, der Administrator konnte sie aber für alle Nutzerinnen und Nutzer verbindlich machen. Zum 2. April 2020 wurde dieses Feature eingestellt.
Unserer Einschätzung nach lässt sich solch ein KI-gestütztes System nicht von heute auf morgen aus dem Boden stampfen. Gerade weil es um das Messen von persönlichen kognitiven Eigenschaften des Menschen im Arbeitsumfeld geht, kann oder würde es Widerstände gegen ihren Einsatz geben. Erst durch Nutzung einer solchen Technologie würden die persönlichen Vorteile erkannt und gegebenenfalls die kritische Haltung überdacht werden. Für das Ausrollen eines Systems dieser Art bietet sich ein dreistufiges Modell an:
Nun ist eure Meinung gefragt!
Was haltet ihr von der Idee, dass Künstliche Intelligenz die Aufmerksamkeit in Videokonferenzen unterstützt? Welche weiteren Themen sollten aus Eurer Sicht bei einer Einführung eines solchen Systems berücksichtig werden? Welche Algorithmen würden sich eurer Meinung nach für eine schnelle, aber auch gute Vorhersage der Aufmerksamkeit anbieten? Nehmt gern Kontakt mit mir auf, ich freue mich auf den Austausch.