Digitale Assistenten in Form intelligenter Lautsprecher sind ein zweischneidiges Schwert. Sie versprechen zwar einfache Interaktion, gefährden aber die Privatsphäre. Zum Glück gibt es freie Alternativen.
Das Bild vom digitalen Assistenten als Lautsprecher (plus Mikro) ist sehr unscharf, denn dabei handelt es sich im Grunde nur um die Benutzerschnittstelle. Das eigentliche Assistenzsystem befindet sich in der Cloud der großen Player und greift dort auf alle wichtigen Ressourcen zu. Dazu zählen insbesondere Spracherkennung (Speech-to-Text, STT) und Sprachausgabe (Text-to-Speech, TTS) sowie eine künstliche Intelligenz (KI), die die Absicht des Sprechers ermitteln soll.
Während der Ressourcenbedarf für die ersten beiden Disziplinen sich inzwischen in Grenzen hält, benötigt die KI so viel Rechenleistung und Daten, wie sie nur gerade bekommen kann. Darüber hinaus braucht sie einen Kontext sowie Schnittstellen zu anderen Anwendungen. Die Frage nach der Abfahrtszeit der nächsten S-Bahn lässt sich ohne das Wissen um den momentanen Standort und die übliche Fahrtrichtung nicht sinnvoll beantworten. Ebenso ergibt ein “setze Milch auf die Einkaufsliste” ohne Zugriff auf eine Einkaufs-App keinerlei Sinn. Die Vorstellung, digitale Assistenten könnten auf magische Weise den Alltag erleichtern, ist also überzogen oder zumindest nur nach aufwendiger Integration ansatzweise möglich. Die Basisfunktionen sollten die digitalen Helfer trotzdem beherrschen und sich dank offener Schnittstellen bei Bedarf in andere Systeme einbinden lassen, wie das Smart Home.
In die Auswahl für unseren Test schafften es zwei Systeme: SEPIA des deutschen Entwicklers Florian Quirin und Mycroft von Mycroft.ai. Beide laufen (auch) auf einem Raspberry Pi. Als Grundausstattung sollten Sie mindestens einen RasPi 3B+ einplanen, besser einen RasPi 4. Als weitere Komponenten kommen ein Mikrofon und ein Lautsprecher dazu. Beim Autor kamen der ReSpeaker von Seeed [1] sowie ein einfacher Lautsprecher am Kopfhörerausgang des Raspberry Pi zum Zug.
SEPIA
Die schicke Homepage von SEPIA [2] beschreibt den Anspruch und die grobe Architektur des Systems (Abbildung 1). Sie fungiert aber nur als Eyecatcher für die eigentlichen Produktseiten, die auf Github [3] gehostet sind und auf vorbildliche Weise eine vollständige Dokumentation bereithalten. SEPIA steht für “Self-hosted Extendable Personal Intelligent Assistant”. Das System setzt sich aus verschiedenen Komponenten zusammen. Der Client liefert das User-Interface und unterstützt Sprache, Text und Touch. Neben einer Lösung auf Basis eines Raspberry Pi gibt es eine Android- sowie eine Web-App.

Abbildung 1: Die komplette SEPIA-Architektur hat der Entwickler Florian Quirin auf Github veröffentlicht. Quelle: Florian Quirin
Der SEPIA-Server bildet die Zentrale und kümmert sich um die Interpretation der Anfrage, den Dialog mit dem Benutzer und die Integration mit Fremdsystemen wie OpenHAB. Eine weitere Server-Komponente (STT-Server) wandelt Sprache in Text um. Die logische Trennung der Server erlaubt außerdem Setups, bei denen die Spracherkennung lokal, die Verarbeitung jedoch in der Cloud stattfindet.
Mycroft Mark II
Während es sich bei SEPIA um das Werk eines engagierten Entwicklers handelt, steckt hinter Mycroft.ai [4] ein Startup. Das Ziel lag wie bei SEPIA darin, einen auf Privatsphäre getrimmten digitalen Assistenten zu schaffen. Mycrofts Produkt kombiniert Soft- und Hardware (Abbildung 2). Aktuell steht der Mark II in den Startlöchern: Die FCC-Zulassung für die USA liegt vor, eine CE-Bescheinigung ist in Arbeit.

Abbildung 2: Beim Mycroft Mark II bekommen Sie neben der Software direkt die nötige Hardware mitgeliefert. Quelle: Mycroft AI, Inc.
Hinter der Bezeichnung Mark II verbirgt sich ein Lautsprecher mit 4,3-Zoll-Display. Im Innern werkelt ein Raspberry Pi 4, auf einer Zusatzplatine sitzen die notwendigen Chips für Sound und Bildschirm. Die Designdateien für das Gehäuse und die Zusatzplatine einschließlich kompletter Produktionsdateien liegen wie die eingesetzte Software als Open Source auf Github [5].
Spekulieren Sie auf einen Mark II, müssen Sie ihn derzeit noch direkt in den USA für 299 US-Dollar plus Versand und Steuern ordern. Zu Redaktionsschluss ließ sich das Gerät jedoch frühestens für Januar 2023 vorbestellen. Die Mycroft-Lösung läuft aber nicht nur auf der vom Hersteller angebotenen Hardware, sondern auch auf einem selbst beschafften Raspberry Pi, dem Sie dann noch ein passendes Mikrofon und einen Lautsprecher spendieren müssen.
Bezüglich der grundlegenden Softwarearchitektur unterscheiden sich die beiden Lösungen kaum. Im Gegensatz zu SEPIA arbeitet Mycroft jedoch als Proxy für Standarddienste in der Cloud. So verwendet es normalerweise die STT- und TTS-Engine von Google. Google sieht dabei nur den Proxy und weiß nicht, ob alle Anfragen von einer Person oder jeweils wenige Anfragen von vielen Anwendern kommen. Die Kosten für das Nutzen der Google-Dienste übernimmt Mycroft. Ohne Benutzerkonto bei Mycroft funktioniert dieses Setup freilich nicht, deshalb müssen Sie zumindest Mycroft vertrauen. Allerdings können Sie neben den Standard-Engines andere, auch selbst gehostete Lösungen konfigurieren.
Mycroft: Installation
Die Installation von SEPIA und Mycroft ist jeweils gut dokumentiert. Engagierten Anwendern wie den Lesern dieses Magazins sollte sie recht mühelos gelingen. Deswegen verzichten wir auf eine detaillierte Anleitung und gehen stattdessen auf die eine oder andere Besonderheit ein.
Der Fokus von SEPIA liegt auf “self-hosted”. Das wirkt sich direkt auf die Systeminstallation aus, weil schlicht mehr Softwarekomponenten im Spiel sind. Deshalb widmen wir uns zuerst der einfacheren Übung Mycroft. Sie benötigen wie erwähnt zunächst ein Benutzerkonto, das Sie über die Mycroft-Homepage anlegen. Neben der freien Variante können Sie eine Version mit monatlicher (2 US-Dollar) oder jährlicher Zahlung (20 Dollar) wählen. Unterschiede in der Funktion gibt es aktuell nicht.
Mycroft stellt mit Picroft ein vorinstalliertes Image für den Raspberry Pi 4 bereit. Es basiert auf “Buster” Lite und liegt wie üblich auf einer SD-Karte. Für den ersten Boot-Vorgang sollten Sie den RasPi ans Ethernet hängen. Darüber hinaus erweisen sich Tastatur und Bildschirm als nützlich. Der alternative Weg via SSH oder WLAN funktioniert ebenfalls und ist in der Doku beschrieben.
Nach der Installation startet ein Wizard (Abbildung 3), sobald Sie sich als der übliche User pi mit dem Passwort mycroft anmelden. Er aktualisiert das System, lädt insbesondere die Mycroft-Software und installiert alle Abhängigkeiten. Anschließend konfiguriert und testet er Mikrofon und Lautsprecher. Die letzten beiden Schritte betreffen die Sicherheit des Systems: So bietet Mycroft an, sudo mit einem Passwort zu schützen, und Sie können ein eigenes Kennwort für den User pi setzen.
Der ReSpeaker des Autors benötigt einen speziellen Treiber, damit Pi OS das Mikrofon erkennt. In so einem Fall brechen Sie den Wizard ab, installieren die Hardware, und der Wizard startet nach dem nächsten Anmelden erneut. Manuell rufen Sie ihn jederzeit über den Befehl mycroft-setup-wizard auf.
Sobald er seine Aufgaben erledigt hat, startet das Programm mycroft-cli-client. In dieser einfach gestrickten Konsolenanwendung sehen Sie, was auf dem System abläuft – zum Beispiel, was es versteht und welche sogenannten Skills es ausprobiert, um Ihre Fragen zu beantworten. Falls das Mikrofon oder die Audioausgabe nicht funktionieren, chatten Sie mithilfe dieser Anwendung direkt mit dem Assistenten.







