Czy klawiatura i mysz odejdą do lamusa? O głosowej kontroli AI
Wszystko wskazuje na to, że praca z komputerem może wyglądać zupełnie inaczej, niż jesteśmy do tego przyzwyczajeni. Co byście powiedzieli na urządzenie, które zrozumie nie tylko, co mówicie, ale też jak się czujecie, i adekwatnie na to odpowie? Właśnie nad czymś takim pracuje Anthropic, a ich asystent AI o nazwie Claude, dzięki współpracy z Hume AI i narzędziem Empathic Voice Interface (EVI) 2, pozwoli na zmianę przyzwyczajeń dotyczących sterowania komputerem.
Może brzmi to jak science fiction, ale Claude w duecie z EVI nie tylko „rozumie” to, co mówimy, ale może także „odczuwać” nasze emocje w głosie i dostosowywać swoje reakcje. To nie tylko rozmowa – to sposób na kontrolowanie komputera bez dotykania myszki czy klawiatury.
Jak działa Claude z głosową kontrolą?
Cały proces jest dość ciekawy. Najpierw mówicie coś do EVI, a on zamienia wasze słowa na tekst. Ten trafia do Claude, który wykonuje potrzebne operacje na komputerze – przesuwa kursor, klika przyciski czy nawet robi zrzuty ekranu. Następnie Claude, w przystępny sposób, opisuje swoje działania słowami. Te tekstowe wyjaśnienia są przekształcane z powrotem przez EVI w płynną, niemal ludzką mowę. W efekcie uzyskujemy rozmowę z AI, która jednocześnie realizuje zadania, jakie jej powierzamy.
Wyobraźcie sobie taką sytuację: jesteście zestresowani i mówicie swojej AI, coś w stylu: „Nie ogarniam mojego planu dnia, możesz to uporządkować?”. W odpowiedzi słyszycie spokojny głos, który nie dość, że mówi wam, co już uporządkował, to jeszcze robi to na waszych oczach. Pomocne, prawda?
Empatyczna rozmowa z AI – nowy poziom interakcji
Hume AI uważa, że aby korzystanie z AI było intuicyjne, potrzebne są emocje. I nie chodzi tylko o to, by AI odpowiadało w miły sposób. Kluczowe jest to, żeby naprawdę odczuwać, że maszyna rozumie, w jakim jesteśmy stanie emocjonalnym, i dostosowuje się do tego. Jak mówi Alan Cowen, założyciel Hume:
„Claude ma elokwencję i osobowość, którą ludzie uwielbiają. Dzięki integracji z EVI, stworzyliśmy system, który buduje płynne, kontekstowo świadome rozmowy, wydające się zaskakująco ludzkie.”
Warto też wspomnieć, że głosowe AI, takie jak Microsoft Copilot Voice czy Advanced Voice Mode w ChatGPT, powoli wysuwają się na pierwszy plan. Mają one ogromną przewagę nad wcześniejszymi asystentami głosowymi od Amazona czy Google dzięki temu, że z łatwością zmieniają temat rozmowy i nadążają za naszym tokiem myślenia.
Korzyści i potencjalne wyzwania
Technologia taka jak Claude z EVI niesie ze sobą obiecujące możliwości. Pozwala osobom z niepełnosprawnościami łatwiej korzystać z komputerów, umożliwiając pełną obsługę za pomocą głosu. Ułatwia także pracę osobom zajętym różnymi czynnościami jednocześnie – od gotowania po prowadzenie samochodu.
Ale, jak to często bywa z AI, pojawiają się pewne wyzwania. Co jeśli AI zacznie „widzieć” coś nieistniejącego? Błąd w interpretacji polecenia mógłby prowadzić do nieprzewidzianych zmian w plikach lub aplikacjach. Nie mniej istotna jest kwestia prywatności – odpowiedzialne przetwarzanie danych takich jak głos czy aktywności użytkownika będzie tu kluczowe.
Nie da się jednak ukryć, że współpraca Anthropic i Hume AI wyznacza nową erę personalizacji w odniesieniu do technologii. Czy głosowe sterowanie stanie się naszą codziennością i wyprze klasyczne urządzenia? Cóż, pozostaje nam śledzić dalsze losy tego projektu.