Sztuczna inteligencja przywróciła głos sparaliżowanej kobiecie

Dodano 4 września 2023

Autor: Michał Krajski

⁰

Sztuczna inteligencja / Pixabay

Przełomowy implant mózgowy i cyfrowy awatar pozwalają osobie po udarze mówić z mimiką twarzy po raz pierwszy od 18 lat.

W wieku 30 lat Ann doznała udaru pnia mózgu, w wyniku którego została poważnie sparaliżowana. Straciła kontrolę nad wszystkimi mięśniami w swoim ciele i nie była w stanie nawet oddychać. Nastąpiło to nagle pewnego popołudnia, z powodów, które wciąż pozostają tajemnicze.

Przez następne pięć lat Ann kładła się spać każdej nocy w obawie, że umrze we śnie. Minęły lata fizykoterapii, zanim mogła poruszać mięśniami twarzy na tyle, by śmiać się lub płakać. Mimo to mięśnie, które pozwoliłyby jej mówić, pozostały nieruchome.

"Z dnia na dzień wszystko zostało mi odebrane" - napisała Ann, korzystając z urządzenia, które umożliwia jej powolne pisanie na ekranie komputera za pomocą niewielkich ruchów głowy. "Miałam 13-miesięczną córkę, 8-letniego pasierba i 26-miesięczne małżeństwo".

Dziś Ann pomaga naukowcom z UC San Francisco i UC Berkeley w opracowaniu nowej technologii mózg-komputer, która pewnego dnia może pozwolić ludziom takim jak ona na bardziej naturalną komunikację za pośrednictwem cyfrowego awatara przypominającego człowieka.

To pierwszy raz, kiedy mowa lub mimika twarzy zostały zsyntetyzowane na podstawie sygnałów mózgowych. System może również dekodować te sygnały na tekst z prędkością prawie 80 słów na minutę, co stanowi znaczną poprawę w stosunku do 14 słów na minutę, które dostarcza jej obecne urządzenie komunikacyjne.

Edward Chang, MD, przewodniczący chirurgii neurologicznej w UCSF, który pracował nad technologią znaną jako interfejs mózg-komputer (BCI) przez ponad dekadę, ma nadzieję, że ten najnowszy przełom badawczy, opublikowany 23 sierpnia 2023 r. w Nature, doprowadzi do zatwierdzonego przez FDA systemu, który umożliwia mowę z sygnałów mózgowych w najbliższej przyszłości.

"Naszym celem jest przywrócenie pełnego, ucieleśnionego sposobu komunikacji, który jest dla nas najbardziej naturalnym sposobem rozmowy z innymi" - powiedział Chang, który jest członkiem UCSF Weill Institute for Neurosciences i Jeanne Robertson Distinguished Professor. "Te postępy znacznie przybliżają nas do uczynienia tego prawdziwym rozwiązaniem dla pacjentów".

Przed udarem w 2005 r. Ann była nauczycielką matematyki w szkole średniej w Kanadzie. W 2020 roku opisała swoje życie od tego czasu w artykule, który napisała, skrupulatnie wpisując literę po literze, na zajęcia z psychologii.

"Zespół zamknięcia w sobie, czyli LIS, jest dokładnie taki, jak brzmi" - napisała. "Jesteś w pełni świadomy, masz pełne czucie, wszystkie pięć zmysłów działa, ale jesteś zamknięty w ciele, w którym nie działają żadne mięśnie. Nauczyłam się ponownie samodzielnie oddychać, mam teraz pełny ruch szyi, mój śmiech powrócił, mogę płakać i czytać, a z biegiem lat mój uśmiech powrócił, a ja jestem w stanie mrugnąć i powiedzieć kilka słów".

W miarę powrotu do zdrowia zdała sobie sprawę, że może wykorzystać własne doświadczenia, aby pomóc innym, a teraz aspiruje do zostania doradcą w ośrodku rehabilitacji ruchowej.

"Chcę, aby pacjenci widzieli mnie i wiedzieli, że ich życie jeszcze się nie skończyło" - napisała. "Chcę im pokazać, że niepełnosprawność nie musi nas powstrzymywać ani spowalniać".

Dowiedziała się o badaniu Changa w 2021 roku po przeczytaniu o sparaliżowanym mężczyźnie o imieniu Pancho, który pomógł zespołowi przetłumaczyć sygnały mózgowe na tekst, gdy próbował mówić. Wiele lat wcześniej doznał on również udaru pnia mózgu i nie było jasne, czy jego mózg nadal może sygnalizować ruchy potrzebne do mówienia. Nie wystarczy tylko o czymś myśleć; osoba musi faktycznie próbować mówić, aby system mógł to odebrać. Pancho stał się pierwszą osobą żyjącą z paraliżem, która zademonstrowała, że możliwe jest dekodowanie sygnałów mowy z mózgu na pełne słowa.

Aby zsyntetyzować mowę Ann, zespół opracował algorytm syntezy mowy, który spersonalizował tak, aby brzmiał jak jej głos przed urazem, wykorzystując nagranie Ann przemawiającej na swoim ślubie.

"Mój mózg czuje się dziwnie, gdy słyszy mój zsyntetyzowany głos" - napisała w odpowiedzi na pytanie. "To jak usłyszeć starego przyjaciela".

Z niecierpliwością czeka na dzień, w którym jej córka - która zna tylko bezosobowy, brytyjski akcent głosu swojego obecnego urządzenia komunikacyjnego - również będzie mogła go usłyszeć.

Zespół animował awatara Ann za pomocą oprogramowania, które symuluje i animuje ruchy mięśni twarzy, opracowanego przez Speech Graphics, firmę zajmującą się animacją twarzy opartą na sztucznej inteligencji. Naukowcy stworzyli niestandardowe procesy uczenia maszynowego, które pozwoliły oprogramowaniu firmy połączyć się z sygnałami wysyłanymi z mózgu Ann, gdy próbowała mówić, i przekształcić je w ruchy na twarzy jej awatara, sprawiając, że szczęka otwiera się i zamyka, usta wysuwają się i zaciskają, a język unosi się i opada, a także ruchy twarzy oznaczające szczęście, smutek i zaskoczenie.

"Nadrabiamy połączenia między jej mózgiem a traktem głosowym, które zostały przerwane przez udar" - powiedział Kaylo Littlejohn, doktorant pracujący z Chang i dr Gopalą Anumanchipalli, profesorem inżynierii elektrycznej i nauk komputerowych na UC Berkeley.

Źródło: www.ucsf.edu