02 Декабря 2021

Голос из компьютера

Долгий путь к компьютеру, читающему вслух наши мысли

Adam Rogers, WIRED: The Long Search for a Computer That Speaks Your Mind

Перевод: Александр Горлов, XX2 век

Хитрость в том, чтобы, считывая сигналы головного мозга, синтезировать в режиме реального времени речь, позволяя — одновременно — машине обучаться, а пользователю практиковаться. Постепенно в результате этой работы создаются новые системы интерфейса мозг — компьютер (ИМК).

Вот как было построено недавнее исследование: женщина говорит по-голландски в микрофон, а датчики в виде одиннадцати крошечных стержней из платины и иридия записывают создаваемые клетками её головного мозга волны.

У этой 20-летней доброволицы эпилепсия, и врачи внедрили в переднюю и левую части её мозга двухмиллиметровые стержни — на каждом несколько, от 8 до 18 штук, электродов — в надежде определить очаги болезни. Но это применение «микроакупунктуры» в рамках неврологического исследования стало крупной удачей для другой команды учёных: дело в том, что внедрённые электроды контактируют с частями мозга, ответственными за вербализацию мыслей и артикуляцию речи.

То, чем занимается эта, вторая, команда, очень интересно. После того, как женщина что-то говорит (это называют «явной речью»), а компьютер алгоритмично связывает звуки речи с активностью её головного мозга, исследователи просят её повторить сказанное. На этот раз она едва шепчет, почти беззвучно произнося слова с помощью губ, языка и челюстей. Это «неявная (intended) речь». А затем женщина повторяет всё это ещё раз, но теперь — не совершая никаких артикуляций. По просьбе исследователей она просто воображает, будто произносит слова.

synthesize-speech.jpg

Схематическое изображение эксперимента.

Это — воспроизведение обычного речевого акта в обратном порядке. В реальной жизни мы формулируем безмолвные идеи в одной части мозга, ещё одна облекает их в слова, а затем другие части мозга управляют движениями рта, языка, губ и гортани, производящими слышимую речь из звуков подходящей частоты. Здесь же компьютер позволяет мыслям женщины «проскочить без очереди»: регистрирует, что она задумала сказать (по-научному это называется «воображаемая речь»), и, интерпретируя в режиме реального времени поступающие из мозга сигналы, сразу же формирует на их основе и воспроизводит звуки. Пока эти звуки не похожи на понятные слова. Проделанная исследователями работа, результаты которой опубликованы в конце сентября (Angrick et al., Real-time synthesis of imagined speech processes from minimally invasive recordings of neural activity), носит в некотором смысле предварительный характер. Но тот простой факт, что компьютер синтезировал звуки за миллисекунды, со свойственной мышлению и практическим действиям скоростью, свидетельствует об удивительном прогрессе: интерфейсы мозг — компьютер (ИМК) выходят на уровень, который позволит давать голос людям, неспособным говорить.

Эту неспособность — следствие неврологического расстройства или повреждения головного мозга — называют анартрией. Она ужасна, она изматывает, но кое-какие средства борьбы с ней всё же есть. Страдающие от анартрии, то есть неспособные самостоятельно говорить люди могут использовать устройства, переводящие в буквы или слова движения различных частей тела; тут сгодится даже моргание. Недавно ИМК, имплантированный в кору головного мозга субъекта с синдромом изоляции (деэфферентации), позволил переводить воображаемое им создание рукописного текста в собственно текст со скоростью 90 символов в минуту. Это хорошо, но не отлично: средняя скорость беседы на английском языке — примерно 150 слов в минуту.

К сожалению, формировать и производить речь (как и, например, управлять с помощью мысли курсором или роботизированной рукой) очень сложно. Успех зависит от обратной связи, от 50-миллисекундной петли между моментом, в который мы что-то говорим, и моментом, в который мы это слышим. Петля обратной связи позволяет людям контролировать качество собственной речи в режиме реального времени. Поэтому человеку, который учится говорить, очень важно прежде всего слушать речь: издавать звуки, слышать их (используя уши, слуховую кору и другие части мозга) и сравнивать то, что получается, с тем, что хочется получить.

Проблема в том, что даже лучшим ИМК и компьютерам на переход от регистрации мозгового сигнала к изданию звука нужно намного больше времени. Команда, работающая с голландскоязычной женщиной, сумела сократить это время до 30 миллисекунд, однако звуки, издаваемые их системой, были неразборчивы, в них не угадывались слова. Если это удастся исправить, то, теоретически, 30-миллисекундный промежуток достаточно краток, чтобы обеспечить обратную связь, которая позволила бы пользователю, практикуясь на такой системе, со временем научиться использовать её лучше. «У нас очень маленький набор данных, всего из ста слов, и, кроме того, у нас было очень мало времени для проведения эксперимента, поэтому мы не смогли предоставить ей [женщине-субъекту исследования] возможность как следует попрактиковаться, — говорит Кристиан Херфф (Christian Herff), информатик из Маастрихтского университета (Maastricht University) и один из ведущих авторов вышеупомянутой статьи. — Мы всего лишь хотели показать, что, тренируясь на слышимой речи, вы можете кое-что получить и из речи воображаемой».

Нейрофизиологи исследуют получение речевых сигналов из человеческого мозга уже, как минимум, 20 лет. Узнав больше о возникновении речи, исследователи, используя электроды и визуализацию, сканируют мозговую активность во время речевого акта. Шаг за шагом они продвигаются вперёд, получая данные, которые можно превращать в гласные и согласные звуки. Но это даётся нелегко. «В частности, очень трудно исследовать воображаемую речь и очень трудно улавливать её смысл, — говорит Киаран Куни (Ciaran Cooney) из Ольстерского университета (Ulster University), который изучает ИМК и синтез речи. — Здесь идут интересные дискуссии, потому что нужно выяснить, насколько тесно связаны друг с другом воображаемая и явная речь, если наличие этой связи мы собираемся подтвердить с помощью явной речи».

Особенно сложно интерпретировать сигналы из частей мозга, отвечающих за производство речи, — особенно из нижней лобной извилины. (Вы попадёте туда, если проткнёте череп вязальной спицей чуть выше виска. [Не вздумайте это сделать.]) Воображаемая речь — это не только ваш размышляющий разум, или ваш внутренний монолог; это, вероятно, больше похоже на то, что вы слышите в уме, обдумывая, что сказать. То, как мозг делает это, может отличаться — синтаксически, фонологически, ритмически — от того, что в действительности выходит из вашего рта. У разных людей кодирование информации в речевых зонах мозга может осуществляться по-разному. Кроме того, прежде чем рот проделает какую-либо работу, всё, что отсортировали части мозга, связанные с языком, должно пройти путь к премоторным и моторным отделам коры, которые управляют физическими движениями. Если вы пытаетесь создать систему, которую будут использовать люди, неспособные говорить, они не объяснят вам своими собственными словами, какой должна быть эта система, не подтвердят, что она синтезирует именно то, что они хотят сказать. При этом каждая ИМК-платформа для синтеза речи требует такого рода подтверждения и обучения. «Исследование воображаемой речи — серьёзная проблема, потому что у нас нет наблюдаемых данных», — говорит Херфф.

В 2019 году команда, работающая в Калифорнийском университете в Сан-Франциско (UC San Francisco), — нашла элегантный обходной путь. Учёные просили субъектов исследования говорить и записывали сигналы не только из частей головного мозга, ответственных за производство слов (нижней лобной извилины), но также из регионов, управляющих движениями рта, языка, челюстей и т. д. Это вентральная сенсомоторная кора, которая находится над тем местом, куда вы не ткнули вязальной спицей. Команда создала систему машинного обучения, способную превращать вентральные сигналы в виртуальную версию речевых механических движений и синтезировать понятные слова, но не в режиме реального времени. Этот подход называется системой открытой петли.

Данная команда во главе с нейробиологом UCSF Эдди Чангом (Eddie Chang) конкурирует с командой, которая экспериментирует с голландскоязычной женщиной, и получает финансирование от компании, которую мы ещё не отвыкли называть «Фейсбуком». В этом году Чанг и его коллеги опубликовали сенсационные результаты ещё одного исследования: в июле они поведали о том, как подключили электроды к речевым центрам и смежным с ними районам коры головного мозга субъекта, онемевшего в результате инсульта. Тренируя этого человека полтора года, удалось получить систему, способную улавливать намерение сказать любое слово из пятидесяти. С помощью алгоритма, который предсказывает наиболее вероятный порядок слов, и синтезатора речи созданная исследователями система позволила субъекту произносить со скоростью примерно 12 слов в минуту предложения, состоящие из восьми слов. Это была первая проверка на практике возможностей такого рода систем при использовании их людьми, страдающими от анартрии. Синтетическая речь применялась пока не в режиме реального времени, но более мощные компьютеры позволят ускорить дело. «Мы смогли использовать его [субъекта] неразборчивые, почти беззвучные сигналы для производства и декодирования речи в рамках созданного нами языка, — говорит Гопала Ануманчипалли (Gopala Anumanchipalli), информатик и нейроинженер UCSF и Калифорнийского университета в Беркли (UC Berkeley), занимавшийся данным исследованием. — И уже сейчас мы работаем над тем, чтобы субъект мог говорить в режиме реального времени».

Данный подход, сводящий лексикон к 50 словам и благодаря этому сделавший результаты работы команды Чанга более точными и понятными, имеет недостатки. Поскольку нет петли обратной связи, субъект не может исправить ошибку компьютера, когда тот неправильно подобрал слова. Кроме того, субъекту потребовалась 81 неделя, чтобы научиться использовать 50 слов созданного для него лексикона. Представьте, как долго пришлось бы учиться в случае с лексиконом, содержащим 1000 слов. «Чем больше слов вы добавляете в эту систему, тем меньше её пригодность для использования на практике, — говорит Фрэнк Гюнтер (Frank Guenther), речевой нейробиолог Бостонского университета (Boston University), не работавший над данным проектом. — При переходе к 100 словам декодировать каждое слово становится так сложно, так возрастает количество возможных комбинаций, что делать релевантные предсказания становится очень трудно. Между тем, лексикон большинства людей содержит не 50, а тысячи слов».

Стремление учёных, в частности группы Херффа, создать систему замкнутой петли, работающую в режиме реального времени, объясняется тем, что они ставят перед собой цель предоставить пользователям возможность производить не слова, а звуки. Такие фонемы, как «oh», «hh» или даже слоги и гласные звуки, являются атомарными единицами речи. Создайте для них библиотеку нейронных коррелятов, которые способна воспринимать машина, — и пользователь сможет производить столько разных слов, сколько захочет. Теоретически это так. Гюнтер входил в команду, которая в 2009 году использовала ИМК, имплантированный в моторную кору субъекта с синдромом изоляции, чтобы дать ему возможность производить гласные звуки (но не полные слова) с задержкой, составляющей всего 50 миллисекунд, с очень приличной для начала точностью. «Идея, лежавшая в основе системы замкнутой петли, заключалась в том, чтобы просто-напросто создать акустические возможности для производства любых звуков, — говорит Гюнтер. — С другой стороны, система с лексиконом из 50 слов станет намного лучше нынешней, если будет работать очень надёжно, и команда Чанга гораздо ближе к решению проблемы надёжного декодирования, чем какая-либо другая».

Для решения этой проблемы, которое, вероятно, потребует лет пять, нужно объединить точность и понятность с производством звуков речи в режиме реального времени. «Это общее направление, все группы стремятся сделать это, и сделать в режиме реального времени», — говорит Ануманчипалли.

Здесь могут помочь более крупные и более чуткие электродные массивы. Их созданием занимается Meta, бывший «Фейсбук», а также Neuralink Илона Маска. Извлечение большего количества данных из речевых зон головного мозга может облегчить производство в режиме реального времени понятных синтетических фонем и поиск ответа на вопрос, способен ли мозг разных людей работать примерно одинаково. Если способен, процесс обучения субъектов использованию ИМК окажется довольно простым, поскольку каждая система будет начинать с одного и того же базового уровня. В этом случае процесс обучения станет похожим на визуальный контроль за правильностью перемещений курсора и на выработку — с помощью процессов биологической обратной связи, которые пока не очень-то понятны, — более эффективных и надёжных способов действий.

В противном случае приоритетным направлением исследовательской деятельности станет улучшение алгоритмов понимания и прогнозирования того, что пытается делать головной мозг. Размещать на голове субъекта специально изготовленные электродные массивы наилучшим, с нейрохирургической точки зрения, образом было бы здорово, но мешают действующие ныне правила исследовательской этики. «В Европе делать это очень трудно, — говорит Херфф. — Поэтому в настоящее время мы сосредоточились на использовании более сложного алгоритма, позволяющего существенно повысить качество речи, и на вопросах обучения».

Для группы Ануманчипалли эта цель — главная. У сегодняшнего ИМК, одобренного для использования субъектами, электродов меньше, чем нужно учёным для создания полной картины, хотя многие надеются, что будущие технологии, например компании Neuralink, улучшат ситуацию. «Нас, несомненно, всегда будут ограничивать в наших исследованиях головного мозга, — подчёркивает Ануманчипалли. — Раз так, то, какими бы ни были эти ограничения, мы должны быть готовы алгоритмически компенсировать порождаемый ими дефицит научных данных». Это означает, что нужно думать над тем, как лучше собирать полезную информацию, «как создать протокол, который идеально подходит для того, чтобы субъект изучал систему, а система изучала субъекта». Помимо данных из головного мозга будущий синтезатор речи сможет принимать на входе все виды других биометрических потоков. Он сможет использовать, говорит Ануманчипалли, такие индикаторы намерения или желания, как локомоции или даже частоту сердцебиения. И любая новая система будет создаваться с таким расчётом, чтобы её легко было осваивать и использовать, чтобы пользователь не отказался от неё из-за усталости или разочарования. «По-моему, это не за горами, — считает Ануманчипалли. — Принципы работы уже полностью выявлены и обоснованы. Прогресс медленный, но думаю, что подход, который мы совершенствуем, — правильный». По-видимому, воображаемая речь когда-то перестанет быть только воображаемой.

Портал «Вечная молодость» http://vechnayamolodost.ru


Нашли опечатку? Выделите её и нажмите ctrl + enter Версия для печати

Статьи по теме