1

Ученые из Техасского университета в Остине добились того, что большая языковая модель (GPT), изучая фМРТ мозга испытуемых людей, смогла пересказывать подкаст, который они слушали, или видео, которое они смотрели.

Это выглядит так: нейросеть получает данные из мозга и выдает текстовый пересказ сюжета подкаста, фразу за фразой. Человек мог даже рассказывать историю мысленно, нейросеть и в этом случае была способна пересказать историю по активности мозга. В том же исследовании людям показывали короткие видео без звука, и та же модель по данным фМРТ затем описывала происходящее на экране.

«Любая достаточно развитая технология неотличима от магии», гласит третий закон Артура Кларка. Здесь магия заключается в том, что нейросеть не пыталась угадывать слова или предметы, которые слышит и видит человек, а просто извлекала из его мозга смысл речи и суть событий. Это стало возможно благодаря генеративному ИИ: он не «расшифровывает» отдельные фонемы или образы, как это делали в других похожих экспериментах, а пробует сочинить фразу или сюжет, которые наиболее точно соответствуют активности мозга.

На основе записей фМРТ модель создает свою историю, и она оказывается близкой по смыслу к реальной истории, услышанной, увиденной или придуманной человеком. Иногда вплоть до совпадения фраз. В этом сила генеративных моделей — они способны сами порождать данные. Правильнее назвать это не расшифровкой, а реконструкцией мыслей человека. И это работает.