
Внутри новости та же картинка и следующий текст:
Без «речи» человек видит мир иначе: речь физически меняет работу зрительной коры головного мозга.
В когнитивной науке долго идет спор двух сторон. Одна сторона утверждает: зрение — это сугубо механический процесс, камера, передающая картинку в мозг. Другая (сторонники гипотезы Сепира-Уорфа) настаивает: язык, на котором мы говорим, меняет то, как мы видим мир.
Новое исследование, кажется, ставит точку в этом споре. Используя современные нейросети (вроде CLIP) и данные пациентов с повреждением мозга — ученые доказали: без языка мы видели бы мир совсем иначе.
Для изучения процессов, происходящих в мозге, исследователи использовали глубокие нейронные сети в качестве математических моделей. Искусственные нейросети достигли того уровня сложности, который позволяет использовать их как суррогатные модели для проверки гипотез о работе биологических систем. Если активность искусственной сети при просмотре изображений схожа с активностью мозга человека, это позволяет сделать выводы о принципах кодирования информации в живой ткани.
В эксперименте сравнивались три архитектуры компьютерного зрения, принципиально различающиеся алгоритмами обучения:
- MoCo (Self-supervised learning): модель, обученная без учителя. Она анализирует миллионы изображений, выявляя закономерности в пикселях, текстурах и геометрии объектов, но не имеет доступа к текстовым меткам. Эта модель имитирует чистое зрение, лишенное языкового контекста.
- ResNet (Supervised classification): стандартная модель классификации, обученная сопоставлять изображение с конкретным словом-меткой (например, «автомобиль» или «яблоко»). Это имитирует уровень категоризации объектов.
- CLIP (Vision-Language model): мультимодальная система, которая обучается на парах «изображение — текстовое описание». В отличие от ResNet, она анализирует не просто ярлыки, а сложные семантические конструкции и отношения между объектами, выраженные в естественном языке.
Для доказательства того, что именно языковая система модулирует зрение, авторы перешли к анализу данных пациентов с очаговыми поражениями мозга. В выборку вошли 33 пациента, перенесших ишемический инсульт.
Ключевым объектом исследования стали проводящие пути белого вещества — аксоны, физически соединяющие различные участки коры. Ученых интересовал конкретный тракт, связывающий зрительную кору (VOTC) с левой угловой извилиной (Angular Gyrus, AG). Левая угловая извилина является очень важным узлом языковой сети, отвечающим за интеграцию семантической информации (описание связи между знаками, символами и их содержанием) и понимание сложных понятий.
Логика эксперимента была следующей: если преимущество модели CLIP в объяснении работы мозга действительно основано на взаимодействии зрения и языка, то физический разрыв связи между зрительной корой и языковым центром должен устранить этот эффект.
Результаты подтвердили гипотезу с высокой точностью:
- У пациентов, у которых структурная целостность путей между VOTC и левой угловой извилиной была сохранена, активность зрительной коры по-прежнему лучше всего описывалась моделью CLIP.
- У пациентов с повреждением этого тракта наблюдалось статистически значимое снижение соответствия модели CLIP.
- Самое важное: при нарушении связи с языковым центром активность зрительной коры начинала лучше коррелировать с моделью MoCo — алгоритмом, который опирается исключительно на визуальные характеристики низкого уровня.
Результаты свидетельствуют о том, что визуальная информация в мозге не обрабатывается изолированно. В процессе восприятия зрительная кора (VOTC) постоянно взаимодействует с языковой сетью через угловую извилину.
Этот процесс можно описать как динамическую модуляцию: языковая система предоставляет зрительной коре высокоуровневые семантические шаблоны («что это может быть» и «как это связано с другим объектами»), что позволяет зрительной системе более эффективно организовывать входящий поток визуальной информации.
Когда эта связь нарушается вследствие инсульта, зрительная кора не прекращает работу, но переходит в режим автономного функционирования. В этом состоянии она обрабатывает объекты, опираясь преимущественно на их форму, текстуру и физические параметры (подобно модели MoCo), теряя доступ к богатому контекстуальному слою, который обеспечивает язык.
