Недавно на АШ опубликовали копию статьи, появившейся на ZeroHedge. В ней Илону Маску приписывается стремление организовать новый “Манхэттенский проект», т.е. нечто, сопоставимое по «судьбоносности» с созданием атомного оружия. Упоминаются прорывные «мировые модели» (World Models), которые, якобы, позволят разработчикам Маска в рамках проекта xAI уже в обозримом будущем получить физически осмысленный ИИ, т.е., по сути, сильный ИИ. Кусок экономики, который потенциально способны охватить эти модели, оценивается в 100 трлн. долларов, что сравнимо со всей мировой экономикой. Автор публикации на АШ видит в планах Маска тайный замысел реализовать «Матрицу» для всего человечества под своим контролем. Я, естественно, захотел разобраться – сколько лет, примерно, мне осталось жить вне «Матрицы»?
Кратко об истории вопроса
В одной из своих предыдущих публикаций я писал о трёх путях развития и совершенствования ИИ, как они видятся известному учёному-футурологу из Оксфорда Нику Бострому:
- Инструментальный ИИ
Успехи нейробиологии в изучении функциональности мозга, позволяют использовать принципы организации обработки информации в мозге для создания моделей ИИ. За 70 лет работ по ИИ пройден путь от «старого доброго ИИ» (GOFAI) (в его основе лежит утверждение, будто все интеллектуальное поведение может быть представлено с помощью системы, которая формирует логические рассуждения на основании множества фактов и правил, описывающих рассматриваемую проблемную область) до современных нейросетевых моделей, основанных на машинном обучении. Низкоуровневое моделирование мозга не предполагается.
2. Полная эмуляция головного мозга человека
Идея, основанная на физикалистском представлении о том, что сознания и мышление – прямые продукты работы человеческого мозга. И стоит только воспроизвести мозг во всех подробностях, путём сканирования и точного воспроизведения его вычислительной структуры, как автоматически мы получим и сознание, и мышление. Работы в этом направлении ведутся ( я рассматривал их в статье по органоидному интеллекту), но успехи их скромные, а перспективы, на мой взгляд, крайне сомнительные.
3. Усовершенствование когнитивных способностей самого человека
Выдвигаются предложения использовать прямой нейрокомпьютерный интерфейс, в частности, имплантаты, что позволит человеку использовать всю мощь электронных вычислений: идеальное хранение информации, быстрые и точные арифметические расчеты, широкополосную передачу данных — в результате такая гибридная система будет принципиально превосходить по всем характеристикам деятельность головного мозга. Рассматривается и итеративная селекция эмбрионов. Речь идёт, фактически, об евгенике, создании сверхчеловека. Здесь, кстати, в лидерах Илон Маск со своей Neuralink.
Свои идеи Бостром высказал в 2014г. Прошедшие годы внесли существенные коррективы. Сильно продвинуться в «антропоморфных» направлениях 2 и 3 не удалось. Главным образом, по причине серьёзной технической сложности реализации и существующих регуляторных и этических ограничений на работу с человеческим мозгом. Поэтому, основные усилия сосредоточены в инструментальном ИИ.
Здесь можно выделить три главных стратегии:
1. Масштабирование существующих моделей
Предполагается, что если продолжать увеличивать масштабы современных моделей машинного обучения (в первую очередь трансформеров), а также число параметров, объёмы данных и вычислительных ресурсов, то в какой-то момент система самопроизвольно приобретёт общие когнитивные способности — аналогично тому, как масштабирование языковых моделей привело к появлению «проявляющихся» (emergent) способностей.
2. Нейроморфное моделирование разума
Это продолжение усилий по созданию ИИ на основе более точного моделирования человеческого разума — через нейроморфные вычисления (в стиле органоидного интеллекта), когнитивную архитектуру или гибридные системы, сочетающие символическую логику и нейросети. В рамках инструментального ИИ это самый «человекоцентричный» подход (хотя и не совпадает по ряду параметров с направлением 2 от Бострома).
3. Обучение в среде – эволюционный или агентный путь (Embodied AI)
Развитие ИИ через взаимодействие с реальным или симулированным миром — как у детей или животных. ИИ развивается как автономный агент, который учится методом проб и ошибок, получая обратную связь от среды «обитания». Попытка повторить (многократно быстрее) путь, который проделал человеческий разум в процессе эволюции.
Я уже обсуждал особенности и перспективы первой стратегии (здесь) и второй стратегии (здесь). В обсуждаемой статье про «матрицу Маска» упор делается на третьем пути, который сейчас активно развивается сразу в нескольких проектах – Robotics (OpenAI), Agent57 (DeepMind), Habitat (Meta). Пытается не отстать и Маск со своим xAI. Рассмотрим особенности и перспективы этого подхода подробнее.
Воплощённый ИИ – за и против
Обсуждая пару лет назад вопрос о перспективах больших языковых моделей (LLM) стать сильным ИИ, я утверждал:
моя позиция состоит в том, что создание сильного ИИ с необходимостью предусматривает воссоздание всей палитры процессов, входящих в понятие «субъективного опыта». И мышление здесь – лишь составная часть этого опыта, которую, в индивидуальном сознании, просто нельзя считать полноценной без остальных частей. И чтобы стать «сильным» и научиться «действительно» мыслить, ИИ, с необходимостью, должен пройти весь тот путь, который проходит средний человек, обучаясь и накапливая жизненный опыт. Можно лишь ускорить эти процессы, но нельзя их ничем заменить! А для этого, и об этом я уже неоднократно писал, такой ИИ должен быть «воплощён» в мире, то есть иметь неограниченную (по крайней мере, такую же, как и любой человек) возможность взаимодействовать с окружающим миром. Получать любую доступную информацию, влиять на происходящее, добиваясь нужного для себя результата и т.п.
Теперь это очевидно для многих. Отсюда обилие проектов «воплощённых агентов». С чего всё началось, и как это работает?
Почти всякая работа по этой теме упоминает «фундаментальную» публикацию Дэвида Ха и Юргена Шмидхубера «Can agents learn inside of their own dreams?» (Могут ли агенты обучаться внутри своих снов?). Это презентация, которая размещена на github.io в 2018г., так что степень её фундаментальности каждый может оценить самостоятельно. Вообще, этот Шмидхубер известен как один из создателей LSTM (Long Short-term Memory) - рекуррентных нейросетей, способных для своего обучения использовать прошлый опыт. Кстати, в 2019г. он был приглашён Грефом выступить на конференции Сбера AI Journey (я смотрел запись его выступления и рассматривал это событие здесь). Там он, в частности, утверждал, что создать сильный ИИ просто. Достаточно научить агент улучшать свои действия в окружающей среде, пользуясь датчиками для обратной связи («боли» при натыкании на препятствие, «голода» при низком заряде батарей и т.п.): «Всё это можно сделать в нескольких строках кода, и мы это сделали 30 лет назад».
Некоторое время эта работа воспринималась как любопытный казус, но огромный прогресс в вычислительных мощностях процессоров, ориентированных на ИИ-задачи, привел к прорыву (как и в случае LLM-нейросетей), сделав маловероятное возможным. Появились «мировые модели» (World Models - WM), которые, как раз, должны быть достаточно сложными, чтобы иметь практический смысл, для чего и нужны были огромные вычислительные мощности. Цель – научить ИИ тому, как люди и животные используют внутренние модели мира для принятия решений без необходимости пробовать всё на практике, опираясь на весь накопленный опыт.
Что такое WM? Кратко – это первый шаг на пути «воплощения» ИИ в реальном мире, взаимодействия с ним. Человек взаимодействует с реальным миром посредством пяти (шести?) органов чувств и обладает развитыми актуаторами (тело, руки, ноги и т.п.) для приспособления себя к миру и изменения мира под себя. На текущем уровне технологий скопировать полностью человеческое тело невозможно. Остаётся создать виртуального агента, живущего в виртуальном мире. Причём, мир должен быть достаточно сложным, в идеальном пределе сравнимым по сложности с реальным миром. Тогда появится шанс, что на каком-то этапе виртуальному агенту позволят выйти из клетки и выпустят в реальный мир. Именно на это делает ставку Маск в своём проекте xAI. На чём основан его оптимизм?
В отличие от традиционных моделей, таких как большие языковые модели (LLM), которые работают с статистическими корреляциями в данных, WM стремятся к причинно-следственному пониманию физики и динамики реального мира. Модели строятся так, чтобы:
- представлять текущее состояние среды в компактной форме, минимизируя потребные расчёты
- предсказывать будущие состояния при различных действиях,
- планировать и принимать решения, «воображая» последствия своих действий — без взаимодействия с реальной средой.
Здесь у меня возникает вопрос: смогут ли WM вывести фундаментальные законы физики только на основе обучающих видео и сенсорных данных? Ведь если ответ однозначно отрицательный, то стоит ли «огород городить»? Так как в реальном мире такой агент не сможет действовать адекватно во всех ситуациях. Изучение публичных данных показывает, что модели могут выучить лишь приблизительные правила динамики, наблюдая за тем, как объекты движутся, сталкиваются, падают. Например:
- Если шар катится с горки, он ускоряется.
- При столкновении два объекта отскакивают с сохранением импульса (в среднем).
- Объекты не проходят сквозь стены.
Модели уже могут предсказывать последствия некоторых действий в виртуальном пространстве, обобщать события на новые сценарии (например, другой угол падения). Конечно, модель не выведет закон всемирного тяготения или уравнения Максвелла. Она не предскажет поведение на Луне, если обучалась на земной гравитации. Она не формулирует закон, а использует принцип чёрного ящика. Поэтому, это не физика, а статистическое моделирование с элементами причинности. В чём тогда смысл и перспектива? Симуляция реальности, активное обучение и символьное рассуждение могут стать мощным инструментом для открытия эмпирических закономерностей, особенно в сложных, масштабных системах (климат, биология, робототехника).
Итак, концепция, которая вдохновляет исследователей: хорошая модель мира – это не та, которая знает все уравнения, а та, которая может предсказать, что произойдёт, если ты сделаешь ВОТ ЭТО.
Кажется, именно это, а не сомнительная перспектива поместить всех в Матрицу, привлекает в этих моделях Илона Маска. Ранее сообщалось, что на заводах компании Тесла два человекоподобных робота Optimus работают полностью автономно. Тот же источник информирует, Илон Маск заявил, что роботы Tesla Optimus могут поступить в продажу уже в следующем, 2025 году, по цене «менее половины автомобиля» — то есть примерно 25 000 долларов. Пока, однако, Optimus ещё не доступен для продажи. Но ход мысли и намерения Маска, на мой взгляд, ясны.
World Models – реальный путь к сильному ИИ?
Есть мнение, которое не все разделяют, что сильный ИИ отличается от слабого именно наличием сознания. Ранее я подробно рассматривал тему «сознание у ИИ». Ответ на вопрос о «сознательности» ИИ, естественно, зависит от того, а что понимать под сознанием? Академик К.В.Анохин считает, что вопрос о сознании у ИИ сводится к выяснению может ли ИИ обладать субъективным опытом, иметь внутренний мир, переживать собственное бытиё, обладать самосознанием (осознавать себя как субъекта, отделённого от мира).
Не все разделяют такой подход. В частности, практики, занимающиеся проектированием нейросетей, машинным обучением и т.п., нацелены на конкретный результат и не заморачиваются философскими проблемами. Свежий наглядный пример – лекция Ивана Оселедеца (профессор Сколтеха, сотрудник института ИИ AIRI) «На пути к сильному ИИ» на фестивале Наука-0+ в Москве в октябре 2025, которую я посетил (и пожалел о потраченном времени). Он заявил, что «когда мы говорим о сильном ИИ это всё связано с LLM-ками» и далее довольно сумбурно излагал как хорошо обучать LLM-модели и правильно задавать им вопросы (prompt), чтобы они могли успешно работать в Сбер-Медицине или Сбер-колл центре. Сила, по Оселедецу, достигается когда LLM начнёт выполнять свои функции достаточно хорошо, без ошибок. Он яркий представитель (хотя, может, и не догадывается об этом) функционализма. Согласно функционализму, сознание — это результат определённой организации информации и вычислений, независимо от носителя (мозг или кремниевая схема). Если ИИ будет выполнять те же функции, что и человеческий мозг, он может быть сознательным. И даже сильным. А будет ли у него, в качестве бонуса, опыт, переживания и т.п. – не так уж и важно.
Считается также, что сознание может «вдруг возникнуть» (emerge) у систем ИИ по мере их усложнения. Само собой, без специальных усилий. Так, Илья Суцкевер (один из главных разработчиков ChatGPT) придерживается точки зрения, что с ростом размеров нейронной сети и объёма обучающих данных сознание у неё, на каком-то этапе, появится автоматически.
Такие взгляды вряд ли следует учитывать в серьёзной дискуссии, так как они игнорируют принятую терминологию и подменяют понятия (выдают за сознание то, что им не является). Важно констатировать, что современные ИИ, включая большие языковые модели (LLM), такие как GPT, Claude, Gemini:
- не имеют внутреннего опыта.
- не понимают смысл слов — они предсказывают последовательности токенов на основе статистики.
- не обладают памятью в реальном времени, целями, желаниями или самосознанием.
То есть – не являются сознательными (по Анохину, Джону Сёрлу и т.д.). А что нового привносят WM по сравнению с теми же LLM?
LLM-модели статистически обрабатывают огромные массивы разнородных данных, «обучаясь» на показательных примерах, как правильно отвечать на запросы. Они могут удерживать контекст внутри конкретной «беседы», но никаким долговременным опытом не обладают: достаточно задать модели один и тот же запрос с некоторым временным интервалом, и вы можете получить заметно разные ответы, в зависимости от того, какие источники (если в «размышлении» задействован интернет-поиск) использованы для формирования ответа. Случаются и «галлюцинации», когда ответы вовсе не релевантны (в отсутствии опции интернет-поиска).
WM проектировались так, чтобы приобретать и использовать опыт, во многом копируя человеческое мышления. Однако существующие модели имеют ряд серьёзных ограничений. Да, они, подобно ребёнку, учатся через взаимодействие, формируют и проверяют гипотезы, корректируя свои внутренние представления о среде «обитания» на основе полученных результатов. Их учат сжимать объёмные данные о среде (например, изображения) в компактные представления, подобно тому, как это делает человеческий мозг, создавая обобщённые образы и отбрасывая несущественные детали (если вы не Шерлок Холмс, вы не вспомните сходу сколько ступенек у лестницы вашего дома или какую температуру обещали на завтра в Магадане в утреннем прогнозе погоды). Чтобы «знание» не пропало, WM используют буферы воспроизведения (replay buffers), что позволяет использовать прошлый опыт и избежать «катастрофического забывания» (специальный термин, обозначающий типичную ситуацию, когда модель, обучаясь новому, забывает предыдущие навыки).
Звучит заманчиво. Обещает перспективы. В чём проблемы и ограничения?
- Даже в сравнении с прожорливыми LLM мировые модели требуют гораздо больших вычислительных мощностей, а, значит, и энергетических ресурсов.
- Модели, по-прежнему, «кормит» и обучает человек, поставляя исходные данные для формирования «среды обитания». Если в этих данных присутствуют неточности, стереотипы, то WM унаследует и «разовьёт» их.
- Несмотря на формирование «опыта» и обучение понимать причинно-следственные связи, модели далеки от истинного понимания не просто того «что случится», а «почему случится». Они не могут следовать здравому смыслу.
- У моделей отсутствует (и вряд ли появится) субъективный опыт – у них нет сознания и настоящих внутренних переживаний (а не имитаций). Они не чувствуют, что такое обжечься или испугаться (хотя и могут описать такие состояния) – а это составляет большую часть человеческого опыта.
Главное же ограничение WM в том, что они работают в виртуальном, а не реальном мире. В них не запрограммированы законы физики, химии, биологии (даже в том, ограниченном, виде, в котором они известны человеку). Тем более, все нюансы человеческих взаимоотношений. Модель учат выявлять статистическую корреляцию, которая в большинстве случаев соответствует физическому (химическому и т.д.) закону с приемлемой для большинства задач точностью. Для большинства – но не для всех! Поэтому, неизбежны ошибки в нестандартных ситуациях. Например, многократное наблюдение траекторий брошенного камня не поможет предсказать поведение детского мячика тех же размеров, если этот «опыт» отсутствовал в обучающих данных. Да, опыт можно пополнять всё новыми данными и реальными ситуациями, но для того, чтобы учесть все возможные, учёным, работающим с моделью, придётся включить «режим Бога», который, по некоторым представлениям, и обучает до сих пор самого человека.
Возможный выход из ситуации - выпустить агента в мир, «воплотить» его, оснастив датчиками для восприятия реальности и актуаторами для воздействия на неё. И дать самому обучаться на реальных данных. Именно к этому, в пределе, и стремятся разработчики мировых моделей.
Рассмотрение вопроса о том, хорошая ли это идея, выходит за рамки этого сообщения.
Итоги
1. World Models (WV) - наиболее перспективный, из существующих, путь к созданию сильного ИИ. Это связано с растущим пониманием того, что для достижения человеческого уровня ИИ должен накапливать субъективный опыт через взаимодействие со средой, а не только через статистическую обработку данных.
2. WV — это шаг к «воплощённому ИИ» (Embodied AI), который учится в виртуальной (в перспективе - в реальной) среде, предсказывая последствия своих действий. Однако эти модели пока ограничены, так как не «знают» фундаментальных законов физики, требуют огромных вычислительных ресурсов и критически зависят от качества и полноты обучающих данных.
3. Современные ИИ, включая LLM и WV, не обладают внутренним миром, самосознанием или настоящим пониманием причинно-следственных связей. Их «опыт» — это имитация, а не переживание.
4. Практическая цель Илона Маска — не создание «Матрицы», а разработка автономных систем, таких как робот Optimus, способных эффективно действовать в реальном мире (в конкретном, чётко заданном участке этого мира, с фиксированными и простыми «правилами игры»).. Это может привести к коммерческому успеху, даже если сильный ИИ не будет достигнут в ближайшее время.
5. Несмотря на оптимизм отдельных исследователей, серьёзные технические и философские препятствия (например, необходимость воспроизведения в ИИ субъективного опыта) пока не преодолены. Сроки и перспективы появления сильного ИИ остаются туманными.
В целом, подход через мировые модели выглядит логичным следующим шагом в развитии ИИ, но путь к созданию по-настоящему разумного агента, способного к самостоятельному обучению и адаптации в непредсказуемом мире, остаётся долгим и сложным.

