Как обычно происходит с глубоким обучением, человеку сложно понять, чему именно научились нейронные сети, которые использовались в игровых системах. Читая предыдущие разделы, вы, возможно, заметили некоторый антропоморфизм моих описаний – так, я сказала: “Система DeepMind освоила стратегию проброса мяча сквозь кирпичи при игре в Breakout”.
Я не единственная прибегаю к такому языку, описывая поведение систем ИИ, но эта привычка таит в себе опасность. За нашими словами часто кроются бессознательные допущения, которые не всегда оказываются верными для компьютерных программ. Правда ли, что разработанная DeepMind система освоила стратегию проброса мяча в Breakout? Гэри Маркус напоминает, что нам следует быть осторожными при выборе выражений:
Система этому не научилась – она не понимает, что такое тоннель или стена, а потому просто запомнила конкретные обстоятельства для определенных сценариев. Тесты на перенос, в которых система глубокого обучения с подкреплением получает сценарии, имеющие незначительные отличия от тех, что рассматривались на стадии обучения, показывают, что решения на основе глубокого обучения с подкреплением часто оказываются крайне поверхностными[220].
Маркус ссылается на несколько исследований, в которых ученые проверяли, насколько хорошо системы глубокого Q-обучения с подкреплением переносят свои знания при внесении некоторых – даже незначительных – изменений в игру. Так, одна группа исследователей изучала систему, напоминающую программу DeepMind для игры в Breakout. Оказалось, что после того, как игрок достигнет “сверхчеловеческого” уровня, достаточно сместить ракетку на несколько пикселей вверх, чтобы показатели программы резко упали[221]. Это позволяет предположить, что система не получила даже базовое представление о том, что такое ракетка. Другая группа показала, что показатели системы глубокого Q-обучения для игры в Pong значительно снижаются при изменении цвета фона экрана[222]. Более того, в обоих случаях системе требуется множество эпизодов переобучения для адаптации к изменениям.
Вот лишь два примера неспособности глубокого Q-обучения к генерализации, с которой легко справляются люди. Насколько мне известно, ни одно исследование не проверяло, понимает ли программа DeepMind для игры в Breakout, что такое проброс, но я полагаю, что система не смогла бы провести генерализацию, чтобы выполнять, скажем, пробросы вниз или в сторону без серьезного переобучения. Как отмечает Маркус, хотя мы, люди, приписываем программе определенное понимание понятий, которые считаем базовыми (например, стена, потолок, ракетка, мяч, проброс), программа их не понимает:
Эти исследования показывают, что некорректно говорить об освоении системами глубокого обучения с подкреплением таких понятий, как “стена” или “ракетка”, и подобные замечания представляют собой пример того, что в сравнительной (зоо-)психологии иногда называют сверхатрибуцией. Система [для игры на] Atari не усвоила понятие стены на глубинном уровне, а поверхностным образом сопоставила пробивание сквозь стены с узким набором прекрасно заученных обстоятельств[223].
Подобным образом, хотя AlphaGo демонстрировала чудесную “интуицию” при игре в го, насколько я могу судить, у системы нет механизмов, которые позволили бы ей генерализировать навыки игры в го даже для игры на доске меньшего размера или другой формы без реструктуризации и переобучения своей глубокой Q-сети.
Иными словами, хотя эти системы глубокого Q-обучения добились сверхчеловеческих результатов в узких областях и даже продемонстрировали в них некое подобие “интуиции”, они лишены ключевой способности человеческого разума. Можно называть ее по-разному – абстрактным мышлением, генерализацией или переносом обучения, – но ее внедрение в системы ИИ остается одной из важнейших задач отрасли.
Есть и другая причина полагать, что компьютерные системы не осваивают человеческие понятия и не понимают свои области на человеческий лад: как и системы обучения с учителем, системы глубокого Q-обучения не справляются с контрпримерами вроде тех, что я описала в главе 6. Так, одна исследовательская группа продемонстрировала, что при внесении конкретных минимальных изменений в пиксели входного сигнала программы для игры в одну из видеоигр Atari изменения, незаметные человеку, значительно ограничивают способности программы к игре.
Насколько умна AlphaGo?
Рассуждая о связи таких игр, как шахматы и го, с человеческим разумом, мы не должны забывать одну важную вещь. Задумайтесь, почему многие родители поощряют занятие ребенка шахматами (а кое-где и го) и предпочитают, чтобы ребенок играл в шахматы (или в го), вместо того чтобы смотреть телевизор или играть в видеоигры (прости, Atari)? Люди полагают, что такие игры, как шахматы и го, учат детей (и кого угодно) мыслить, развивая у них логику, абстрактное мышление и способности к стратегическому планированию. Все эти общие навыки остаются с человеком на всю жизнь и помогают ему во всех начинаниях.