не приходилось демонстрировать новые виды поведения; от них требовалось лишь увязывать новые стимулы с прежним поведением. Спустя несколько десятилетий исследования Павлова были дополнены гарвардским психологом Б. Ф. Скиннером, который установил, что высшие животные действительно порой демонстрируют новые формы поведения – «операнты» в его терминологии. Эксперименты Скиннера подтвердили, что, когда за каким-либо оперантом следует вознаграждение, эта форма поведения, скорее всего, будет повторяться впоследствии. Скиннер также обнаружил, что подобное обучение куда действеннее, если животное не может догадаться, получит оно награду или нет. Под определениями «оперантное обусловливание» и «модификация поведения» открытия Скиннера оказали заметное влияние на психологию и образование, однако так и не объяснили, как возникают новые операнты. Кроме того, лишь отдельные эксперименты на животных способны пролить свет на принципы, по которым люди учатся составлять и выполнять свои сложные планы; проблема в том, что другие животные едва ли в состоянии научиться хоть чему-то. Сходство концепций награды / успеха и наказания / неудачи не дает внятного представления о том, как люди учатся порождать новые идеи, позволяющие решать трудные задачи, которые в противном случае могли бы быть решены только посредством продолжительного и малоэффективного процесса проб и ошибок.
Ответ должен лежать в изучении наилучших способов обучения. Чтобы обсудить данный вопрос, следует начать с употребления многих обычных слов, таких как «цель», «награда», «обучение», «мышление», «признание», «симпатия», «желание», «воображение» и «запоминание» (все они восходят к древним, смутно осознаваемым понятиям). Мы обнаруживаем, что большинство этих слов нужно заменить новыми описаниями и идеями. Тем не менее у них есть нечто общее: для решения любой трудной задачи надлежит использовать различные виды воспоминаний. В каждый момент времени мы должны следить за тем, что только что сделали, или нам придется повторять те же шаги снова и снова. Еще мы вынуждены придерживаться поставленных целей, иначе мы придем к тому, что начнем совершать бессмысленные поступки. Наконец, едва задача будет решена, нам понадобится запомнить, как это было сделано, чтобы использовать это знание впоследствии, когда снова возникнет подобная задача.
Бо́льшая часть настоящей книги посвящена памяти, то есть ментальной фиксации прошлого. Почему, когда и как осуществляется такая фиксация? Когда человеческий разум решает трудную задачу, он задействует миллионы агентов и процессов. Какие агенты оказываются достаточно мудрыми для того, чтобы догадаться о необходимых изменениях? Высокоуровневые агенты не могут знать об этом; они едва ли ведают о существовании процессов нижнего уровня. А низкоуровневые агенты тоже не знают, какие из их действий помогают нам добиваться наших целей на высоких уровнях; они едва ли подозревают о наличии целей более высокого уровня. Агентам, которые управляют ногами, все равно, идем ли мы домой или на работу; агенты же, делающие выбор между домом и работой, ничего не знают об управлении конкретными группами мышц. Где в разуме хранятся сведения о том, какие агенты заслуживают награды или наказания?
7.6. Фиксация и награда
Чтобы обучение состоялось, каждый шаг в игре должен приносить намного больше информации. Это достигается за счет разделения задачи на фрагменты. Измерителем успеха служит достижение цели. Если цель достигнута, подцели фиксируются; если нет, они стираются.
Аллен Ньюэлл
Одно известно наверняка: нам всегда легче делать то, что мы делали раньше. Что происходит в нашем сознании, вследствие чего это становится возможным? Вот что мне видится: при решении какой-либо задачи некоторые агенты, вероятно, активируют каких-то других агентов. Давайте примем, что под «вознаграждением» имеется в виду ситуация, когда агент А участвует в активации агента Б, и следствием вознаграждения будет, что впредь для А станет легче активировать Б, зато, возможно, станет тяжелее активировать других агентов. В свое время я был настолько захвачен этой идеей, что разработал машину под названием «Snarc», которая обучалась по данному принципу; она объединяла сорок агентов, каждый из которых был связан с несколькими другими, более или менее наугад, посредством системы «вознаграждений», а последняя включалась после всякого успешного действия и побуждала агента к стимулированию тех же реципиентов сигнала в дальнейшем.
Мы вводили в эту машину задачи наподобие поиска выхода из лабиринта при необходимости избегать встречи с опасным хищником. Машина быстро научилась решать простые задачи, но никак не могла справиться с трудными, например с постройкой башен из кубиков или с игрой в шахматы. Стало ясно, что для решения трудных задач любая машина с памятью ограниченной емкости должна иметь возможность повторно использовать своих агентов по-разному в разных контекстах (вспомним агента «Видеть» и две параллельные задачи, в которых он задействован). Но когда машина пыталась научиться прохождению через хитроумный лабиринт, типичный агент предлагал то правильное направление в один момент времени, то неправильное в другой момент. Позже, когда мы ввели награду за правильные действия, оба решения сделались более вероятными, причем правильный и неправильный выборы тяготели к тому, чтобы отменять друг друга!
Налицо дилемма проектирования машин, которые учатся, «фиксируя» взаимосвязи между агентами. В процессе решения трудной задачи мы обычно совершаем несколько неудачных действий, прежде чем находим правильное; по сути, как раз это имеется в виду, когда мы говорим о «трудных» задачах. Чтобы избежать обучения неправильным действиям, можно было бы запрограммировать машину на фиксацию только тех действий, которые непосредственно предшествовали успеху. Но такая машина способна обучиться лишь решению задач, которые требуют нескольких шагов. В качестве альтернативы можно было бы увеличить срок действия вознаграждения, однако в таком случае награда станет выдаваться и за неправильные действия наряду с правильными, а вдобавок будут стираться ранее усвоенные знания. Мы не можем научиться решению трудных задач посредством «массовой» фиксации состояний агентов или их связей. Почему среди всех животных только обладающие большим мозгом сородичи человека способны научиться решать задачи, которые требуют многих последовательных шагов или связаны с использованием тех же агентов для разных целей? Ответ следует искать в тактиках, которые наши агенты применяют для достижения целей.
Мне могут возразить, что бобр выполняет множество действий при постройке плотины, а колонии термитов возводят затейливые гнезда. Однако эти замечательные животные не изучают индивидуально такие практики, они используют навыки, закодированные в их генах благодаря миллионам лет эволюции. Бобра не научить строить гнезда термитов, а термитов не научить строить бобровые плотины.
7.7. Локальная ответственность
Предположим, что Алиса, владеющая оптовым магазином, просит менеджера Билла увеличить продажи. Билл поручает продавцу Чарльзу продавать больше радиоприемников. Чарльз оформляет крупный заказ на выгодных условиях. Но выясняется, что производитель не может поставить эти радиоприемники в нужном количестве, потому что возник дефицит производства. Кто виноват? Алисе следовало