Существует альтернатива жесткой модели сравнения с эталоном, требующей бесчисленных миллионов форм для сравнения с ними повседневных образов мира. Она предполагает, что человеческая система обработки информации имеет ограниченное число простых геометрических «базисных элементов», которые могут быть применены к сложным формам. Одна из подобных теорий, также имеющая некоторое сходство с подетальным анализом (мы рассмотрим его далее в этой главе), была сформулирована Ирвингом Бидерманом из Университета Южной Калифорнии.
Ирвинг Бидерман продвинул наше понимание распознавания объекта с помощью новаторских экспериментов и теорий, особенно теории геонов
Представления Бидермана о восприятии формы основаны на понятии геон (сокращение от «геометрические ионы»). Согласно этой концепции, все сложные формы состоят из геонов. Например, чашка составлена из двух геонов: цилиндра (емкость для воды) и эллипса (ручка). (Примеры геонов и объектов приведены на рис. 4.9.) Теория геонов, как ее сформулировал Бидерман (Biederman, 1985, 1987, 1990; Biederman & Cooper, 1991; Biederman & Gerhardstein, 1993; Cooper & Biederman, 1993), предполагает, что распознавание объекта, например телефона, чемодана или еще более сложных форм, состоит из распознавания по компонентам, при котором в сложных формах обнаруживаются простые формы. Геоны — это 24 особые формы, и, подобно буквам алфавита, они образуют определенную систему. При объединении они формируют более сложные формы, так же как буквы, из которых составлены слова на этой странице. Число различных форм, которые могут быть получены путем объединения первичных форм, является астрономическим. Например, три геона, расположенных во всех возможных комбинациях, дают 1,4 млрд трехгеонных объектов! Однако мы используем только часть из возможного числа сложных форм. Бидерман считает, что мы используем приблизительно 30 тыс. сложных форм, из которых мы имеем названия только для 3 тыс.
Рис. 4.9. Геоны и объекты. Объекты представлены как конфигурации геонов, являющихся простыми зрительными объемными фигурами. Источник: Biederman, 1990
Теорию геонов можно проверить, например, с помощью упрощенных форм, как показано на рис. 4.10. Какую из этих фигур (а или 6) легче идентифицировать?
Рис. 4.10. У чашки было удалено 65% линий контура, относящихся либо к середине отрезков (а), либо к вершинам (б). Источник: Biederman, «Human Image Understanding: Recent Research and a Theory» in Computer Vision, Graphics and Image Processing, 1985, 32, 29-73. Copyright 1985 by Academic Press. Воспроизведено с разрешения
На этой иллюстрации у простого объекта удалено 65% контура. У чашки слева (а) удалены середины отрезков, что все же позволяет наблюдателю видеть, как связаны основные отрезки. У чашки справа (б) удалены части отрезков вершин, включая основные углы, связывающие отрезки друг с другом. Бидерман предъявлял испытуемым объекты такого типа на 100 мс. Он обнаружил, что при удалении частей соединяющих линий (a) испытуемые правильно идентифицировали объект приблизительно в 70% случаев; когда были удалены вершины (6), доля правильных идентификаций была равна приблизительно 50%. Таким образом, в соответствии с положением теории о том, что идентификация объекта основана на наблюдении основных форм, удаление критической информации об отношениях между частями объекта сделало его идентификацию более трудной, чем в случаях наличия такой информации.