Принцип образования связи "стимул-реакция"


В элегантных исследованиях, выполненных Торпом (Thorpe et al., 1983) и Шульцем с коллегами (Schultz, 1985; Schultz et al., 1993,1997), в префронтальной коре (ПФК) и вентральной тегментальной области (ВТО) были выявлены нейроны, реагировав-
шие увеличением активности на стимулы, которые предвещали получение "награды", и снижением активности, если предъявление такого стимула не подкрепляли (рис. 6.1). Существование таких структур, которые сравнивают полученное с ожидавшимся и предвещают получение "награды", кажется вполне логичным и оправданным. Однако эта информация perse не имеет смысла, если не оказывает влияния на выбор стратегии поведения.
Ответ о функциональной значимости системы предвещания "награды" можно получить, если обратиться к закону ассоциации, предложенному Гасри (Guthrie, 1952). Согласно этому закону, "комбинация стимулов, которая совпала с движением, при последующем предъявлении увеличит вероятность повторения этого движения" (Guthrie, 1952, с. 23). Данный принцип критиковали прежде всего за то, что с его помощью невозможно было предсказать, в каких конкретно случаях произойдет обучение. Мы постараемся продемонстрировать, что закон ассоциации в сочетании со своего рода "запускающим механизмом" Миллера (Miller, 1963) все-таки позволяет адекватно объяснять разнообразные данные, накопленные как на молярном, так и на субмолярном уровнях наблюдения. Для начала рассмотрим эксперимент, в котором крысу обучают избегать ударов электрического тока по лапам (например путем перепрыгивания через барьер на неэлектрифицированную поверхность экспериментальной установки). В рамках тео
рии драйв-редукционизма традиционное объяснение этого эксперимента заключается в том, что приобретаемая реакция (прыжок) снижает биологическую потребность (устранение боли), что служит основой образования селективной связи между стимулом (окружающая обстановка, сама электрическая стимуляция) и реакцией. С точки зрения принципа ассоциации Гасри, биологическая потребность служит лишь для того, чтобы заставить животное перепрыгнуть через барьер, и тем самым защищает ассоциации, которые уже были сформированы между обстановочными стимулами и "удачной" реакцией. Аналогичное объяснение может быть применено для анализа поведения кошки в проблемном ящике Торндайка. Дальнейшее развитие данной точки зрения схематически представлено на рис. 6.2.
Прежде всего предположим, что любая реакция оказывает угнетающее действие на связь "стимул-реакция" (рис. 6.2А). Под стимулом подразумевается любой стимул (внешний или внутренний), который совпал во времени и пространстве с реакцией. Привыкание (габитуация) — один из наиболее ярких примеров, иллюстрирующих угнетающее действие реакции. Когда крысу помещают в новую обстановку, она начинает активно исследовать среду, но эта активность рано или поздно угасает, и при повторных пребываниях в этой обстановке крыса проводит большую часть времени пассивно. Другим примером действия того же принципа является феномен "выученной беспомощности" — пассивность животного, неоднократно подвергшегося в данной обстановке неконтролируемому, неизбегаемому стрессированию (например ударам электрического тока по лапам).
Способность реакции угнетать связь "стимул-реакция" помогает обнаружить еще одну важную особенность приобретаемой (вырабатываемой) реакции: эта реакция явА
ляется последней в цепи поведенческих актов, запущенных стимулом и/или совпавших со стимулом. Если реакция действительно оказывает тормозящее влияние на связь "стимул-реакция", то каждая последующая реакция будет ослаблять связь между этой реакцией и стимулами, которые присутствовали при инициации этой реакции, а также угнетать связь "стимул—реакция" для реакций, которые имели место ранее.
Следовательно, связь "стимул-реакция" для последней реакции будет иметь наибольшие шансы для сохранения и утверждения, так как она была последней в поведенческой цепи (рис. 6.2Б). Очевидно, что это ни в коей мере не происходит по принципу "все или ничего", и поэтому всегда есть возможность для формирования так называемого "суеверного" поведения (рис. 6.3). В предлагаемой модели допускается, что связь "стимул-реакция" имеет некоторый пороговый уровень, ниже которого эта ассоциативная связь не проявляется действием (рис. 6.3). Возможно, именно существование порогового уровня является одной из основных причин низкой начальной скорости выработки большинства условных реакций (Mackintosh, 1974, с. 11).
Если реакция сама по себе оказывает только угнетающее действие на связь "стимулреакция", то следует предположить существование некоей переменной или какого-то свойства стимула, которые способствовали бы обратному — установлению связи "сти-


Относительная сила связей "стимул-реакция"
(для всех звеньев поведенческой цепи)
ментальной ситуации, где болевая стимуляция (например удары электрического тока по лапам) заставляет крысу совершить шесть последовательных действий (реакции Plt P2, P j, P,, Рч и Р,,), а последняя реакция (Ре) избавляет животное от стимуляции. Каждой реакции соответствует во времени и пространстве определенный набор сигналов. Безусловная стимуляция способствует достижению надпорогового уровня для связи "стимул-реакция" (уровень обозначен как "драйв"). Связь "стимул-реакция" сохраняется ("выучивается") только в том случае, если сила этой связи выше порогового уровня к моменту, когда безусловная стимуляция прекращена. Каждая реакция оказывает угнетающее действие на силу связи "стимул-реакция" для предшествовавших реакций. Слева — сила связи "стимул-реакция" для первой реакции постепенно снижается после каждой последующей реакции. Справа — относительная сила связей "стимул-реакция" для всех шести реакций после того, как безусловная стимуляция была прекращена последней реакцией. Сила связи "стимул-реакция" для двух последних реакций (Р5 и Р(gt;) остается выше порогового уровня после прекращения безусловной стимуляции. Таким образом, эти две связи "стимул-реакция" сохраняются ("выучиваются"): Р(, (последняя реакция; например прыжок через барьер на безопасную территорию) прекращает болевую стимуляцию, F-, — служит примером "суеверного поведения" (например грызе- ние металлических прутьев, составляющих пол камеры)
мул-реакция". В роли такой промежуточной переменной может выступить "запускающий механизм", активируемый "стимулом" и обозначенный как "драйв" на рис. 6.2В. Необходимо обратить внимание на то, что на рис. 6.2В и 6.2Гассоциативные связи образуются между "сигналом" (сигнальным компонентом стимула) и "реакцией". Как было предложено Миллером и Доллардом (Miller, Dollard, 1941), стимул является "драйвом" настолько, насколько позволяет его интенсивность, и "сигналом" — насколько позволяют его различительные свойства. Другими словами, драйв является функцией интенсивности стимула, а сигнальные свойства являются функцией "различимости" стимула. Таким образом, для того чтобы подчеркнуть эти две функции стимула, можно выделять сигнальный и драйв-компоненты (например, как было сделано на рис. 6.2). Кроме того, представляется возможным существование таких условий, при которых будет наблюдаться относительно селективное облегчение драйв-компонента (например поведенческая сенситизация вследствие повторного введения психостимулянтов). Однако подобное различение между двумя типами информации, содержащимися в "стимуле", не является необходимым для предлагаемой модели (см. также Mackintosh, 1974, с. 92-93).
Усилению связи "стимул—реакция" могут также способствовать стимул или набор стимулов, которые являются следствием совершенной реакции, а также действия (реакции), способные активировать "запускающий механизм" (рис. 6.2Г). Теперь можно предложить более строгое определение термина "стимул": стимул — это любое различимое[6] изменение во внешней или внутренней среде ("сигнал" согласно модели Миллера—До лларда). Насыщенность, значимость (saliency) стимула — это способность активировать "запускающий механизм" и тем самым усиливать связи "стимул-реакция" ("драйв" по Миллеру-Долларду[7]).
Возвращаясь к приведенным выше данным Шульца и его коллег, кажется логичным предположить, что нейроны ВТО (так же как и в ПФК и, возможно, в некоторых других областях мозга), которые реагируют на стимулы, предвещающие "награду"[8], могут играть роль "запускающего механизма" (рис. 6.4). Их активация (безусловнорефлекторной стимуляцией или стимулами, предсказывающими "награду"[9]) усиливает связи "стимул-реакция", в то время как их торможение (самой реакцией) ослабляет связи "стимул—реакция".
Таким образом, совпадение стимула и реакции во времени и пространстве является необходимым и достаточным условием для формирования связи "стимул—реакция", как и было предложено Гасри (Guthrie, 1952). Из этого принципа также следует, что "первично-подкрепляющим" является любой стимул, способный вызвать безусловную реакцию.
Чтобы завершить обсуждение данных Шульца, следует указать, что в его экспериментах пища выступала в роли вторичного подкрепления. И. П. Павлов (1952, с. 22-23) описал эксперименты, в которых предъявление мяса вызывало слюноотделение (безусловная реакция) только у тех собак, которые были знакомы с этим типом пищи. Слюно-
отделительная реакция не вызывалась предъявлением мяса собакам, которых содержали на молочной диете вплоть до времени тестов с мясом (вторично-подкрепляющие свойства пищи обсуждал также Hull, 1943, с. 98-99; см. также Bemdge, 1996, с. 15).
Хотя вряд ли возможно указать на все аспекты поведенческого анализа, действие аверсивных стимулов требует отдельного упоминания. Не вызывает сомнений, что живые организмы стремятся избегать аверсивные стимулы и для этого используют реакции, обычно противоположные по направлению тем, которые запускаются положительными (аппетитивными) стимулами. Означает ли это, что аверсивные и аппе- титивные стимулы запускают различные механизмы, основываясь на некоей врожденной способности организма различать эти типы стимулов? Если крысу поместить в стандартную камеру оперантного обусловливания, оборудованную педалью и механизмом доставки пищи, можно создать такие условия, при которых крыса рано или поздно обучится нажимать на педаль для получения пищи. И наоборот, крыса обучится не нажимать на педаль, если эта реакция будет приводить, например, к ударам электрического тока по лапам. В последнем случае важно правильно выявить реакцию, которая "выучивается". Нажав на педаль, крыса выполняет другой моторный акт или цепь актов, т. е. отстраняет от педали те части тела, которые оказались рядом с педалью в момент включения электрической стимуляции. Эта реакция сама по себе не является выученной, она вызывается безусловной стимуляцией (аналогично разнообразным реакциям отдергивания, опосредованным спинальными и мозжечковыми механизмами; см., например, Bracha et al, 1999). Однако эта реакция может стать выученной в том смысле, что ее начнут вызывать какие-либо изначально нейтральные стимулы (например обстановочные стимулы — вид педали, интерьер камеры и др.). Как писал Гасри (Guthrie, 1952, с. 158), "не ощущение, вызванное наказанием, а конкретное действие, вызванное наказанием, определяет то, что будет выучено".
Существенной особенностью рассматриваемой модели формирования связи "стимул-реакция" является то,что онане предполагает наличия различий между аверсивными и аппетитивными стимулами в отношении их способности участвовать в установлении селективных связей с реакциями. Данный подход создает основу для анализа ряда поведенческих явлений, таких как выработка и экспрессия "смещенной" активности или адъюнктивного поведения (см. ниже). Кроме того, при таком подходе можно легко избежать трудностей, возникающих перед исследователями, которые придерживаются теории драйв-редукционизма, а значит — согласны с тем, что прекращение аверсивной стимуляции является подкрепляющим событием (Mackintosh, 1974, с. 112-113).
Создатели ряда других моделей (Konorsky, 1967; и др.) считают, что существуют взаимно антагонистические мотивационные системы для аппетитивного и аверсив
ного обучения, хотя такое разделение не подтверждено экспериментальными данными. Кроме того, имеются стимулы, которые довольно трудно с уверенностью отнести лишь к одной из двух категорий (Mackintosh, 1974, с. 19, 85, 94).
  1. Гностические модули в стриатуме

На рис. 6.5 показана упрощенная (функциональная) схема стриатума и его связей, которые, возможно, участвуют в процессах селективного образования связей "стимул-реакция". Предлагаемые на этой схеме связи между отдельными элементами не всегда представляют непосредственные, прямые проекции из одной анатомической структуры в другую.
Стриатум — невероятно сложно организованная структура, в которой различают несколько компартментов (термин, традиционно применяемый для неостриатума) на основании анатомических, нейрохимических и физиологических характеристик. Выделяют два типа нейрональных модулей в стриатуме — стриосомы и матрикс (Шаповалова и соавт., 1992; Graybiel, 1990). Стриосомы получают обширные лимбические проекции (из лимбической коры, миндалины, латерального гипоталамуса, преоптических областей, ЦОВ, ядер шва и др.), а их собственными мишенями являются мезэнцефальные дофаминергические нейроны (pars compacta черной субстанции, ЧС), лимбические структуры и вентральные отделы бледного шара. Матрисомы получают проекции из сенсомоторной и ассоциативной коры, а дают проекции в другие ганглии переднего мозга (например базальное ядро Мейнерта, безымянная субстанция), ВТО и дорсальный паллидум. Базальное ядро Мейнерта и безымянная субстанция (ЯМБС; не представлены на рис. 6.5) посылают холинергические проекции практически во все кортикальные поля (Sarter, Bruno, 1999). Следует также отметить, что стриатум в свою очередь получает проекции практически от всех кортикальных полей (Goldman-Rakic, Selemon, 1986, 1990).
За исключением дофаминергических проекций из ВТО и ЧС, почти все афферентные входы в стриатум используют в качестве нейромедиатора глутамат. Сами проекционные нейроны стриатума по общепринятой классификации относятся к ГАМК- ергическим шипиковым нейронам среднего размера. К дендритным шипикам проекционных нейронов подходят два типа нейрональных окончаний — содержащие глутамат и дофамин. Термин "синаптическая триада" был введен для того, чтобы подчеркнуть анатомическую близость глутаматных и дофаминовых терминалей, которая наиболее явно указывает на взаимно модуляторные влияния глутамата и дофамина (Goldman-Rakic, 1992). Глутамат стимулирует пресинаптическое высвобождение дофамина (Imperato et al, 1990), дофамин в свою очередь контролирует пресинаптическое высвобождение глутамата (Maura et al., 1988) и может также взаимодействовать с постсинаптическими эффектами глутамата (см. ниже).
Как матрикс (посредством прямых эфферентных проекций), так и стриосомы (посредством непрямых проекций через латеральный орбитофронтальный путь) влияют на нейронную активность в ВТО. На рис. 6.5 матрикс и стриосомы обозначены как сенсомоторные и лимбические гностические модули, ГМСм и ГМ;, соответственно. Такое обозначение необходимо для того, чтобы подчеркнуть разную роль, которую эти отделы стриатума играют в накоплении информации. Кроме того, это своеобразная дань уважения Е. Конорски, который впервые ввел термин "гностичес-

Рис. 6.5. Нейробиологическая модель для объяснения процесса селективного формирования связей "стимул-реакция". Сигнальные свойства стимулов обозначены как ССинд и ССКо.мп- При предъявлении стимул сначала анализируется организмом как набор индивидуальных компонентов (ССпцд). Впоследствии этот анализ постепенно превращается в композитный анализ, т. е. анализ стимула как единого целого (ССКомм). Нейроанатомические субстраты анализа ССЦЦД И ССКОММ проецируются на разные гностические модули в стриатуме (лимбические ГМЛ и сенсомоторные ГМ^м, соответственно). Функционирование гностических модулей основано на принципе совпадения-обнаружения Хэбба. ГМЛ способны "запоминать" неповторимые наборы ССивд- При предъявлении нового стимула надпороговой интенсивности ГМл вызывает активацию нейронов ВТО (или любого другого анатомического субстрата "запускающего механизма") и одновременно "обнуляет" активность нейронов всех ГМ^м- После такого "перезапуска" ГМСм приобретают способность "запоминать" неповторимые комбинации "ССкоми + М", что происходит только при условии надпороговой интенсивности этой стимуляции. "М" обозначает "моторные" афференты из соответствующих областей коры. ГМСм способствует переходу ССинд в ССкомп- Торможение нейронов ГМ^м при возбуждении ГМл оказывает противоположное влияние. Таким образом, если предъявление нового стимула сочетается с достаточно сильной активацией ГМЛ, "новизна" этого стимула сохранится до следующего предъявления. Активация нейронов ВТО модулями ГМЛ оказывает возвратное действие на стриатум, где служит в качестве вспомогательного входа, способствующего сохранению и воспроизведению информации, хранящейся в гностических модулях. Напротив, прямые тормозные влияния ГМ^м на ВТО противодействуют (и, возможно, стирают) сохранению этой информации. Таким образом, согласно предлагаемой модели стимул сам по себе (посредством активации ГМл) способствует связям "стимул-реакция", в то время как реакция (посредством ГМСМ) тормозит обучение кий модуль", предложил принцип "обнаружения" (обучения) при совпадении стимула и реакции и предсказал, что такие модули обладают способностью сохранять приобретенную информацию посредством специфических изменений эффективности синаптической передачи (Konorski, 1948, 1967).
Как было отмечено Тоатсом, в нейробиологических моделях обучения следует избегать проблем, связанных с "излишне узким определением понятий "стимул" и "реакция", что непременно вызовет мгновенное опровержение. Если процесс формирования связи "стимул-реакция" основан на существовании какой-то более или менее постоянной характеристики (признака) экспериментальной ситуации на протяжении многих сеансов обучения, это не может выражаться в излишне точных определениях стимула (например в параметрах стимуляции сетчатки глаза) или реакции
(например конкретные мотонейроны или мышцы)" (Toates, 1998, с. 64). Конфликт между когнитивными теориями поведения и теориями типа "стимул-реакция" может быть разрешен в рамках предлагаемой модели, если согласиться с возможностью, что когнитивные процессы могут выступать в роли специфических сигналов (стимулов), подвергаемых подобно всем другим стимулам анализу и переработке на уровне гностических модулей.
Во многих структурах мозга (например в гиппокампе) функции памяти исследователи связывают с долговременными изменениями в эффективности передачи сигналов через глутаматергические синапсы (Bliss, Collingridge, 1993). Ввиду того что корковые и лимбические входы в стриатум используют глутамат в качестве нейротрансмиттера, кажется вполне логичным предположить, что эти глутаматергические проекции способствуют изменениям, которые имеют отношение к сохранению информации. Результаты электрофизиологических исследований подтверждают такую возможность. 

Источник: Беспалов А. Ю., Звартау Э. Э., «Нейропсихофармакология антагонистов NMDA-рецепторов» 2000

А так же в разделе «Принцип образования связи "стимул-реакция" »