Многие гласные звуки содержат волны в двух или большем числе далеко отстоящих друг от друга частотах (рис. 3 и 4).
Например, чтобы произнести гласный звук в слове «bit», необходима максимальная энергия на частотах 375 и 1700 колебаний в секунду; частоты 450 и 1700 колебаний в секунду дают гласный в слове «bet». (Эти цифры характерны для типичного мужского голоса. Для женского и детского голосов весь диапазон частот может быть выше, но слушатель принимает это во внимание.) Достигнув уха, звуки возбуждают чувствительные образования, расположенные вдоль основной (базилярной) мембраны улитки (рис. 5). Низкие частоты возбуждают образования на одном конце мембраны, высокие — на другом. Сложный звук, состоящий из нескольких частот, возбуждает несколько различных отделов мембраны. Каждое чувствительное образование на мембране связано с определенными нервными волокнами, идущими к мозгу; так, слово «bit» возбуждает одну комбинацию волокон, а слово «bet» — другую.
Если оба слова достигают уха одномоментно, то вступают в игру обе комбинации волокон и мозгу приходится решать, в каких отношениях друг с другом они находятся. Может случиться и так, что два или большее число голосов создадут такую путаницу в ухе, что мозг будет не в состоянии сконцентрировать внимание только на одном из них. Конечно, ряд специфических особенностей помогает отличить один голос от другого; это акцент, скорость речи, ее громкость или плавность. Но использовать эти особенности можно только тогда, когда известно, какие частоты характерны для каждого голоса. Таким образом, остается нерешенным вопрос: каким способом мозгу удается сконцентрировать внимание на одном голосе? Изучение искусственного воспроизведения звуков речи начало проливать некоторый свет на эту проблему.
Совместно с П. Лейдфогдом я проводил эксперименты, пользуясь прибором, разработанным Уолтером Лоуренсом. Наш вариант прибора посылает серию электрических импульсов (аналогичных импульсам от голосовых связок) через два фильтрующих контура, каждый из которых пропускает преимущественно одну частоту (рис. 6). Импульсы от одного фильтрующего контура, подобные тем, которые возникают при прохождении звуком самой большой полости голосового тракта, смешиваются с импульсами из другого контура, которые имитируют частоты, создаваемые второй по величине полостью. Вместе две последовательности волн слышны как вполне приемлемые гласные звуки, которые можно было изменять, настроив фильтры на другие частоты. Изменение частоты импульсов, питающих фильтры, меняет кажущуюся высоту или интонацию «речи»: она повышается при большей частоте импульсов и снижается при меньшей.
Когда одинаковые импульсы возбуждают оба фильтра, человек слышит звуки, вполне идентичные гласным звукам. Это происходит даже тогда, когда в одно ухо подается низкая частота, а в другое — высокая (рис. 5).
Но если в оба фильтра импульсы поступают в различном ритме, то «речь» становится невоспринимаемой и испытуемые говорят, что они слышат не один гласный звук, а два звука, идущих от двух источников (рис. 7 и 8).
Другие эксперименты по слиянию звуков в обоих ушах, выполненные К. Черри и его сотрудниками, также подтверждают идею о том, что когда ритм или модуляции одинаковы для двух звуков, то слушатель воспринимает их как один звук (рис. 9). Это позволяет предположить, что можно слушать одного человека и игнорировать речь другого прежде всего с помощью отбора из массы достигающих слуха звуков всех тех частот, которые модулируют в одном ритме. Поскольку почти невероятно, чтобы голосовые связки двух говорящих вибрировали в какой-либо момент в одном ритме, то модуляция почти всегда является важным средством раздельного восприятия двух голосов.
В настоящее время считается общепризнанным принцип нейрофизиологии, согласно которому сигналы, проходящие по определенному нерву, отличаются друг от друга либо тем, что идут по разным нервным волокнам, либо тем, что вызывают в нервных волокнах разное число импульсов в секунду. Высокочастотные и низкочастотные звуки возбуждают различные нервные волокна. Вполне возможно, что частота звуковых импульсов регулирует частоту разрядов, возникающих в нервных волокнах. Если это так, то мозг может выделить один голос из других, сконцентрировав внимание на всех волокнах слухового нерва, в которых потенциалы возникают с одинаковой частотой (рис. 10).
Дальнейшее свидетельство важности модуляций заключается в том, что, по-видимому, именно они, а не частота колебаний, подвергающаяся модулированию, при некоторых условиях определяют высоту голоса. Это можно продемонстрировать с помощью генератора искусственной речи. На фильтр, настроенный, скажем, на частоту 3000 Гц, поступает звук с частотой модуляции 100 Гц. Слушающего просят подобрать высоту звука, аналогичную любой из двух простых звуковых волн: в 100 и 3000 Гц. Обычно он выбирает 100 Гц.
Описанный механизм выбора является еще гипотетичным, но я полагаю, что нечто очень похожее должно существовать в действительности. Однако не подлежит сомнению, что это не единственный механизм, на котором основано слуховое внимание. Ряд экспериментов ясно указывает на это. В одном из них испытуемому надевают наушники, причем через правый наушник он слышит один голос, а через левый — другой. Обычно испытуемый без труда понимает речь, слышимую одним ухом, и игнорирует слышимую другим. Но при некоторых условиях эти невоспринимаемые звуки доходят до сознания. К примеру, Невиль Морей из Оксфордского университета показал, что человек, внимательно слушающий речь одним ухом, услышит свое имя другим ухом, хотя абсолютно не воспринимает этим ухом другие слова. А. Трейсман в аналогичной ситуации обнаружила, что речь, поступающая в невоспринимающее ухо, может привлечь внимание испытуемого, если она состоит из слов, которые могли бы являться продолжением слов, только что услышанных ухом, на которое направлено внимание. В этих случаях смысл речи преобладал над ее физическими характеристиками.