Laurel vs. Yanny - amikor már a fülünknek sem hihetünk

A múlt héten (mármint a hét pre-RoyalWedding időszakában) talán az egyik legjobban pörgő téma az egész interneten az az egyszerű kérdés volt, hogy a vocabulary.com "laurel" bejegyzésénél fellelhető hangfájlt meghallgatva 'Laurel'-t, vagy 'Yanny'-t lehet hallani.

A három évvel ezelőtti ominózus "ruha-szín" kérdés óta nem foglalkoztatott egy egyszerű kérdés ennyi embert (végül már a Wired is azt kutatta, hogy honnan ered a dolog) és mivel a kérdés (mármint, hogy miért hallják sokan így, sokan pedig úgy, ugyanazt a dolgot) alapvetően tudományos, számos ilyen jellegű interpretáció is született. A Verge cikke már elég jól körüljárja a lehetőségeket (például számít, hogy az eredeti hangminőség nem a legjobb), de igazán részletes választ itt sem kapni. 

A legbiztosabb, hogy valamilyen szerepe van a jelenségben, hogy a hallgató milyen típusú hangokat hall meg inkább. Ennek szemléltetésére a New York Times egy remek interaktív játékot is kitett, amiben a szöveg különböző frekvenciájú sávjait erősíthetjük fel és azok alapján hallhatunk egy ideig Laurelt, aztán Yanny-t (hogy kinél hol van az átmenet, elég változó).  

Mivel Budapesten az ELTE Bárczi Gusztáv Gyógypedagógiai Karán folyik olyan kutatás, amelyben pont azt vizsgálják milyen módon tudja fülünk (és agyunk) eldönteni, mit is hall, megkerestem a kutatásban részt vevő Jakab Zoltánt és Víg Juliannát, hogy segítsenek rendet vágni a Laurel vs. Yanny kérdésben.  

Az egy biztosnak tűnő pont, hogy bár jelenség háttere elég összetett, de van néhány fontosnak tényező. Azzal a Bárczi kutatói is egyetértettek, hogy a megfigyelhető egyéni különbségek egyik fontos összetevője a magas illetve alacsony frekvenciák szerepe a beszédészlelésben. A frekvenciák hatását legalább három tényező befolyásolja: a különböző frekvenciák intenzitása a hallható ingerben, fülünk érzékenysége és miként dolgozza fel a beérkező jelet a központi idegrendszerünk.

Idősebb korban csökken érzékenységünk a magas frekvenciákra és ennek megfelelően egyes anekdotikus megfigyelések szerint idősebbek inkább 'Laurel'-t, míg fiatalabbak inkább 'Yanny'-t hallanak, bár Jakab Zoltán hangsúlyozta, hogy ő maga ellenpéldája ennek a tendenciának, mert következetesen 'Yanny'-t hall, ugyanakkor a hallásvizsgálatok alapján 3000 Hz fölött az átlagosnál gyengébb a hallása.

Ugyanakkor, ha ráerősítünk erre a jelenségre a magas, illetve alacsony frekvenciák kiszűrésével, akkor már egyértelművé válik, hogy ezeknek a frekvenciáknak alapvető szerepük van ennek a kétértelmű hallási ingernek az észlelésében.

A beszédformánsok olyan domináns frekvenciasávok a hallható emberi beszédben, melyek frekvenciája időben változik és a magánhangzók illetve zöngés mássalhangzók esetében vannak jelen (zöngétlen mássalhangzók képzésekor megszűnnek). A formánsokat a hangszalagok és az ún. hangjárat (a garat, gégefő, orrüreg és szájüreg együttese) hozza létre. A hangszalagok által képzett frekvenciákat a hangjárat pillanatnyi alakjától függően megszűri, azokból néhány (általában 3-6) frekvenciát felerősít.

A fenti videóban bemutatott ábrákon a beszédhangok hullámformája látható (fölül), alatta pedig az ún. spektrogram, mely azt ábrázolja, hogy a hanghullámban az adott pillanatban mely frekvenciák vannak jelen. A formánsok a beszéd spektrogramjában sötét sávokként jelennek meg – ezek azok a frekvenciák, melyek az adott pillanatban a legintenzívebben szólnak.

A hangok egy különleges formája a szinuszhang, melynek hullámformája szinuszhullám (erről egy korábbi Meetupon már volt szó, lásd alábbi videó). Meghallgatva jellegzetes, lágy hangszínű búgásként vagy (magasabb frekvenciáknál) sípolásként érzékeljük, de érdekes módon gyakran ennyi információ is elég, hogy megértsük, miről is szól a mondat. Ha a fenti spektrogramokat megnézzük, úgy tűnik, hogy az 1000 Hz-es vágási frekvencia szépen elkülöníti azokat a beszédformánsokat, melyek a 'Laurel' illetve 'Yanny' észleléséért felelősek és ez a szinuszhangok esetében is tetten érhető.

Visszatérve Laurel és Yanny esetére, szinte bizonyos, hogy fülünk állapota egyedül nem határozza meg az észlelést ebben az esetben, hanem lényeges, hogy az agyi feldolgozás mely frekvenciákat részesít előnyben. Hogy ezt mi szabályozza arról viszont keveset tudunk, így a látszólag egyszerű kérdés sokkal bonyolultabbá válik és ennek tisztázásához további vizsgálatok kellenek majd.

Persze előzetes elvárásainktól is függhet, hogy mit hallunk és előzetes elvárásainkat az is alakíthatja, hogy látjuk a két nevet leírva. Általában igaz az, hogy a látás befolyásolja a beszédészlelést; a szájról olvasás például hatékonyan segíti, még ha ezt sokszor nem is vesszük észre. Szinkronizált filmeket nézve ugyanakkor ezt a hatást el is nyomhatja a hallórendszerünk. Léteznek olyan esetek is, amikor a hallott inger egyértelmű, a beszélő ajakmozgásai viszont egy másik szót/szótagot sugallnak, és ennek hatására egy harmadik dolgot hallunk. Ezt nevezik, leírója után, McGurk effektusnak. Ha pl. a 'ba' szótagot halljuk, de a beszélő ajakmozgásai a 'ga' szótag kiejtését sugallják, akkor gyakran a 'da' szótag észlelése lesz az eredmény.

(Fedőkép forrása: Salon)

Népszerű
Uralkodj magadon!
Új kommentelési szabályok vannak 2016. január 21-től. Itt olvashatod el, hogy mik azok, és itt azt, hogy miért vezettük be őket.