Kíméletlenül manipulálnak minket a mesterséges intelligencia által generált hangok.

Technológia

A mesterséges intelligencia-hangok ma már kísértetiesen valósághű beszédet képesek létrehozni. Vajon van rá mód, hogy megkülönböztessük őket a valódi emberi hangtól?

A mesterséges intelligencia-hangok valósághű emberi beszéd-képzése kapcsán jelentős probléma van kibontakozóban. Ugyanis napjainkra a mesterséges intelligenciával (MI) működő beszédszintetizátorok kísértetiesen valósághű beszélgetéseket képesek megalkotni: nyomatékosítanak, suttognak, s ma már a hangok klónozása is lehetséges.

Az MI-vel való beszélgetés megkezdése igencsak könnyedén megy. Elég, ha néhány kérdést intézel a chatbothoz, és máris lenyűgöző válaszokat kaphatsz, akár szóban is. Ráadásul, ha szükséges, több nyelven is cseveghet, sőt, képes akcentussal vagy regionális nyelvjárásban is kommunikálni.

A mesterséges intelligencia által generált hangok és a MI-alapú beszédklónozó technológiák napjainkban lehetővé teszik, hogy valós emberek hangját hitelesen megjelenítsük.

Jó példa a közelmúltbeli eset a néhai brit műsorvezető, Sir Michael Parkinson, vagy a természettudós, David Attenborough hangjának klónozása, utóbbit egyébként nagyon felháborította a dolog.

A mesterséges intelligencia által generált hangok folyamatosan fejlődnek, és egyre inkább élethűvé válnak.

Valóban, előfordul, hogy a technológia kifinomult csalások eszközeként szolgálhat, azonban fontos megjegyezni, hogy nem minden mesterséges intelligencia által létrehozott hangot használnak rossz szándékkal.

A korszerű nyelvi modellek által hajtott chatbotokba beépített technológia révén a válaszok sokkal természetesebbek és meggyőzőbbek, ami lehetővé teszi, hogy a kommunikáció élménye még inkább hasonlítson az emberi párbeszédhez.

Fedezd fel ezt is: Mélyhamisítás - a mesterséges intelligencia már a megtévesztést is kiszúrja!

A ChatGPT hangfunkciója már most is lehetőséget ad arra, hogy a válaszok különböző hangszínek és hangsúlyok segítségével színesebbé váljanak. Ez a megközelítés hasonló ahhoz, ahogyan az emberek kifejezik empátiájukat és érzelmeiket, így a kommunikáció még gazdagabbá és személyesebbé válik.

A mesterséges intelligencia nem csupán szavakkal kommunikál – képes utánozni a nonverbális jeleket is, mint például a sóhajtás vagy a zokogás. Több mint 50 nyelven beszél, és rugalmasan kezelheti az ékezetek megjelenítését, hogy hangsúlyozza az üzeneteket. Ráadásul, ha szükséges, telefonhívásokat is kezdeményezhet a felhasználók nevében, hogy segítse a mindennapi feladatok lebonyolítását. Az OpenAI egyik bemutatóján például a rendszer egy eladótól rendelt epret, demonstrálva ezzel sokoldalúságát.

Felvetődik azonban a kérdés: van-e valami egyedi az emberi hangban, ami segít megkülönböztetni azt a mesterséges intelligencia-hangoktól?

Lehetséges a mesterséges intelligencia-hangoktól megkülönböztetni az emberit?

Jonathan Harrington, a Müncheni Egyetem fonetika és digitális beszédfeldolgozás professzora, osztja azt a véleményt, hogy a mesterséges intelligencia alapú hangszintetizátorok teljesítménye valóban lenyűgöző.

Az elmúlt fél évszázad, különösen a legutóbbi időszakban, a beszédgeneráló és -szintetizáló rendszerek fejlődése olyan mértékűvé vált, hogy a mesterséges intelligencia által létrehozott hangok és az emberi beszéd között gyakran szinte lehetetlen a különbséget tenni.

- mondta, miközben évtizedeket szentelt annak, hogy mélyebben megértse az emberi kommunikáció rejtelmeit, a szavak dallamát és az akcentusok kialakulásának összetett folyamatát.

Viszont léteznek olyan lényeges jelek, amelyek segítségével könnyedén kideríthetjük, hogy egy emberi hanggal, vagy éppen mesterséges intelligencia által generált beszéddel van-e dolgunk - emelte ki.

Egy kísérlet keretében a New York-i Egyetem Stern School of Business vezetője, Conor Grennan hangklippárokat készített: egyiken ő maga olvasott fel, a másikon az ElevenLabs szoftvercég MI beszédklónozó eszközével generálták a szöveget.

A közönség soraiban ott ült Steve Grobman, a McAfee kiberbiztonsági vállalat technológiai igazgatója is. Véleménye szerint a beszédek hallgatása során nem csupán a szavak, hanem a beszéd különböző aspektusai is figyelemre méltók voltak. Megjegyezte, hogy a légzés ritmusának megfigyelése arra emlékeztette, hogy az emberi beszéd természetesebb, ugyanakkor a beszéd által közvetített ritmus, egyensúly és tónus alapján inkább a mesterséges intelligencia produkciójaként értékelte a hallottakat.

Képzetlen fül számára a mesterséges intelligencia által generált hangok gyakran nehezen megkülönböztethetők a természetes hangzásoktól.

Grobman szerint az emberek valóban nem túl jók ebben. Ám a a mélyhamisítás-észlelő szoftver segít azonosítani azokat a jellemzőket, amelyeket az emberi fül elmulaszthat.

"Fontos, hogy mindig szem előtt tartsuk a mondanivaló keretét, hiszen a gyanúsan csengő állítások gyakran hamisítványok lehetnek."

- jegyezte meg a szakember.

Amikor a mesterséges intelligencia által generált hangok kerülnek terítékre, Pete Nicoletti, a Check Point Software kiberbiztonsági szakértője, aki a fenyegetéselemző platform globális információbiztonsági igazgatója, hangsúlyozza, hogy a hanglejátszás során érdemes különös figyelmet fordítani a természetellenes beszédmintákra. Ilyenek lehetnek például a szokatlan szünetek vagy a furcsa, kínos kifejezések, amelyek könnyen árulkodó jelei lehetnek a manipulációnak.

A torzítások és a nem megfelelő háttérzaj szintén gyanúsak lehetnek. Érdemes figyelni a hangerő, a ritmus és a hangszín korlátozott eltéréseit is - megtörténhet ugyanis, hogy a néhány másodperces hangból klónozott mesterséges intelligencia-hangok nem rendelkeznek az emberi hang teljes tartományával.

Ha a beszéd túlzottan sima és hibátlan, könnyen lehet, hogy mesterséges intelligencia által generált hangokkal van dolgunk.

Harrington professzor véleménye szerint a mondatban szereplő szavak kiemelésére való odafigyelés remek módszer lehet a számítógéppel generált beszéd azonosítására. Az emberek ugyanis a hangsúlyozás révén gazdagítják a párbeszéd jelentését, több rétegű értelmet adva a mondatoknak.

Emellett a mondat felosztásának módja is megváltoztathatja annak jelentését - így a megfogalmazás is árulkodó lehet.

A beszéd három alapvető összetevője jelentős mértékben hozzájárulhat a mesterséges intelligencia által kibocsátott hangok észlelésének javításához. Jonathan Harrington megjegyezte, hogy a számítógép által generált beszéd sokszor unalmasnak tűnik, és nem képes visszaadni az emberi kommunikáció gazdagságát.

Természetesen, ahogy a technológia előrehalad, a mesterséges intelligencia egyre kifinomultabban utánozza a beszéd különböző jellemzőit. A hangklónozás komoly kockázatot jelenthet a vállalatok számára. Egy hamis hangüzenet segítségével akár érzékeny információkat is ellophatnak, például hitelesítő adatokat.

Dane Sherrets, aki a HackerOne cégnél a feltörekvő technológiák innovációs tervezője, elmondta: módszereket kell kifejleszteni annak igazolására, hogy tudjuk: valóban azzal a személlyel beszélünk, akinek gondoljuk az illetőt. Egy vállalatnál nem kell elektronikus átutalást végrehajtani csak azért, mert hangüzenetet kaptunk a cég vezérigazgatójától. Személyes kérdések feltevésével - például, mi a kedvenc dalunk? - ugyancsak elejét lehet venni a hamis hangok okozta problémáknak.

Ha arra gyanakszunk, hogy valaki mesterséges intelligenciaként próbálja magát eladni, a legjobb megoldás, ha nem azonnal reagálunk. Helyette érdemes visszahívni a megadott számot, és ott ellenőrizni a dolgot.

Michael McNerney, a Resilience kiberkockázati biztosító cég biztonsági alelnöke a mesterséges intelligencia által generált hangokkal kapcsolatban megjegyezte, hogy a szavakban való botlás és a levegővétel természetes emberi jellemzők. Ezért, ha egy beszéd túlságosan tökéletesnek tűnik, az gyanús lehet, és azt jelezheti, hogy valamilyen mesterséges intelligenciával készült, hamisítványról van szó.