Skip to main content
 

A mesterséges intelligencia működéséhez adatra van szükség. Méghozzá felmérhetetlenül nagy mennyiségű adatra. Félő azonban, hogy az algoritmusok hatalmas adatéhségét bizonyos területeken lassan kimerítjük, míg más területeken egyszerűen nehezen hozzáférhető korunk új aranya, az adat. Erre a problémára kínálhatnak megoldást a szintetikus adatok. De hogyan is képzeljük el ezeket?

Mi az a szintetikus adat?

A kifejezés még viszonylag új és kevesen hallhattak róla, főleg azok közül, akik nem mesterséges intelligenciával kapcsolatos termékek és szolgáltatások fejlesztésével foglalkoznak. Az már közismert, hogy a különféle intelligens algoritmusok és szoftverek tanításához és működtetéséhez adatokra van szükség. Ezeket az adatokat a környezetünkből különféle módszerekkel lehet kinyerni, például szenzorokkal, műholdakkal, de olyan adatpontokat közvetítő és gyűjtő platformokon keresztül is, mint a közösségi média.

Mi az a szintetikus adat?

Ezeknek az adatoknak a szintetikus fajtája gyakorlatilag olyan mesterségesen előállított adathalmazokat jelent, amelyek eredeti adatokat vesznek alapul, és ezekből számítógépes modell segítségével új adatpontokat állítanak elő. Vagyis ezek az adatok a való világ adatait utánozzák: származhatnak önvezető autók vezetési élményeiből, biztosítási ügyletekből, közösségi média megjelenésekből vagy éppen egészségügyi profilokból.

Milyen területen használhatóak a szintetikus adatok?

Ez az adattípus elsősorban olyan területeken jelent meg, ahol véges az adatok mennyisége, nehezen elérhetőek vagy túl drágák a megfelelő minőségű és mennyiségű adatok. Például az autógyártók szintetikus adatkészleteken keresztül utánozhatják a valós járművezetők viselkedését, és rengeteg helyzetet generálhatnak le, amelyeken keresztül biztonságosabbá tehetik az önvezető autókat. Mindezt a tényleges adatok megszerzéséhez szükséges idő, költség és nehézség töredéke alatt. Mivel a szintetikus adatokat mesterségesen hozzák létre, még a valódi adatgyűjtéssel járó adatvédelmi problémák közül is sokat ki tudnak küszöbölni, például nem kell beleegyező nyilatkozat az adatok használatához.

Milyen területen használhatóak a szintetikus adatok?

Nem csupán az autóiparban lehet azonban hasznosítani a szintetikus adatokat. A John Deere nevű amerikai traktorgyártó vállalat például szintetikus képeket készített a takarmánynövényekről a legkülönfélébb időjárási körülmények között azért, hogy a traktorok könnyebben ki tudják szúrni a gyomnövényeket és lepermetezzék őket. Ez rengeteg időt és energiát megspórol a vállalatnak: nincs szükség több ezer növény manuálisan történő fotózására, a traktorok gépi látással működő algoritmusai mégis meg fogják tudni különböztetni a gyomot a haszonnövénytől.

A pénzintézetek is kísérleteznek szintetikus adatokkal. A JPMorgan például fizetési csalást és pénzmosást szimuláló szintetikus adatbázisokkal kísérletezik: ezekkel az adatokkal „etetik” azokat az algoritmusaikat, amelyeket a valódi csalások kiszúrására használnak.

A pénzintézetek is kísérleteznek szintetikus adatokkal. A JPMorgan például fizetési csalást és pénzmosást szimuláló szintetikus adatbázisokkal kísérletezik: ezekkel az adatokkal „etetik” azokat az algoritmusaikat, amelyeket a valódi csalások kiszúrására használnak.

Az egyik legnagyobb felvevőpiac: az egészségügy

Szintetikus adatokra legnagyobb mértékben mégis az egészségügyben van szükség. Ezen a területen ugyanis az egyes intézmények és szolgáltatók nagyon nehezen osztják meg egymással az adataikat. Ez egyébként érthető is, ugyanis a legtöbb esetben érzékeny betegadatokról van szó, és azt sem az orvosok, sem a betegek nem szeretnék, ha ezek az adatok kikerülnének a hatáskörükből. Azt viszont nagyon is sokan pártolják, hogy olyan egészségügyi algoritmusokat lehessen kifejleszteni, amelyek segítenek az orvosoknak jobb döntéseket hozni a diagnosztika, a terápiás kezelések vagy az utógondozás terén. Ehhez viszont rengeteg adatra van szükség.

Az egyik legnagyobb felvevőpiac: az egészségügy

Emiatt például a világ legnagyobb orvosbiológiai intézménye, az amerikai National Institutes of Health szintetikus adatokat használt a több mint 2,7 millió COVID-19 betegrekordot tartalmazó adatbázisának megkettőzésére, létrehozva egy olyan adathalmazt, mely ugyanolyan statisztikai tulajdonságokkal rendelkezik, de nem tartalmaz azonosító adatokat, és amelyet a kutatók világszerte gyorsan megoszthatnak és tanulmányozhatnak. A cél az volt, hogy az érintettek magánéletének megsértése nélkül segíthessenek a hatékonyabb terápiák és orvosi kezelések azonosításában.

Iratkozz fel hírlevelünkre!