Szokásunktól eltérően ez alkalommal nem saját tartalmat osztunk meg: egy tehetséges fiatal csapat, a StatCog Informatikai Kft. munkatársainak, Gulyás Máté és Szabados Bence publikációját tesszük közkinccsé, akik az adatot mint kihasználatlan erőforrást vizsgálják, és ezzel kapcsolatban fejlesztenek izgalmas megoldásokat. Tevékenységüket érdeklődve figyeljük, amelyben magunk is komoly üzleti lehetőséget látunk. Íme tehát az írás, eredeti formájában:
Pár száz dollárért havonta eladhatóak az ember saját személyes adatai, a teljes internetes aktivitásától a legintimebb egészségügyi adataiig. Tehát ennyit legalább ér az adat, amit pusztán létezésünkkel termelünk. De ennél sokkal többet érhet termékként, és még annál is többet adattőkeként felhasználva. Ebben a cikkben néhány jellemző szempontból összevetjük a klasszikus gazdaságtan pénzbeli tőkéjét az adatvagyonként megjelenő adattőkével.
A tőke egyik legfontosabb tulajdonsága, hogy a befektetéseken keresztül hasznot hoz és magát szaporítja. Fontos kérdés, hogy az adatvagyonnak van-e ezzel párhuzamba vonható tulajdonsága, és ha van, akkor ez milyen formában, milyen kölcsönhatáson keresztül nyilvánul meg. A magas minőségű adat közvetlenül is több magas minőségű adatot eredményez, hiszem lehetővé teszi, hogy informáltabban, célzott adatrögzítésen keresztül több hasznos adat jöjjön létre.
Ám jellemzően nem közvetlenül generál az adat több adatot, hanem a pénzbeli vetületein keresztül. Például predictive maintenance segítségével jelentősen csökkenthetőek a karbantartási költségek és a holt járatok időtartamai. Így az adattőke a megtakarításokon keresztül generál pénzbeli hasznot. Persze közvetlenül is okozhat bevétel növekedést, például segíthet egy adatszett abban, hogy megértsük a vásárlóink működését, így növelve például egy adott marketing csatorna konverziós rátáját. Az így nyert források persze visszaforgathatóak az adatok mennyiségének és minőségének növelésébe, bezárva ezzel az adattőke önreprodukciós ciklusát.
Az adatszettek építése és a feldolgozásuk ezért egy olyan folyamat, amit “kicsiben” is érdemes elkezdeni, hiszen ez nem csak segíti a későbbi nagyobb fokú adatgazdálkodás megtervezését, de meg is teremtheti az anyagi lehetőségeket annak megvalósítására. Így például könnyen kerülhetünk egy önerősítő digitalizációs ciklusba, ami nem csak a döntéshozást segítheti, de egyes feladatok automatizációjához is vezet.
Mind az adatforgalom, mind a tőkeforgalom bevett szófordulatok a saját szakterületükön belül, nem véletlen, hisz mindkettő könnyen transzferálható és felhasználásuk során gyakran mozognak.
Viszont jelentős különbség a kettő közt, hogy az adat puszta akkumulációja során is értéket nyer. Az adatbázisok értéke az adatok szakszerű összedolgozása során az adatmennyiséggel arányosnál jelentősen gyorsabban nő. Hiszen az összefüggések amiket az adatok feldolgozása során nyerhetünk, az adatszett lehetséges alhalmazain értelmezhetőek, ezek száma pedig hamar “elszáll” az adatszett méretének növekedésével. Ezen nemlinearitás miatt az időben elkezdett adatgyűjtés jelentősen csökkenti a későbbi adatfeldolgozási folyamatok megtérülési idejét.
Egy másik jelentős különbség a pénzbeli tőke és az adattőke között, hogy milyen időzítéssel kamatoznak. Míg pénzbeli tőke széles időskálán közvetlenül hasznosítható, az adattőke általában hosszabb távon, folyamatos megtérüléssel hasznosul. Ez persze nem jelenti, hogy a megtérülése rosszabb, csak azt, hogy érdemes megfontoltan, de a lehető leghamarabb kidolgozni az adatokkal kapcsolatos terveinket, irányelveinket.
A munka során keletkezik termék és sok információ, ezek önmagukban nem fordíthatóak értékké. Ahogy a termék pénzzé tételéhez logisztika, marketing és értékesítés kell, úgy kell ezen információk adatvagyonná tételéhez adatrögzítés, adatszett építés és feldolgozás. Ha az így keletkező adatokat csak elraktározzuk, az sokkal jobb stratégia, mint ha hagyjuk, hogy az entrópia martalékai legyenek. Ha egy feladatot automatizálni szeretnénk és hívunk erre a feladatra egy AI céget, a legvalószínűbb sarkalatos kérdés az lesz, hogy mekkora dataset van kéznél, illetve mennyi hónapig és hány tízezerszer kell felvételezni ugyanazt a folyamatot. Ebben a helyzetben bármilyen elraktározott adat nagyon jól jön. De az adat puszta raktározása mégis egy kicsit olyan, mint a pénzt párnacihába varrni, noha biztonságos alapot ad, megakadályozza az alapfunkciót: az önreprodukciót.
Az önreprodukció a használat módjától függő sokszorozókkal folyik. Az adattőke esetén ezek lehetnek az adatfeldolgozási algoritmusok vagy akár maga a hardver amin a tárolás és feldolgozás folyik. Természetesen minél komplexebb adatfeldolgozási módszereket használunk, annál nagyobb a befektetés, de annál nagyobbak az elérhető szorzók is. Az egyszerű rendezés és illesztés is adekvát sokszorozást biztosíthat bizonyos esetekben. Azonban az efölötti megtérülésekhez már az adatok augmentációja, gépi tanulás és fejlett matematikai modellek szükségesek. Az igazán kivételes eredmények eléréséhez pedig már olyan korszerű technikák szükségesek, mint a célra tervezett deep learning modellek.
Reméljük felvetettünk néhány érdekes szempontot az informatikus szemszögéből. Elképzelhető, hogy az utolsó időket éljük amikor információk még felelőtlenül elvesznek és a jövő kultúrájában ugyanolyan viszolygással és értetlenséggel tekintenek majd korunk adat pocséklására, mint ahogy ma tekintünk az étel pocséklására vagy a könyvégetésre. Tehát már ma is bárki egyszerű és jövedelmező lépéseket tehet, hogy a nála keletkező adatok valódi erejét a saját javára használja.
Bővebb információhoz a weboldalon keresztül juthat.
Gulyás Máté, Szabados Bence
StatCog Informatikai Kft.