Menü
Sorozatok
Hogyan készülnek az adatok? – Vukovich Gabriella, a KSH elnöke hozzáférésről, adatvédelemről, big datáról

Műhely

Hogyan készülnek az adatok? – Vukovich Gabriella, a KSH elnöke hozzáférésről, adatvédelemről, big datáról

Szolid, fontos üzem a Központi Statisztikai Hivatal, itt gyűjtik az ország viszonyait leíró adatokat. A KSH 150 éves, hozzáfér valamennyi állami nyilvántartáshoz, működésének jelentős részét az Unió szabályozza. A hiteles adat előállítása körül forog az élete, most ismerkedik a Big Dataval.  Vukovich Gabriella, a KSH elnöke a HÉTFA Műhelyben erről tartott előadást.

2016. január 1-től valamennyi állami nyilvántartást hozzáférhetővé vált a hivatal számára. A széleskörű hozzáférés azonban nem jelenti a KSH statisztikai egyeduralmát: a hivatal a legfontosabb magyar adatszolgáltató intézmény, de nem az egyetlen. Más állami szervezetek, jellemzően minisztériumok is állíthatnak elő adatokat, viszont csak akkor, ha megfelelnek a KSH által szabott kritériumoknak. Az új statisztikai törvény szabta eszerint újra az adatgyűjtés- és szolgáltatás rendszerét.

Az idén 150 éves KSH épülete

Ami a felhasználói oldalt illeti, az állami szféra a legnagyobb adatfelhasználó: szinte az összes minisztérium, főleg az NGM és az EMMI, és az NFM.  De napi kapcsolatban vannak szinte minden országos intézménnyel és rengeteg regionális, helyi intézménnyel is.. Az üzleti szférában főként a nagy szereplők használják az adatokat, akik felismerték, hogy a gazdasági szolgáltatások mellett a statisztikai adatok használata is komoly versenyelőnyhöz juttathatja a vállalkozásokat. A KSH adatok kutatási célra is felhasználhatók, speciális biztonsági feltételekkel.

Fontos felhasználó még a sajtó: „Ha egy online sajtóorgánum felhasznál valamilyen adatot, általában a többi átveszi. Ha az első félreérti, a többi is félre fogja.” A módszertani ismeretek hiánya könnyen vezethet téves interpretációhoz – ezért újságírók számára külön rendezvényeket szoktak szervezni.

A KSH éves költségvetési támogatása 9 milliárd körül van. Ebben nincsenek benne az olyan plusz feladatok, mint a népszámlálás vagy a mikrocenzus, melyekre külön költségvetési támogatást kapnak, általában 2-3 évre tervezve a feladatokat és a költségeket. Bizonyos esetekben a KSH akár kérheti is a ráfordított költségek megtérítését. Az állami intézmények is fizetnek a nagyobb erőforrást igénylő egyedi igények szerint bontott adatokért, a kutatóknak is meg kell téríteniük az egyedi kérések teljesítésének költségeit.

Beágyazva az EU-ba

A  KSH az Európai Statisztikai Rendszer része más nemzeti statisztikai hivatalok és az Eurostat, az Unió statisztikai hivatala mellett. „Az EU nagyjából 85 %-ban határozza meg a statisztikai kötelezettségeket a nemzeti statisztikai hivatalok számára. Ez kevés szabad teret enged olyan speciális statisztikai tevékenységeknek, ami csak egyes országok számára releváns. Elsőre kicsit sokkolónak tűnik, de a nemzetközi vagy európai meghatározottság nem azt jelenti, hogy kizárólag az EU-nak vagy az Eurostatnak hasznos az adat, s nekünk nem, hanem azt, hogy koordinált formában, összehangolt módszertanokkal állítjuk elő ugyanazokat az adatokat”.

Az európai meghatározottság sok jogszabályi és módszertani kötöttséggel jár. Van, amikor az adatgyűjtési módszertant egységesítik: a mintavételi eljárás előre meghatározott, illetve a minimális mintanagyság is adott.  Más esetben a kérdőíveket egységesítik, például a lakossági egészségfelmérésnél. A módszertani összhang nélkül nem tudhatnánk, hogy az almát almával vagy körtével hasonlítjuk össze.

A nemzeti statisztikai hivatalokat az Európai Bizottság rendszeresen auditálja, a KSH-t legutóbb 2015-ben. Az adatállományok ellenőrzése pedig folyamatos, csak uniós jóváhagyással lehet érvényesnek tekinteni a nemzeti hivatalok adatainak jó részét. „Ez a kontroll nagyon hasznos. Komoly összeszedettségre motivál, ugyanakkor biztosít egy védelmi hálót, megadja a javítás lehetőségét.”

Az adat annyit ér, amennyire megbízható

A statisztikai munka kulcseleme a megbízhatóság. Mindent meg kell tenni, hogy az adatgyűjtés és feldolgozás biztosítsa az eredmények hitelességét. Ennek első lépése, hogy a bejövő adatok jó minőségűek legyenek. Amióta a KSH hozzáférhet más állami szervek adatbázisaihoz, fontos kérdés lett, hogy az így kapott adatok alkalmasak-e statisztikai felhasználásra. Ha például a NAV másként gyűjti az iskolai végzettséget, mint a KSH, egész adatbázisokat kell átkódolni, ami hatalmas munka, nincs rá erőforrás. Ezért fontos a különféle nyilvántartások összehangolása. A skandináv országokban már évtizedek óta törekednek erre: a nemzeti statisztikai hivatalok nemcsak hozzáférhetnek az állami hivatalok nyilvántartásaihoz, hanem kötelezték a nyilvántartások vezetőit, hogy vonják be a statisztikusokat a nyilvántartások kialakításába és módosításaiba. Ettől a gyakorlattól mi még messze vagyunk, de a törvényi felhatalmazás január 1. óta már megvan.

Fotó: pixabay.com

A harmonizáció azért is fontos lenne, mert a KSH csak olyan adatokat ad ki, amiért vállalni tudja a felelősséget. „Nem szívesen adunk ki bizonytalan adatokat. A kutatók joggal várják el, hogy megbízható statisztikákat kapjanak. A meglévő adatbázisokból azokat az adatokat keressük, melyek használhatóak. A NAV adatai közül sokat használunk, például a teljes SZJA vagy TÁSA bevallást átvesszük. Ezek nagyrészt ellenőrzött, a statisztikai felhasználhatóság szempontjából is jó adatok.”

A megbízható, hiteles adatok előállításának egyik legfontosabb feltétele a függetlenség – sem kormányzati szerv, sem politikai, gazdasági, egyéni érdekcsoport nem szólhat bele az intézmény szakmai működésébe. A pártatlanság és objektivitás a konkrét adatok előállítására, a módszerek kiválasztására és az adatok közlésére egyaránt vonatkozik.

Az adatforrás nem lehet azonosítható

Alapvető elvárás, hogy a statisztikai hivatal bizalmasan kezelje az egyedi, azaz beazonosítható adatokat, akár közvetlen, akár közvetett beazonosíthatóságról van szó. „Ez egy nagyon szigorú egyirányú utca: adatok tőlünk csak statisztikai feldolgozás után kerülhetnek ki, közvetve sem azonosítható adatként.” A népszámlálási adatbázist például sokan sok féle célra használják, ezért azt állandóan anonimizálni kell, mindig az aktuális igényeknek megfelelően. Ha kell, kivesznek, megváltoztatnak, vagy hozzátesznek változókat – sokféle módszer van, ami a statisztikai következtetést nem rontja, de az azonosíthatóságot megakadályozza.

Néhány évvel ezelőtt létrehozták az ún. kutatószobát, ahol kutatási céllal hozzáférhetőek az interneten, kiadványokban nem elérhető, egyedi adatokat tartalmazó anonimizált adatállományok A szobában nincs internet, nem lehet bevinni se okostelefont, se laptopot. Csak az ottani gépeken lehet dolgozni, amiken nincs adat, csak szerverelérés. Az előállított kutatási eredményeket pedig csak adatvédelmi ellenőrzés után lehet kivinni. Adatbázist nem adnak ki, csak az elemzésre kész ellenőrzött adatokat. Adatállományt behozni, s a meglévő KSH adatbázisokkal összekapcsolni viszont lehet, persze azt is ellenőrzött formában.

Vukovich Gabriella. Fotó: ksh.hu

„A statisztikusok úgy szocializálódtak az elmúlt évtizedekben, hogy egyedi adatokat nem adunk ki. Kutatási céllal, szigorú keretek között sem. Ezt a kultúrát nagyon nehéz áttörni. Most átmeneti állapotban vagyunk, valahol félúton a ’nem adhatunk ki adatot’ és a ’szabályozott hozzáférés’ álláspont között.”

Az adatszolgáltatók is ragaszkodnak az adatvédelemhez – például az a több százezer vállalkozás és háztartás, ami adatokat ad a KSH-nak különféle gyűjtési csatornákon. „Néhány év múlva lehet, hogy nem lesz igény arra, hogy ennyire védjük az adatokat – ha már minden kint van a Facebookon, egy idő után ez az érzékenység is csökken. De nem tartunk még itt.”

A nagy lehetőség – Big Data

A KSH állami szereplőként az információs piacon működik, ahol a legnagyobb a változás. A kiegyezéskor alapított, 150 éves intézménynek fontos a hagyományőrzés, a tekintélyes múltra támaszkodó alapelvek és az erkölcsi tartás. Ezt kell összeegyeztetni azzal, hogy az adatgyűjtés és feldolgozás területén forradalmi változások folynak. Rengeteg eszközzel, rengeteg helyen gyűjtenek adatokat szenzorok, kamerák és dolgoznak fel az egyre gyorsabb és összekötöttebb számítógépek. A big data már a jelen része.

 „Amikor a big data kérdés előkerült, a statisztikusok nagyon lelkesek voltak.  Azonban a kezdeti öröm után rájöttünk, hogy komoly problémát jelent ezeknek az adatoknak a strukturálatlansága és szabályozatlansága.” Sok még a nyitott kérdés. Ezek rendezése nélkül esélytelen, hogy igazi statisztikát építsenek ezekre az adatokra.

  • Nem egyértelmű, hogy kikről szólnak az adatok. Tudjuk, hogy nem a teljes népességről van szó, de nem tudjuk, hogy annak melyik részéről. Nem ismerjük a minta tulajdonságait.
  • Sem az adatvédelem, sem a hozzáférés nincs jogilag rendezve, ami szintén sok kérdést vet fel. Mikor lehet egy adatkezelőtől adatot igényelni a hivatalos statisztikákhoz? Milyen együttműködés keretében lehet hozzáférni ezekhez az adatokhoz – köthető-e mindkét fél számára előnyös megállapodás?
  • Ráadásul ezek az adatállományok bármikor eltűnhetnek. Nem arról van szó, hogy például egy mobilszolgáltató egyik percről a másikra eltűnne, de számos big data adatforrás bármikor eltűnhet, vagy nagymértékben átalakulhat. Többek között ezért van az, hogy az adatok gyűjtése, tisztítása, feldolgozása, stb. speciális tudást és nagyon költséges eljárásokat igényel.

Ugyanakkor a big data adatok hatalmas lehetőségeket rejtenek.

  • Nagy előnyük, hogy valós idejűek.
  • Egészen pici területi egységekre bontva is képes információt szolgáltatni, például, ha a mobilszolgáltatók információit nézzük, szinte a pontos címet is meg lehet mondani, hogy merre jár a telefonáló. Ennek köszönhetően jól lehet követni például az ingázást, nyaralási, vagy a migrációs mozgásokat.

Vannak olyan jelenségek, melyeket hagyományos statisztikai módszerekkel nem igazán lehet mérni, a Facebook és Twitter segítségével viszont jól lehet vizsgálni. Ilyen például a migráció. A külföldön élő magyarokról a célországok népszámlálása adhat valamilyen képet. Ez azonban csak hozzávetőleges, többek között  a kettős állampolgárságúak miatt, de definíciós problémák miatt is. Előfordulhat, hogy valaki Franciaországba a román útlevelével utazik, Svédországba pedig a magyarral. A KSH azzal próbálja kiküszöbölni ezeket a torzításokat, hogy a születési települést is gyűjtik, de nem minden ország tesz így.  A migráció mérése azért is nehéz, mert megváltozott a jellege.  Az eddig használatos fogalmak, például a ’legalább egy éve tartózkodik a kérdéses országban’, sokakra már nem igaz. Azokat sem lehet nyomon követni, akik éveket töltenek Magyarországtól távol, de egyik helyen sem élnek egy évig.

A KSH hosszas kísérletezés után egy óvatosabb megközelítést választott: a big data adatokra elsősorban kiegészítő forrásként tekintenek. A NAV-val együttműködve például az online pénztárgépek adatait használják fel a kereskedelmi statisztikák készítéséhez. Ezek az adatok jó közelítőnek bizonyultak a KSH által számított adatokhoz, ezért jövőre valószínűleg az adatszolgáltatás egy része az online rendszerből történik, ezáltal csökkentve az adminisztratív terheket.

Az is bejáratott módszer, hogy az országhatár környékén lévő térfigyelő kamerákat turisztikai adatgyűjtésre használják. Az útdíj szolgáltatók kamerája alapján átveszik a rendszám adatokat, az autó típusát és azt is, hogy hány embert lát a kamera. Ebből tud a KSH képet alkotni arról, hogy melyik országból hányan lépnek Magyarország területére.

Kritikus üzem

A statisztikai munka erősen szabályozott, a KSH egy nagy üzem, amely talán sokszor lomhán alkalmazkodik, nem tud minden kérdésre gyors és egyértelmű választ adni. Ez így van, és így kell hogy maradjon a mai felgyorsult és mindenre egyből reakciót váró világban is, bár a KSH is bevet olyan modernizációs, szervezet- és folyamatfejlesztési megoldásokat, amelyek rugalmasabbá teszik a működését. A statisztikai adatok minősége megőrzendő érték. „Ha nem ragaszkodnánk a statisztikai működés hitelességét biztosító elveinkhez, akkor lehet, hogy egyes adatok gyorsabban megszülethetnének, de nem lennének megbízhatóak.”


A sorozat további cikkei

A Hortobágy arcai egy társadalomrégész szemével

Alkalmazkodó földhasználat vs. formáló földhasznosítás. Termőterület vs. védett természeti érték. Hagyományőrzés vs. modernizáció. Saád József szociológus, a Telepesek Társadalmi Múzeum Alapítvány kutatója a HÉTFA Műhely előadásában azt mutatta be, hogyan alakult a Hortobágy története az elmúlt másfél évszázadban.

“Hiszek a politikamentes közigazgatásban” – interjú Szaló Péterrel

Szaló Péter csúcstartó: 1990 óta ő volt a leghosszabb ideig állami vezető (helyettes államtitkári, államtitkári, szakállamtitkári) státuszban lévő vezető a magyar közigazgatásban. Hosszabb rövidebb ideig ő vezette a terület- és településfejlesztést, az építésügyet, majd a fejlesztéspolitikát. Az államapparátus elmúlt 25 évéről, a nulláról építkező területfejlesztésről és a közigazgatás ethoszáról beszélgettünk.

Mitől ér többet egy lakás? Elmélet és gyakorlat

Az ingatlanok árának változásáról nap mint nap beszámolnak a híradók és az internetes portálok. Kedvelt és kurrens téma, amiről szinte mindenkinek van tapasztalata, de legalábbis véleménye.  Mi határozza meg a lakások árát? Horváth Áron, az ELTINGA ingatlanpiaci elemző központ alapítója és vezetője erre a kérdésre kereste a választ a HÉTFA Műhelyen tartott előadásában.

Hogyan használják a turisták Budapest, Bécs és Prága városi tereit? 

Lehet úgy vonzó egy város a turisták számára, hogy közben az ottlakók számára is élhető maradjon. Kádár Bálint építész, a HÉTFA Műhely legutóbbi előadója olyan várostervezési eszközöket javasol, melyek ezt segítik elő. Három Közép-európai nagyváros, Bécs, Prága és Budapest gyalogos térhálózatának összevetésével kínál új megközelítést.

Nagybirtok, kisbirtok, szociális gazdaság – kinek terem babér? 

Kik keresnek jól, kik szorulnak vissza a földeken? Mire van szüksége egy mezőgazdasági vállalkozónak a talpon maradáshoz? Megyesi Boldizsár, az MTA kutatója mutatta be kutatási eredményeit a HÉTFA Műhely előadásán.

Azokat beszéljük ki, akik normaszegők a közösségben – interjú Takács Károllyal

Takács Károly hálózatkutató az általános iskolai osztályok belső viszonyait kutatja. Mitől lesz valaki menő az iskolában? Kiről és miért pletykálunk a munkahelyen? Hogyan lehet alkalmazni a hálózatkutatás eredményeit? Ezekről a kérdésekről beszélgettünk a társadalmi kapcsolatháló-elemzéssel foglalkozó hazai szakmai műhely, a „Lendület” RECENS Kutatóközpont vezetőjével.

Hogy pontosan hol a határ, ezen megy a vita – interjú Balázs Zoltánnal

Mi a hatalommegosztás lényege és hogyan működik a gyakorlatban? Mi köze a korrupciónak a hatalommegosztáshoz? Ezekről a kérdésekről beszélgettünk Balázs Zoltán politológussal, az MTA tudományos főmunkatársával.