Jak vsekolem.cz řeší data 3.

15.05.2018

Do systému data sice dostanete, ale mít data v systému je jenom polovina cesty. Ta těžší část vás ještě čeká. Zejména pokud vaše služba využívá obrátková data, které mají krátkou platnost. Naše služba vsekolem.cz má několik velmi zajímavých vychytávek, které nám pomáhají pracovat efektivněji. Některé z nich vám zde popíšu. A ještě jenom, aby bylo jasno. Ano, toto vše vsekolem.cz umí. 

Ad 1) Označování a kategorizace dat. Pokud chcete pracovat s daty, musíte je vašemu uživateli předkládat tak, aby je dokázal pochopit. Základem je tzv. tagování. Tag je cosi co říká, že tento záznam je Hrad. Ano, takový ten velký neekologický barák, co stojí na skále přes 400 let. Ale také to může být pozvání na akci, například maraton. Systému je jedno, co v záznamu píšete, ale musí umět reagovat na požadavky uživatele. Proto tag, neboli typ záznam. Na druhou stranu, pokud přebíráte data z třetích stran, každá strana má data tagována podle sebe. Neexistuje standard. Takže musíte mít mechanizmus, který umí tagy standardizovat. Ale to neplatí jenom pro tagy, to platí pro vše, co budete do budoucna potřebovat a přinese vám to úspory a rychlost.

Ad 2) Mít uklizeno v datech. Stahujeme data, od partnerů, kteří mají svou službu nastavenou tak, že každou půl hodinu jim například začíná další prohlídka. Pro ně je to nezbytné, ale pokud vám do systémů takovýto partner pošle 20 záznamů na každý den a v těch záznamech je fakticky to samé, je to nepoužitelné. V tomto případě neplatí zákon na jednu interakci jeden záznam. Taková množstevní interpretace uživatele vaší služby znechutí. Proto musíte umět takovéto data automatizovaně grupovat a například interpretovat jako jeden záznam na den.

Ad 3) Update existujících záznamů. Od partnera, například našim typickým partnerem je město, první den stáhneme záznam o hudebním vystoupení. Druhý den město upraví záznam a změní čas začátku koncertu. My jsme však mezitím již nad záznamem učinili nějakou změnu. Například jsme upravili textaci, protože ta původní nebyla dostatečně košatá nebo jsme záznam navázali na nějaký další záznam. A my přeci nechceme přijít o práci, kterou jsem mezi tím vykonali. Popravdě, těch záznamů je tolik, že pokud bychom tuto funkci neměli, tak by mě dámy asi umlátily podšálky od kapučina. Náš import má každý záznam navázaný na záznam u zákazníka, takže dokážemě na naší straně upravit existující záznam. Tedy původní záznam nemažeme, ale děláme update. 

Ad 4) Dotahování adres. Toto vypadá být jako drobnost, ale je velmi důležitá. Náš uživatel chce vědět, kde se akce koná. Ale náš partner nám ne vždy adresu pošle. Nicméně GPS nám poslat musí. Bez GPS totiž náš systém neakceptuje záznam. A podle GPS již adresu dokážeme získat. (Respektive data od partnera stáhneme vždy, ale pokud záznam nemá GPS, spadne do "kýble" a někdo se mu musí věnovat).

AD 5) Duplicity. Toto je velmi zajímavá položka. Například: Mezi naše partnery patří i Liberecký a Královehradecký kraj. Tyto dva kraje mají dost dat, které získávají od měst sousedních krajů. Data mají v datové konzervě a ty nám potom předávají. Díky tomu u nás vzniká velké množství duplicit. Je proto dobré mít automatizované mechanizmy, jak duplicitám zabránit. Duplicity jsou totiž pro uživatele vaší služby nepříjemné, deformují vám statistiky apod.

Těch vychytávek a funkcí, které nám pomáhají v naši práci samozřejmě máme víc. Popsal jsem jenom některé. Podstatné je, abyste si uvědomili, že to že získáte data je samozřejmě důležité, ale dobré je vědět, že se o ty data musíte i starat. Opět jsem u toho, každý typ dat má svou cenu vstupu i hodnotu výstupu. 

-- vlapon --