CETIN zažívá transformaci na data-driven company

Lepší práce s daty, automatizace a optimalizace reportů. Na tom všem aktuálně v CETIN pracuje oddělení Data Warehouse (DWH) a Business Intelligence (BI), které vede Daniel Arnošt. Ten byl hostem nejnovějšího CETIN podcastu.

Daniel Arnošt začal svoji profesní dráhu v Akademii věd České republiky. Po nějaké době přešel do oblasti obchodu a věnoval se kódování. V roce 1999 ale přišla speciální nabídka, která změnila kurz jeho kariéry. „Ve firmě, kde jsem delší dobu pracoval, vznikla možnost vytvořit datový sklad pro velký bankovní dům. To byla tehdy v Česku úplná novinka.“ Od té doby se od datových skladů prakticky nehnul. Jen měnil firmy a pozice. Vyzkoušel si práci architekta, projektového manažera, klasického manažera i konzultanta pro data governance.

Před zhruba rokem a půl mu zavolal headhunter a nabídl mu pozici vedoucího oddělení Data Warehouse (datového skladu) v CETIN. „Hodně jsem to zvažoval, protože CETIN zrovna procházel transformací, což se mi zdálo jako nestabilní situace. Nabídka na tak zajímavou práci se ale nedala odmítnout. Málokdy se v Česku poštěstí dostat za úkol nově vybudovat datový tým sjednocením analytiků, techniků a dalších lidí roztříštěných po celé firmě a mít přitom plnou důvěru vedení.“

Harmonizace procesů, způsobu vývoje, plánování a nové rozdělení zodpovědností představovalo hlavní výzvy pro lidi, kteří byli zvyklí každý pracovat zcela jiným způsobem. V současné době je tým DWH/BI složen ze tří menších týmů. Jedním je ten datového skladu, a mimo to vznikly dva Business Intelligence týmy, které mají vlastní byznysově orientovanou specializaci. V současné době má tým přes dvacet členů a plánuje se další rozšiřování kvůli nutnosti zastřešit nově i data governance.

Denně řeší různorodé úkoly. „Některé odbavíme za hodinu, jiné jsou projektem na měsíc. Třeba když vzniká úplně nový report.“ Danielovi lidé ale nedělají jen to, o co si ostatní řeknou. Schopnosti členů týmu se rozvíjejí tak, aby díky hluboké znalosti dat a procesů sami mohli aktivně kolegům z jiných oddělení navrhovat, jak jejich procesy vylepšit.

Data governance zvyšuje důvěryhodnost dat

Vytvoření nového týmu nebylo samoúčelné. Hlavním cílem bylo umožnit konsolidaci analytických výstupů. Reporty a analytické výstupy vytvářené nezávislými týmy nebyly vzájemně konzistentní. Ať už proto, že nepoužívaly data z DWH, nebo proto, že výstupy obsahovaly rozdílné algoritmy pro výpočty. To ve výsledku znamenalo, že manažeři nemohli rozhodovat na základě jednoznačných dat. Význam tohoto problému vzroste v případě zavádění machine learning řešení a aplikací na bázi umělé inteligence.

Proto se v rámci projektu CETIN.Digital zahajuje i program data governance neboli správy dat, která už nebude zahrnovat pouze data v datovém skladu, ale data společnosti CETIN obecně. „Každý pojem bude mít svého vlastníka, který bude zodpovědný za jeho přesnou definici. Známé budou i zdrojové systémy. Zvýší se tím důvěryhodnost a dostupnost dat.“

V datovém skladu se každý den zpracovává zhruba 800 souborů

Objemy dat, které musíme v datovém skladu zpracovávat, jsou obrovské. „Máme kolem 50 zdrojových systémů. Z nich denně přichází kolem 800 souborů, které musíme zpracovat.“ Ve výsledku jde o zhruba 13 000 databázových objektů – tabulek s daty a pohledy nad nimi. „Nad tím vším pak stojí zhruba 470 reportů, které má můj tým na starost.“

Datový sklad je tak vlastně sběrnicí všech dat dané firmy na jednom místě. Takový systém si musí každá společnost nejen od nuly vybudovat a zautomatizovat, ale také denně dohlížet na jeho bezchybný provoz.

Naším cílem je implementovat změny v reportech i DWH denně a data aktualizovat „průběžně“

Pro vývoj datových skladů je podle Daniela jedinou cestou agilní přístup. „Umožňuje intenzivní komunikaci mezi uživateli a techniky. Díky tomu můžeme rychle reagovat na změny.“ Těch je v DWH dost a požadavky se mění prakticky neustále. „Naším cílem je dokázat nasazovat změny bez velkého úsilí každý den a data aktualizovat ideálně každou půlhodinu. To je to, co potřebujeme.“

Umělá inteligence pomáhá Danielovu týmu už nyní s automatizací mnoha rutinních procesů. A kolegové hledají další možnosti, které AI poskytuje pro optimalizaci úsilí nutného pro vývoj a provoz datového skladu a reportů.

Kromě vývoje se snaží počet reportů snižovat. Historicky jich vzniklo mnoho duplicitních v důsledku vývoje nezávislými skupinami analytiků. Navíc nebyl zavedený standardní životní cyklus jejich správy, který by umožnil jejich rušení v případě, že se už nepoužívají. Konsolidace reportů nejenom snižuje náročnost a náklady na jejich udržování, ale poskytne uživatelům lepší dostupnost informací ve vylepšeném uživatelském rozhraní s jednodušším přístupem k potřebným informacím.

CETIN hledá externistu na výpomoc

V blízké budoucnosti se Danielův tým zaměří na ladění toho, co už vybudoval. „Cílem je zlepšit efektivitu a zrychlit nahrávání dat do datového skladu. Pomůže nám v tom automatizace a algoritmy strojového učení.“ Velkým tématem bude také data governance a úklid v reportech. „Chceme vytvořit katalog, ve kterém uživatelé snadno najdou, co potřebují.“

Do týmu Business Intelligence Daniel aktuálně hledá novou posilu. „Potřebuji člověka pro data governance, který zvládá time management, umí komunikovat a má strukturované analytické myšlení. Naopak hluboká technická znalost není podmínkou. Dnes se dá vše naučit poměrně rychle. Mnohem důležitější je chuť pochopit náš byznys.“

Kromě toho potřebujeme někoho, kdo se dobře vyzná v datovém modelování a pomůže nám se standardizací pravidel pro vytváření, dokumentace a údržby datových struktur: datového modeláře.

Zaujala vás některá pozice? Podívejte se na podrobnosti na www.cetin.cz/kariera