Jestli chcete v ČR prodávat firemní motorky, zaměřte se především na podnikatele a firmy, které jsou plátci DPH, mají již alespoň 1 firemní vozidlo a majitelům není více než 55 let.
Jak jsem to zjistil? Přečtěte si následující článek a dozvíte se to. 🙂
Motocykl jako firemní vozidlo není v našich končinách příliš obvyklá záležitost. To je vidět i z otevřených dat o registracích vozidel Ministerstva dopravy.
Jedná se zjevně o rostoucí segment, který příliš nezbrzdil ani hospodářský propad v roce 2020. Využiji ho pro demonstraci různých analytických přístupů s cílem co nejpřesněji určit podnikatele a společnosti, které si motorky pořizují. Tento segment dobře poslouží protože není jednoduché intuitivně říci, jak asi společnost, která si pořizuje motocykl typicky vypadá, oproti třeba segmentu traktorů, kde člověka intuitivně napadnou činnosti jako zemědělství, nebo lesnictví, či souvislost s nějakou formou dotací a bude to správně.
Kompletní technická realizace s využitím dat Extera je k dispozici na MindForce Githubu.
Přístup 1: Statistická analýza dat - porovnání firem s motocykly s těmi, co si registrují osobní automobily
S pomocí některého BI nástroje (v tomto případě Google Data Studio) je možné jednoduše analyzovat situaci v segmentu firemních motocyklů v porovnání např. se segmentem firemních automobilů. Porovnávat se v tomto případě zdá vhodné ukazatele počtu firem/podnikatelů, kteří si nějaké vozidlo registrovali a počet registrovaných vozidel v rámci dimenzí, které umožní lépe porozumět této situaci, v tomto příkladu využiji data, která poskytuje RES (nově také jako open data) tj. rozdělení na firmy a podnikající fyzické osoby, obrat, počet zaměstnanců, lokaci sídla a hlavní činnost v rámci NACE klasifikace.
Statistická analýza dat pomůže porozumět těmto segmentům a tím zvýšit informovanost rozhodování např. o zaměření marketingové kampaně.
Co ale dělat v případě, že nemáme k dispozici pouze jednotky/malé desítky relativně jednoduše uchopitelných, porovnatelných vlastností, ale máme jich k dispozici stovky, či tisíce a může se jednat o komplexní informace? Např. detailní informace o produktech/službách podnikatelů a společností namísto NACE klasifikace, aktuální finanční ukazatele z rozvahy a výsledovky namísto samotného obratu, či informaci o všech pobočkách a provozovnách?
Jak využít tato data ve svůj prospěch a najít ty atributy, které mají na rozhodnutí nejvyšší vliv?
Přístup 2: Data science - vytvoření modelu dat pomocí strojového učení a vysvětlení rozhodování tohoto modelu
Cílem je v vytvořit datový model, který bude s vysokou úspěšností určovat (na datech, která neměl k dispozici při trénování), zda si daná společnost motocykl pořídila, či nikoliv a následně tento model vysvětlit tj. zjistit podle jakých ukazatelů se model rozhoduje.
V tomto příkladu využiji data z databáze Extera Feature Store, která obsahuje data o podnikatelích a společnostech z desítek otevřených a veřejně dostupných datových zdrojů zpracovaných tak, aby šla jednoduše použít pro tvorbu ML modelů.
S ohledem na cíl tohoto cvičení využiji sadu organization_basic, která pro všechny podnikatele a firmy v ČR obsahuje asi 300 statických ukazatelů, tj. neřeší se vývoj hodnot v čase, ale pouze aktuální stav.
Kompletní technická realizace je k dispozici na MindForce Githubu.
Po troše ladění parametrů mám k dispozici model, který má na validační množině dat více jak 80% úspěšnost v určení, toho, zda si podnikatel/společnost pořídila motocykl.
Takto dobrého výsledu je dosaženo pomocí algoritmu gradientních rozhodovacích stromů a model spadá podobně jako třeba neuronové sítě do kategorie "black-box" modelů, jejichž výstupy není možné jednoduše mapovat na vstupy. K tomu je potřeba využít prostředníka v podobě Shapleyho hodnot založených na teorii her.
Prvním zajímavým výstupem je vizualizace jak moc přispívají jednotlivé atributy k rozhodování modelu v průměru na všech datech. Tento graf ale neříká nic o tom, jaké hodnoty těchto ukazatelů, případně jaké kombinace vedou k tomu, že model označí společnost jako vlastníka motocyklu. K tomu slouží následující vizualizace výsledků.
Kladný dopad na model na ose x značí příklon ke klasifikaci 1, neboli že si podnikatel/společnost pořídila motocykl. Červená hodnota pak vyšší hodnotu daného atributu a shluky ukazují na vyšší počet případů v datech. Z tohoto grafu pak můžeme vyčíst, že majitele motocyklů budeme úspěšněji hledat mezi podnikateli/společnostmi, které:
jsou plátci DPH (VAT_payer)
mají registrovaná další vozidla zejm. osobní a nákladní automobily a přípojná vozidla (vhcl_*)
mají středně staré a nebo mladší vlastníky (bo_avg_age)
mají 1 a více poboček (branch_cnt)
Zajímavá je také analýza interakce jednotlivých vlastností a jejich vliv na výsledné rozhodnutí modelu.
Z výše uvedené příkladu vizualizace je dobře vidět, že nejvyšší mírou ke kladné klasifikaci modelu přispívají společnosti (modré) s majiteli mezi cca 30 a 55 lety věku. U podnikatelů v tomto věku je přínos k rozhodnutí spíše nejednoznačný.
Věřím, že tento text a Github dobře poslouží stávajícím zákazníkům Extera jako návod, jak využít Feature Store (pro nějaké více smysluplné cíle, než je pořízení motocyklu😉) a ostatním jako inspirace pro jejich práci s daty.
Σχόλια