Čo sú neštruktúrované dáta a akými spôsobmi ich možno analyzovať? Aký prínos môžu mať pre firmu? Ako môže pri tejto analýze aj malá firma využiť strojové učenie či umelú inteligenciu?
Neštruktúrované dáta sú akékoľvek informácie, ktoré nie sú organizované v preddefinovanom dátovom modeli. Zjednodušene povedané, na rozdiel od štruktúrovaných dát tie neštruktúrované nie sú uložené v prehľadnej tabuľke v databáze. Zdrojom neštruktúrovaných dát sú prístroje (aplikácie, kamery atď.) alebo ľudia (napr. zamestnanci alebo zákazníci). Podľa odhadov tvoria okolo 80 % - 90 % všetkých potenciálne užitočných dát, ktoré má alebo by mohla mať firma k dispozícii, pričom ich množstvo každým rokom rýchlo narastá.
Neštruktúrované dáta majú rôzne formy, typicky si ich môžeme predstaviť ako fotografiu, recenziu na internetovej stránke, príspevok na sociálnej sieti, email od zákazníka, nahrávku telefonického hovoru či kamerový záznam z prevádzky. V dnešnej dobe si asi máloktorá firma dovolí ignorovať tieto informácie. Tradičný spôsob práce s nimi je manuálny, napríklad odpoveď na komentár zo sociálnej siete alebo snaha o identifikovanie najčastejších dôvodov nespokojnosti prečítaním všetkých reklamácií. Hoci aj málo je vždy lepšie ako nič, takýto prístup pre úspech podniku v budúcnosti nestačí. Firma prichádza o cenné poznatky, ktoré môže z analýzy neštruktúrovaných dát získať.
Aj texty, fotografie, videá či zvuky je možné dátovo analyzovať.
Práca s neštruktúrovanými
dátami je trendom posledného desaťročia a vývoj nástrojov ešte ani zďaleka
nie je ukončený. Získať z takýchto dát užitočné, zmysluplné poznatky je
pomerne náročný a aj finančne nákladný proces, čo predstavuje pre mnohých
podnikateľov či spoločnosti značnú prekážku. Cieľom tohto článku nie je
zachádzať do technologických detailov alebo nástrojov, na to je zvyčajne
potrebné najať IT odborníka. Skôr pôjde o inšpiráciu,
prehľad základných techník spolu s konkrétnymi príkladmi, aké informácie
vám takáto analýza môže ako spoločnosti priniesť. Získané informácie sa
môžu následne stať základom vašej konkurenčnej výhody na trhu.
Základné techniky analýz neštruktúrovaných dát
Dolovanie textu (Text Mining)
Ako už vypovedá samotný názov, text mining získava informácie prostredníctvom analýzy textu. Predmetom je pritom iba text, jeho dolovanie vám tak napríklad dokáže vybrať kľúčové slová a ich počet z užívateľských recenzií, čím dokážete správne identifikovať silné a slabé stránky vašej spoločnosti či produktu.
Spracovanie prirodzeného jazyka (Natural Language Processing)
Ide o pokročilejšiu techniku, pomocou ktorej už dokážete napríklad z recenzií identifikovať trendy v nálade a postoji vašich zákazníkov. Poisťovňa Allianz používa spracovanie prirodzeného jazyka na analýzu telefonických hovorov nahlasujúcich poistnú udalosť, vie tak ešte pred obhliadkou ľahko identifikovať situácie, pri ktorých volajúci pravdepodobne klame so zámerom poistného podvodu.
Dostupnejšou aplikáciou sú chatovacie roboty (chatboty). Tie vám môžu ušetriť náklady na zákaznícky servis bez negatívneho dopadu na zákaznícku skúsenosť, zvládnu bez problémov jednoduché činnosti ako identifikácia zákazníka alebo zodpovedanie najčastejších otázok. Ak chcete zlepšiť výsledky či spravodlivejšie ohodnotiť vašich telefonických agentov, nemusíte už počúvať iba niekoľko náhodne vybratých hovorov. Pomocou nástrojov na spracovanie prirodzeného jazyka sa všetky hovory prepíšu do textovej podoby a následne vyhodnotia.
Analýza obrazu (Image Analysis)
Súčasná úroveň technológií umožňuje aj spracovať a získať informácie z veľkého množstva obrázkov. Chcete mať presné informácie o návštevnosti vašich jednotlivých predajní? Na počítací senzor vo dverách zabudnite. Moderné kamery vedia vylúčiť zákazníka, ktorý opakovane vošiel a vyšiel, identifikovať ľudí, ktorí prišli ako jedna skupina, odhaliť náladu vašich zákazníkov alebo poskytnúť anonymizované informácie o ich štruktúre a základných charakteristikách. Rovnako vedia identifikovať tých, ktorí nemajú rúško a nepustiť ich napríklad cez turniket.
Analýza zvuku (Voice Analysis)
Cenné informácie vie spoločnosti priniesť aj analýza zvuku. Pomocou nej je napríklad možné identifikovať stroj, ktorý sa čoskoro pokazí, bez toho aby bolo momentálne akékoľvek poškodenie fyzicky viditeľné a odhaliteľné. Technik tak dorazí na miesto včas a výroba sa nemusí zastaviť alebo bude prestoj podstatne kratší, čo sa odrazí na znížení nákladov.
Analýza neštruktúrovaných dát pomocou umelej inteligencie (artificial intelligence)
Jednotlivé techniky či nástroje analýzy neštruktúrovaných dát a rovnako aj analýzy štruktúrovaných dát sa navzájom prelínajú, často sú navyše doplnené aj nástrojmi umelej inteligencie. Umelá inteligencia je široká oblasť informatiky, ktorej cieľom je vytvorenie inteligentných systémov, ktoré dokážu konať a reagovať ako ľudia. Pod oblasť umelej inteligencie spadajú napríklad nasledovné aplikácie:
- Strojové učenie (Machine Learning),
- Hlboké učenie (Deep Learning).
Strojové učenie (Machine Learning)
Sú to programy, ktoré dokážu modifikovať samého seba bez akéhokoľvek ľudského zásahu na základe nových dát tak, aby zlepšili dodávané výsledky. Jednoducho a prakticky povedané, v e-shope môžete mať aplikovaný softvér, ktorý na základe dolovania dát bude kupujúcim odporúčať ďalšie produkty na cross-sell alebo up-sell, a to tak, aby bola pravdepodobnosť kúpy čo najvyššia. A ak sa bude softvér schopný sám učiť z nových nákupov a jeho nasledujúce odporúčania budú čoraz lepšie a lepšie, budeme hovoriť o strojovom učení.
Hlboké učenie (Deep Learning)
Hlboké učenie je v mnohých smeroch podobné strojovému učeniu, v tomto prípade sú však softvérové algoritmy vytvárané vo viacerých vrstvách. Skladá sa tak sieť, ktorá svojou funkcionalitou pripomína neurónové siete nachádzajúce sa v ľudskom mozgu. Kým strojové učenie potrebuje štruktúrované dáta (ktoré predtým mohli byť vytvorené z neštruktúrovaných dát), hlboké učenie vie spracovať akékoľvek dáta, pričom k riešeniu problému pristupuje rovnakým spôsobom ako náš mozog - dokáže spojiť aj zdanlivo nesúvisiace informácie. Ide momentálne o najvyššiu úroveň práce s dátami.
Analýza veľkých dát (Big Data)
Populárny pojem Big Data je skôr všeobecný termín zahŕňajúci dáta, ktoré sú príliš veľké na to, aby sa pri práci s nimi používal štandardný softvér. Problémom je nielen tieto dáta analyzovať, ale vôbec ich niekde uložiť. Väčšinou ide o neštruktúrované dáta, no Big Data môžu byť aj štruktúrované alebo pološtruktúrované, typicky si ich môžeme predstaviť ako logy z aplikácie, internetu vecí alebo geolokácie. Pri práci s veľkými dátami sa síce využívajú všetky vyššie spomínané techniky, nevyhnutné je ale použitie naozaj špecializovaného softvéru, ktorý manipulácie s takto veľkým objemom dát zvládne.