Structured data zijn data die in een gestandaardiseerd format zijn gezet. Structured data hebben dus een duidelijke structuur, houden een bepaalde volgorde aan en zijn zo makkelijk in te zien door mensen en programma’s.
Waar gebruik je structured data nou eigenlijk voor?
De grootste bron van informatie waar een onderneming uit kan putten is data. Data over klanten, data over processen en data over personeel. Die data kunnen allerlei vormen aannemen – feedback van klanten, twitter berichtjes, aandelen koersen, financiële informatie, wat je maar kan bedenken.
Een groot deel van data is alleen volkomen onkwantificeerbaar. Je kan bijvoorbeeld moeilijk gevoelens meten of redenen voor een bepaalde actie achterhalen. Maar door een beetje structuur aan te brengen in je data wordt het wel een stuk makkelijker om informatie op te vragen.
Als je als bedrijf van plan bent om te groeien of een nieuw product wil lanceren dan heb je structured data nodig. Je kan deze data bijvoorbeeld gebruiken voor machine learning en AI, om vervolgens een voorspelling te genereren die laat zien hoe je het hardst kan groeien of welk nieuw product het beste gaat verkopen.
Karaktertrekjes van structured data
Kwalitatieve structured data hebben een aantal specifieke eigenschappen, ongeacht wat voor informatie het is of hoe de informatie is opgeslagen.
- Structured data hebben een duidelijke structuur die binnen een dat model past;
- Worden weergegeven in rijen en kolommen zoals in een database;
- Zijn zo georganiseerd dat je de betekenis en het format niet kunt mislopen;
- Zijn altijd vastgelegd in een vast veld, bestand of document;
- Hebben vergelijkbare groepen data geclusterd in verschillende klassen
- Data in dezelfde groep hebben dezelfde attributen
- De informatie is toegankelijk en makkelijk opvraagbaar door mensen en computers;
- Kortom, uitstekend voor analyse en verwerking!
De bronnen waar de data uit worden gehaald kunnen nogal eens verschillen per organisatie. Er is natuurlijk computer gegenereerde data waar geen mens aan te pas komt. Dit zijn bijvoorbeeld data uit sensors, weblogs, PoS (point of sale) details, en andere financiële informatie. Dit wordt allemaal opgeslagen door machines.
Door mensen gegenereerde data wordt, natuurlijk, aangeleverd door mensen. Dit kan bijvoorbeeld uit enquetes zijn of de CTR (click through rate) op een website die de acties van bezoekers meet.
De toekomst van gestructureerde data
Op dit moment is nog zo’n 20% van een organisatie’s data gestructureerd, maar dat percentage is gestaag aan het dalen. De gigantische toestroming van ongestructureerde en semigestructureerde data zorgt ervoor dat het percentage structured data daalt. Het heeft nog steeds waarde voor een organisatie om voorspellingen te kunnen doen en structured data zijn veel toegankelijker dan ongestructureerde data.
Zo’n 0,5% van ongestructureerde data wordt gebruikt en geanalyseerd, maar zijn nog steeds een belangrijke bron van informatie. Nu wordt nog ingezet op het ontcijferen en kwantificeren van ongestructureerde data, uiteindelijk zal de afhankelijkheid van gestructureerde data afnemen. Er wordt nu al geëxperimenteerd met het exporteren van semigestructureerde data naar het JSON-format (JavaScript object syntax), wat parseerbaar (leesbaar op basis van spraak) is voor computers. Dit betekent dat data met een minder rigide structuur makkelijker te analyseren worden.
Terwijl de focus altijd heeft gelegen op het structureren van on- of semigestructureerde data, vindt er nu een shift plaats om de data beschikbaar te maken voor computers zonder de extra, tijdrovende en kostbare stap om ze om te zetten in structured data.