Mitä tiedonlouhinta on? Perusteet ja sen tekniikat.

Neljännen teollisen vallankumouksen perusta riippuu suurelta osin datasta(Data) ja yhteyksistä(Connectivity) . Tietojen(Analysis Services) louhintaratkaisuja kehittävät tai luovat analyysipalvelut ovat tässä avainasemassa. Se voi auttaa analysoimaan ja ennustamaan asiakkaiden ostokäyttäytymisen tuloksia potentiaalisten ostajien kohdentamiseksi. Tiedosta(Data) tulee uusi luonnonvara, ja olennaisen tiedon poimiminen tästä lajittelemattomasta tiedosta on erittäin tärkeä. Sellaisenaan termin - Data Mining - , sen prosessien ja sovellusten asianmukainen ymmärtäminen voisi auttaa meitä kehittämään kokonaisvaltaista lähestymistapaa tähän muotisanaan.

Tiedonlouhinnan perusteet(Data Mining Basics) ja sen tekniikat

tiedon louhinta

Tiedonlouhinta, joka tunnetaan myös nimellä Knowledge Discovery in Data ( KDD ), tarkoittaa suurten tietovarastojen etsimistä sellaisten mallien ja trendien paljastamiseksi, jotka menevät yksinkertaista analyysiä pidemmälle. Tämä ei kuitenkaan ole yksivaiheinen ratkaisu, vaan monivaiheinen prosessi, joka valmistuu eri vaiheissa. Nämä sisältävät:

1] Tiedonkeruu ja valmistelu

Se alkaa tiedon keräämisestä ja sen asianmukaisesta järjestämisestä. Tämä auttaa parantamaan merkittävästi mahdollisuuksia löytää tietoa, joka voidaan löytää tiedon louhinnan avulla

2] Mallin rakentaminen ja arviointi

Toinen vaihe tiedonlouhintaprosessissa on erilaisten mallinnustekniikoiden soveltaminen. Näitä käytetään parametrien kalibroimiseen optimaalisiin arvoihin. Käytettävät tekniikat riippuvat suurelta osin analyyttisistä valmiuksista, joita tarvitaan vastaamaan moniin organisaation tarpeisiin ja tekemään päätös.

Tarkastellaanpa joitain tiedonlouhintatekniikoita lyhyesti. On havaittu, että useimmat organisaatiot yhdistävät kaksi tai useampia tiedonlouhintatekniikoita yhteen muodostaakseen sopivan prosessin, joka täyttää niiden liiketoimintavaatimukset.

Lue(Read) : Mitä on Big Data?(What is Big Data?)

Tiedonlouhintatekniikat

  1. Association –  Association on yksi laajalti tunnetuista tiedonlouhintatekniikoista. Tämän mukaisesti kuvio puretaan saman tapahtuman kohteiden välisen suhteen perusteella. Siksi(Hence) se tunnetaan myös relaatiotekniikana. Suurten merkkien jälleenmyyjät luottavat tähän tekniikkaan tutkiessaan asiakkaiden ostotottumuksia/mieltymyksiä. Kun esimerkiksi seurataan ihmisten ostotottumuksia, jälleenmyyjät saattavat havaita, että asiakas ostaa aina kermaa ostaessaan suklaata, ja siksi ehdottaa, että seuraavan kerran kun he ostavat suklaata, he saattavat haluta ostaa myös kermaa.
  2. Luokitus(Classification) – Tämä tiedonlouhintatekniikka eroaa yllä olevasta siinä, että se perustuu koneoppimiseen ja käyttää matemaattisia tekniikoita, kuten lineaarista(Linear) ohjelmointia, päätöspuita(Neural) , hermotekniikkaa .(Decision)verkkoon. Luokittelussa yritykset yrittävät rakentaa ohjelmistoja, jotka voivat oppia luokittelemaan tietokohteet ryhmiin. Esimerkiksi yritys voi määrittää sovelluksessa luokituksen, joka "ottaen huomioon kaikki tiedot yrityksestä irtisanoutuneista työntekijöistä ennustaa niiden henkilöiden määrän, jotka todennäköisesti eroavat yrityksestä tulevaisuudessa". Tällaisessa skenaariossa yritys voi luokitella työntekijöiden tiedot kahteen ryhmään, jotka ovat "lähtevät" ja "jäävät". Se voi sitten käyttää tiedonlouhintaohjelmistoaan luokitellakseen työntekijät erillisiin aiemmin luotuihin ryhmiin.
  3. Klusterointi(Clustering)erilaista(Different)objektit, joilla on samanlaiset ominaisuudet, ryhmitellään yhdeksi klusteriksi automaation avulla. Monet tällaiset klusterit luodaan luokiksi ja objektit (joilla on samanlaiset ominaisuudet) sijoitetaan niihin vastaavasti. Ymmärtääksemme tätä paremmin, tarkastelkaamme esimerkkiä kirjaston kirjojen hallinnasta. Kirjastossa laaja kirjakokoelma on täysin luetteloitu. Samantyyppiset tuotteet luetellaan yhdessä. Tämä helpottaa meitä kiinnostavan kirjan löytämistä. Vastaavasti klusterointitekniikkaa käyttämällä voidaan pitää jonkinlaisia ​​yhtäläisyyksiä sisältäviä kirjoja yhdessä klusterissa ja antaa sille sopiva nimi. Joten jos lukija haluaa tarttua kiinnostavaan kirjaan, hänen on mentävä vain kyseiselle hyllylle koko kirjaston etsimisen sijaan. Siten klusterointitekniikka määrittelee luokat ja sijoittaa objektit kuhunkin luokkaan,
  4. Ennustus(Prediction) – Ennuste on tiedonlouhintatekniikka, jota käytetään usein yhdessä muiden tiedonlouhintatekniikoiden kanssa. Se sisältää trendien analysoinnin, luokittelun, kuvioiden yhteensovittamisen ja suhteen. Analysoimalla menneitä tapahtumia tai tapauksia oikeassa järjestyksessä voidaan turvallisesti ennustaa tuleva tapahtuma. Esimerkiksi ennusteanalyysitekniikkaa voidaan käyttää myynnissä tulevan tuoton ennustamiseen, jos myynti valitaan itsenäiseksi muuttujaksi ja voitto myynnistä riippuvaiseksi muuttujaksi. Sitten historiallisten myynti- ja voittotietojen perusteella voidaan piirtää sovitettu regressiokäyrä, jota käytetään voiton ennustamiseen.
  5. Päätöspuut(Decision trees) – Päätöspuussa aloitamme yksinkertaisella kysymyksellä, johon on useita vastauksia. Jokainen vastaus johtaa lisäkysymykseen, joka auttaa luokittelemaan tai tunnistamaan tiedot, jotta ne voidaan luokitella tai jotta kunkin vastauksen perusteella voidaan tehdä ennuste. Käytämme esimerkiksi seuraavaa päätöspuuta määrittääksemme, pelataanko kriketti ODI :ta vai ei: Tiedonlouhinnan päätöspuu(Data Mining Decision Tree) : Aloittaen juurisolmusta, jos sääennuste ennustaa silloin sadetta, meidän tulee välttää ottelua tälle päivälle. Vaihtoehtoisesti, jos sääennuste on selkeä, meidän pitäisi pelata ottelu.

Tiedonlouhinta(Data Mining) on analytiikkatoimien ytimessä useilla toimialoilla ja aloilla, kuten viestintä, vakuutus(Insurance) , koulutus(Education) , valmistus(Manufacturing) , pankki-(Banking) ja vähittäiskauppa(Retail) ja monet muut. Siksi oikeat tiedot siitä on välttämätöntä ennen erilaisten tekniikoiden soveltamista.



About the author

Olen ohjelmistoinsinööri, jolla on yli 10 vuoden kokemus Windows-pohjaisten sovellusten suunnittelusta, rakentamisesta ja ylläpidosta. Olen myös perehtynyt tekstinkäsittelyyn, laskentataulukkolaskentaan ja esityksiin. Osaan kirjoittaa selkeitä ja ytimekkäitä kuvauksia koodista, selittää monimutkaisia ​​käsitteitä aloitteleville kehittäjille ja tehdä vianmäärityksiä asiakkaille lennossa.



Related posts