Uudet autot 1-9 2017

Uudet autot

Päätin paketoida aikaisemmat analyysini uusiin kuoriin eli hyödynsin Trafin dataa uusien autojen erilaiseen analysointiin sekä joulukuun myyntimäärien ennustamiseen. Tällä kertaa en kuvaa teknistä suoritusta ollenkaan, koska samat asiat on kuvattu jo aiemmissa blogeissa.

Itse analyysiin pääset klikkaamalla tästä. Eli jos kiinnostaa miten markkinat jakautuvat hybridien tai ruumisautojen osalta, niin nyt saat vastauksen näihin askarruttaviin kysymyksiin! Jatka lukemista “Uudet autot 1-9 2017”

Koneoppimista Azure Machine Learningin avulla

Päätin kokeilla miten Microsoft Azure Machine Learning (ML) palvelu toimii pilvessä. Ja hyvinhän se toimi! Valitsin dataksi jo aikaisemmin hyödyntämäni Helsingin pyöräilijämäärät -aineiston, joka kattoi 1.1.2014-31.3.2017 välisen ajan. Päätin ennustaa Baanan pyöräilijämääriä päivämäärä ja tuntitasolla. Houkuttelevaa olisi ollut lisätä säätietoja ennustamiseen, mutta en tässä yhteydessä jaksanut sitä urakkaa tehdä, vaikka data sinällään olisi saatavilla ja olisi ehdottomasti parantanut ennustemallin luotettavuutta.

score 1

Jatka lukemista “Koneoppimista Azure Machine Learningin avulla”

Power BI – tietolähdevirheiden käsittely Power Queryssa (M kieli)

Päätin jatkojalostaa Liiga-dataani aloitusdatalla, koska erään blogin mukaan aloituksien määrällä on positiivinen korrelaatio maalimääriin. Käytin taas web scraping menetelmää tietojen hankintaan, mutta sitten iski ongelma. Aloitustiedot eivät olleet aina samassa taulukossa. Nollapelien osalta taulukoita oli nettisivulla vähemmän. Jatka lukemista “Power BI – tietolähdevirheiden käsittely Power Queryssa (M kieli)”

Analyysi Liigan kauden 2017-18 laukauksien ja maalien suhteesta

Liiga etusivu

Tällä kertaa ajattelin analysoida vähän tarkemmin jääkiekkoliigan maalien ja laukauksien suhdetta, koska joka tapauksessa tarvitsin noita laukaustilastoja ennustavan analytiikkamallin kehittämiseen. Analyysiin käyttämäni datan poimintaa kuvailin jo edellisessä blogissani.  Jatka lukemista “Analyysi Liigan kauden 2017-18 laukauksien ja maalien suhteesta”

Web scraping with Power BI

Based on my last blog I got an idea to investigate could I automate extraction of data from similar web sites with Power BI. I doing this blog in English, because it’s a little bit more technical.

As a starter I decided to automate extraction of Liiga results done in previous blog when I realized it’s possible. Earlier I copied data from web site to Excel, from where I downloaded data into Power BI. Then I realized I could do direct extraction from web site with Power BI.

From Power BI you can find Web Source.websource

Jatka lukemista “Web scraping with Power BI”

R tilastollisen laskenta sovelluksen käyttö Liigan tuloksien ennustamiseen

R logoLiiga

Seuraavaksi päätin syventää R tilastollisen laskentasovelluksen osaamistani. R:ää voi hyödyntää lukemattomilla eri tavoilla tilastollisen aineiston tutkimiseen sekä myöskin ennustamiseen. R soveltuu erinomaisesti käytettäväksi yhdessä PowerBI:n kanssa datojen visualisointiin sekä paremman ymmärryksen tavoitteluun.

R:n toiminnallisuus on jo nyt vahvasti integroitu PowerBI:n sisään, mutta valitettavasti nuo visualisoinnit eivät toimi julkisesti jaettavilla PowerBI pohjilla. Näin päätinkin tehdä jotain enemmän koodauspohjaista kuin visualisointipohjaista, koska graaffeja ei pysty kuitenkaan jakamaan kuin staattisina kuvina. Jatka lukemista “R tilastollisen laskenta sovelluksen käyttö Liigan tuloksien ennustamiseen”

Uudet moottoripyörät 2017

Latasin Trafin huikean yli viiden miljoonan rivin Ajoneuvodata-aineiston. Valitsin analyysin pohjaksi uusien moottoripyörien rekisteröinnit 2017. Klikkaa ohesta analyysiin: Uudet mpt 2017. Asiaan liittyi myös henkilökohtainen kiinnostus, koska tuli hankittua uusi BMW RnineT Scrambler pyörä kesällä. Halusin tietää monta niitä on oikeastaan myyty. Ei montaa eli 5 kpl kesäkuun loppuun mennessä. Yksi Helsinkiin, kolme Vantaalle. Omani ei ole vielä noissa luvuissa mukana. Eli jos näet ko. pyörän jossain päin pk-seudulla ja tankissa numero 7, niin se olen minä :). P.S. Päivitetty 1-9 2017 luvuilla. Seuraava päivitys 1-6 2018 luvuilla, koska talvella niin moni pyörä poissa rekisteristä.

AWS Glue – tiedon integrointia pilvessä

AWS Glue

 

Alustus

Latasin Tilastokeskuksen sivuilta massiivisen ajoneuvodata-aineiston, joka zipattuna oli 250 MB:tä ja purettuna 850 MB:n csv-tiedosto. Ajattelin, että tässähän voisi olla hyvä aineisto AWS Gluen testaamiseen, kun ei koko aineistoa viitsi lukea PowerBI:n sisään.

AWS Glue:han on Amazon Web Servicen kehittämä pilvipohjainen ETL eli tiedon integroinnin sovellus. Näytti ainakin hienolta noin tasan vuosi sitten, kun osallistuin Las Vegasissa AWS re:Invent tapahtumaan, jossa se julkaistiin. Yleiseen jakeluun (GA) se tuli nyt elokuussa 2017.

Jatka lukemista “AWS Glue – tiedon integrointia pilvessä”