Using AWS Lambda as ETL microservice

To celebrate my recent AWS certification, I wanted to write something related to AWS and data engineering. I have written previously about AWS Glue, so not about that this time. Then I had an idea, because microservices are nowadays a hot topic. I will investigate can I use AWS Lambda to create ETL microservice. AWS Lambda is an event-driven, serverless computing platform.

Sometimes your ETL requirement might be quite small, so you don’t want to spin up clusters, wait for starting and pay for more than what is actually needed. Lambda natively supports Java, Go, PowerShell, Node.js, C#, Python, and Ruby code. Python is quite popular language when doing code based ETL e.g. with Databricks/Spark. However, Lambda fits only for small scale ETL, because one function execution can only last up to 15 minutes.

To be honest, it was not so easy as I thought, but the end result is very compact and easy to replicate after it has been done once.

First you go from AWS Console to Lambda service and from there to Functions and Create Function. There are several options to create a new function and I selected ”Author from scratch”.

Jatka lukemista →

Rikos ja rangaistus

Briefly in English. Analysis on Finnish crimes and sentences done with Power BI.

Päätin juhlistaa saavuttamaani ”Microsoft certified: Power BI Data Analyst Associate” -sertifikaattia rakentamalla pitkästä aikaa uuden Power BI analyysin pohjautuen avoimeen dataan. Päätin tällä kertaa perehtyä Tilastokeskuksen sivuilta saamiini ”Viranomaisen tietoon tulleet rikokset” ja ”Vankeustuomiot” aineistoihin vuosilta 2015-2020, joita vielä täydensin kuntakohtaisilla asukasluvuilla.

Itse interaktiivinen raportti artikkelin lopussa. Alla esimerkki sivu.

Jatka lukemista →

Snowflake and Azure Data Factory

To celebrate my fresh Snowflake certification, I figured I have to write something about Snowflake database. I decided to test its integration with Azure Data Factory (ADF). First you have to create a new Linked Service within ADF. Snowflake can be found from ”Services and apps” category, not from databases.

Jatka lukemista →

Liigan tilastoja ja vedonlyöntikertoimia kaudelle 2021-22

Taas on alkaneet Liigan pelit, joten oli aika päivittää myös PowerBI raportit uudelle kaudelle. Viime kaudella neuroverkkopohjainen vedonlyöntikertoimien ennustusmalli tuotti 5 €:n panoksilla pelattuna 79 € voittoa, kun laskennallinen tappio olisi ollut 68 €. Toisin sanoen täysin satunnaiseen vedonlyöntiin verrattuna malli oli 147 € parempi.

Aloitin oman vedonlyönnin 24.9. ja parin kierroksen jälkeen tappiota on 31 €. Kausi on pitkä ja paljon ehtii vielä tapahtumaan. Tulen tänne julkaisemaan noita ennustemallin tuottamia vedonlyöntikertoimia ja näytän oman kassan kehitykseni.

Alla on myös toinen PowerBI raportti, joistain valikoiduista Liigan tilastoista.

NHL betting odds

I have written previously how I used Azure Machine Learning, R-language and Power BI to calculate and visualize betting odds for Finnish ice hockey league games. Now I decided to widen my experiment to include NHL games.

Jatka lukemista →

Jääkiekkoliigan tilastoja ja vedonlyöntikertoimia

Sain vihdoin korjattua viime kaudella ilmenneet ongelmat, jotka liittyivät sekä jääkiekkoliigan vedonlyöntikertoimien laskemiseen että erilaisten tilastojen julkaisemiseen. Aloitan siis taas näiden tietojen julkaisemisen.

Voi olla, että tilastoja päivitän harvemmin, koska Liigan web-sivu on ruvennut herjaamaan ”Internal Server Erroria”, kun sieltä hakee suurempia tietomassoja. Vedonlyöntikertoimia tulen kuitenkin julkaisemaan joka kierrokselle. Nykyinen malli pohjautuu neuroverkkolaskentaan, mutta suunnitelmissa on laajentaa sitä toisella mallilla (poisson tai voting ensemble pohjainen) ihan vain mielenkiinnosta. Otan mukaan ehkä jopa NHL-pelien vedonlyöntikertoimien laskennan.

Nykyinen neuroverkkomalli oli selkeästi voitollinen toissa kaudella, mutta viime kaudella se oli hiukan tappiollinen. Huomasin korjauksia tehdessäni, että mallin uudelleenkoulutus ei ollut toiminutkaan viime kaudella, mutta nyt tämä virhe on korjattu. Pelaan itse mallin suositusten mukaisesti 5 €:n panoksilla ja päivitän myös vedonlyöntikassani kehitystä. Käytä oikean alakulman nuolisymbolia avataksesi raportin kokonäytön kokoiseksi.

Jatka lukemista →

Azure Machine Learning retraining and scoring with Data Factory

My previously created Azure Machine Learning retraining and scoring model created with Azure Logic App and PowerBI (here is more info https://www.kruth.fi/uncategorized/azure-machine-learning-retrain-running-r-scripts-with-power-bi-and-some-dax/) stopped working last January. I didn’t have enough motivation until now to start digging to find out what was wrong. Reason revealed to be removed component from Azure Logic App – namely Azure ML component. It just doesn’t exists any more.

I started to investigate what can I do to replace that solution and found this article: https://azure.microsoft.com/en-us/blog/getting-started-with-azure-data-factory-and-azure-machine-learning-4/. Instructions were a little bit outdated and missing some links to Azure ML, which gaps I try to fill with this article.

This process can be separated into three parts:

Machine Learning model retraining
Deploying retrained model
Using updated model to scoring

Jatka lukemista →

Uudet moottoripyörät 2020

Traficom julkaisi 16.12.2020 lokakuun lopun tilanteen ajoneuvojen rekisteröinneistä. Päätin nyt joulun päivinä julkaista 2020 version uusien moottoripyörien myynnistä. Kasvua näyttäisi tulleen mukavanlaisesti. Kaikki kokoluokat huomioiden kasvua melkein 200 kpl eli 7,6 %. Kevyt moottoripyörää suurempien osalta kasvu oli vielä merkittävämpää eli 16,3 %.

KTM palasi kärkeen myydyimmäksi merkiksi, kun Honda Monkeyn kevariversion pahin huuma laantui, mutta se on edelleen Hondan selkeästi myydyin malli. KTM:llä kasvu jakaantui koko mallistoon. Kakkosella Yamahalla myös pientä kasvua melkein läpi koko malliston. Kawasaki teki kovan 40 %:n loikan myynnissä, kärjessä Z900 72 myydyllä pyörällä.

Triumph kasvatti myyntiään myös 62 % kärjessä uusi Rocket 3 malli 36 kappaleella. Euromääräisesti myynnin kasvu ollut varmaan vielä paljon suurempaa, kun kyseisen pyörän listahinta on 30 000 €. Aikamoista! Todennäköisimmin sellaisen näkee Helsingissä tai Tampereella, mutta myytiin niitä Lappeenrantaan ja Seinäjoellekin.

Käytettynä maahantuotujen määrä laski n. 100 kappaleella 730:een. Tähän vaikutti varmasti corona-tilanne. Käytettyjen kärjessä olivat BMW, Honda ja KTM, Harley-Davidson tippui viidenneksi. Selkeästi eniten tuodaan vuoden vanhoja pyöriä eli 75 kpl. Yli neljä vuotta vanhemmissa alkaa määrät selkeästi jo tippumaan. Itse tuotin maahan kaksi vuotta vanhan Ducatin.

Kauppatieteellisen 1. pääsykoevaiheen pistejakauma 2020

Tein nopean analyysin vuoden 2020 kauppatieteellisen ensimmäisen vaiheen pistejakaumasta. Katso miten pärjäsit! Klikkaa analyysin alaosan nuolikuvaa, jolloin pääset kokoruudun tilaan.

Uudet moottoripyörät 2019

Trafi vihdoin (28.11.) julkaisi viimeisimmän Ajoneuvodata-aineistonsa, joka käsittää 1-9 kuukaudet vuoden 2019 osalta. Päivitin oman PowerBI-analyysini koskemaan vuosia 2018 ja 2019. Positiivisena merkkinä voi nähdä, että kappalemääräinen myynti on kasvanut 11,7 %.

Jatka lukemista →