Fundamenty uczenia maszynowego

|
2020-12-02

W miniony weekend w jednej z edycji kursu Data Science w Kodołamaczu realizowaliśmy pierwszy zjazd z uczenia maszynowego. Czyli dużo o podstawach działania algorytmów i metodologii pracy z nimi. Jednym z wątków jest znajdowanie najlepszego modelu. Tak banalna sprawa, ze można to zamknąć w jednym zdaniu – trzeba porównać różne warianty i zobaczyć, który daje najlepsze wyniki, czyż nie? Nie ma w ogóle o czym mówić.

Ale okazuje się, że jednak jest… W tak prostym aspekcie pojawia się mnóstwo pytań! Przykładowo:

👉 Jak podzielić dane na część treningową i testową? Losowo? Jeśli tak, to dlaczego losowo? Ale czy trzeba losowo? A jeśli nie, to kiedy losowo, a kiedy inaczej? A w jakim stosunku? 80:20? A dlaczego 80:20? Bo tak w internecie mówią? A czy może być inaczej? A jeśli tak, to od czego to zależy?

👉 Testowanie rożnych wariantów hiperparametrów – jak to robić? Czy można po prostu na części treningowej uczyć rożne warianty i porównywać na części testowej? Nie, trzeba to robić w obrębie danych treningowych. A dlaczego? A czy trzeba porównywać różne warianty przy użyciu kroswalidacji? Niektórzy mówią, że tak, chociaż to nieprawda. W takim razie kiedy trzeba, a kiedy nie trzeba? Co to w ogóle znaczy, że „trzeba” – jakie są konsekwencje różnych podejść – co daje nam kroswalidacja, a jakie ma wady?

W uczeniu maszynowym super ważne jest zrozumienie całego procesu od absolutnych podstaw – bez tego będziemy podążać nieświadomie za utartymi przekonaniami, nie zdając sobie sprawy, że należy zrobić coś inaczej. Jeśli uważasz, że znasz już uczenie maszynowe, to pytanie czy potrafiłbyś odpowiedzieć na te pytania? Jesteś pewien? Jeśli nie, to warto wrócić do korzeni, bo od tego zależy efektywność codziennej pracy 😉

Autor: Norbert Ryciak
Data scientist, inżynier uczenia maszynowego, dydaktyk: prowadzi szkolenia komercyjne, zajęcia na uczelniach, jest autorem kursu „Uczenie Maszynowe Masterclass” oraz opiekunem merytorycznym kursu „Data Science Pro” firmy Sages, na którym kształci przyszłych specjalistów data science.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *