Pomysł na projekt do portfolio w data science

|
2020-12-02

Przy okazji niedawnego mundialu, jak to zwykle bywa w bańce DS (a nawet trochę w mainstreamie), pojawiały się publikacje/projekty z algorytmami które typują zwycięzcę turnieju. Jest to naturalne, dużo osób interesuje piłką nożną, więc stworzenie takiego algorytmu to fajna zabawa. No i jest to też sensowny pomysł na projekt do portfolio dla początkujących. A do tego potem można ewentualnie się chwalić tym, że nasz algorytm był skuteczny i „przewidział” zwycięzcę!

Ale… Czy „przewidzenie” zwycięzcy jest dowodem na to, że algorytm jest dobrej jakość? Co to w ogóle znaczy, że algorytm przewidział zwycięzcę? To chyba proste – przypisał najwyższe prawdopodobieństwo wygrania drużynie, która faktycznie wygrała. No ok, ale czy w takim razie jeśli algorytm A dawał tej drużynie 90% na zwycięstwo, a algorytm B dawał jej 50% (ale też była to największa wartość), to te algorytmy są tak samo dobre? A jeśli nie, to jak porównać te algorytmy? A czy w ogóle da się rzetelnie porównać dwa algorytmy przewidujące zwycięzcę turnieju na podstawie jednego turnieju?

To są pytania, które tutaj w formie zabawy mają ogromne przełożenie na modelowanie w biznesie – odpowiadanie co modelujemy, po co i jak mierzyć tego jakość są – z jednej strony – szalenie ważne w praktyce, a z drugiej – czasem trudniejsze w odpowiedzi niż powyższy przykład.

Kończąc, w nawiązaniu do pytania tytułowego i treści posta: jeśli chcesz wyróżnić się z tłumu kandydatów na DS i zaimponować rekrutującym, projektem mogłoby być np. „Metodologia ewaluacji algorytmów przewidujących wyniki sportowe – przykłady i dyskusja”. Brzmi ambitnie? No cóż, ambicja w tej branży jest bardzo wskazana 😉

Autor: Norbert Ryciak
Data scientist, inżynier uczenia maszynowego, dydaktyk: prowadzi szkolenia komercyjne, zajęcia na uczelniach, jest autorem kursu „Uczenie Maszynowe Masterclass” oraz opiekunem merytorycznym kursu „Data Science Pro” firmy Sages, na którym kształci przyszłych specjalistów data science.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *