Przykład do prezentacji - nie zawiera danych prawdziwego klienta. Tak wygląda podsumowanie, które Husho generuje na Twoim komputerze.

Kontekst sesji

Trzecia sesja wprowadzająca do uczenia nadzorowanego. Wykładowca zakłada znajomość algebry liniowej i podstaw statystyki opisowej. Studenci drugiego roku informatyki, około 60 osób.

Kluczowe pojęcia (cytaty z wykładu)

1. Bias-variance tradeoff (kompromis obciążenia i wariancji)

„Każdy model uczenia ma dwa źródła błędu - bias (systematyczne uproszczenie) i variance (wrażliwość na zmiany danych treningowych). Suma tych dwóch plus szum nieredukowalny daje całkowity błąd predykcji. Modele zbyt proste mają wysokie bias. Modele zbyt elastyczne - wysokie variance."

Skąd: 18:42 - 24:15

2. Overfitting (przeuczenie)

„Sytuacja, gdy model nauczył się szczegółów konkretnego zbioru treningowego, łącznie z szumem, i nie generalizuje na nowe dane. Diagnostyka: różnica między błędem na zbiorze treningowym a walidacyjnym."

Skąd: 31:08 - 35:50

3. Walidacja krzyżowa (k-fold cross-validation)

„Procedura oceny modelu, w której zbiór dzielimy na k równych części. Trenujemy na k-1, testujemy na 1, rotujemy k razy. Wynikowy estymator skuteczności jest mniej obciążony niż pojedynczy podział na zbiory treningowy i testowy."

Skąd: 48:30 - 52:11

4. Regularyzacja (L1 vs L2)

„Dodanie kary za wielkość współczynników modelu, żeby zniechęcić go do nadmiernego dopasowania. L1 (Lasso) wymusza rzadkość - część współczynników redukowana do zera. L2 (Ridge) zmniejsza wszystkie współczynniki proporcjonalnie."

Skąd: 1:02:18 - 1:08:40

5. Macierz pomyłek

„Tabela TP/TN/FP/FN dla klasyfikacji binarnej. Z niej wyprowadzamy precision, recall, F1. Wybór miary zależy od kosztu błędu - w medycynie inaczej niż w filtrowaniu spamu."

Skąd: 1:18:05 - 1:23:28

Przykłady użyte w wykładzie

Dziedzina	Algorytm	Przekaz dydaktyczny
Predykcja cen mieszkań	Regresja liniowa	Bias i variance - model zbyt prosty (tylko metraż) kontra model przeładowany cechami
Klasyfikacja maili (spam i nie-spam)	Naiwny klasyfikator Bayesa	Macierz pomyłek, koszt fałszywych pozytywów i fałszywych negatywów
Diagnostyka medyczna	Regresja logistyczna z regularyzacją L2	Recall jako priorytet - lepiej fałszywy alarm niż przegapiony przypadek

Quiz sprawdzający (5 pytań)

1. Model osiąga 99% dokładność na zbiorze treningowym i 62% na walidacyjnym. Co jest najbardziej prawdopodobne?

A) Niedouczenie · B) Przeuczenie · C) Optymalne dopasowanie · D) Błąd implementacji

2. Co najlepiej zaadresuje sytuację z pytania 1?

A) Trenowanie dłużej · B) Regularyzacja lub mniej cech · C) Bardziej złożony model · D) Mniejszy zbiór walidacyjny

3. Walidacja krzyżowa 10-krotna w porównaniu do pojedynczego podziału 80/20:

A) Daje mniej obciążony estymator skuteczności · B) Jest 10× szybsza · C) Eliminuje przeuczenie · D) Wymaga większego zbioru

4. Regularyzacja L1 w odróżnieniu od L2:

A) Zawsze daje lepszy model · B) Może zerować współczynniki (rzadkość) · C) Działa tylko dla regresji · D) Jest mniej numerycznie stabilna

5. W diagnostyce medycznej (np. wykrywanie raka) zwykle priorytetem jest:

A) Precision · B) Recall · C) Accuracy · D) F1

Sugerowane lektury

Bishop, C. M. - Pattern Recognition and Machine Learning, rozdz. 1.5 (decision theory) i 3.1 (linear regression)
Hastie, Tibshirani, Friedman - The Elements of Statistical Learning, rozdz. 7 (model assessment and selection)
Goodfellow, Bengio, Courville - Deep Learning, rozdz. 5 (machine learning basics)

Ile czasu zaoszczędziłeś

88 minut wykładu, 13 minut 20 sekund przetwarzania w tle, około 60 minut mniej ręcznego porządkowania notatek i układania pytań kontrolnych.

Wykład - Wprowadzenie do uczenia maszynowego