Diagram korelacji

Diagram korelacji pozwala na wizualne zbadanie możliwego wpływu jednej zmiennej na drugą, co może być bardzo pomocne w pracy inżyniera.

Zbigniew Huber

•

7 min

•

2023-09-11

Diagram korelacji

Wiele zjawisk występujących w otaczającej nas rzeczywistości jest wzajemnie powiązanych. Przykładowo:

Wzrost człowieka - waga.
Temperatura powietrza - długość dnia.
Prąd zgrzewania - wytrzymałość zgrzeiny.
Siła nacisku - deformacja detalu.
Prąd obciążenia zasilacza - temperatura tranzystora przełączającego.
Ilość podanego topnika - poziom czystości jonowej.

Dostrzeżenie związku między zmiennymi może być bardzo pomocne w pracy inżyniera. Dzięki zrozumieniu tej zależności można ją wykorzystać do rozwiązania jakiegoś problemu np. wg 8D. Widoczny związek może być także wskazaniem do dalszego badania możliwych przyczyn zjawiska, jednakże należy pamiętać o bardzo ważnej zasadzie: "korelacja nie stanowi o przyczynie".

Diagram korelacji (znany także jako: wykres korelacji, wykres rozrzutu, scatter diagram) jest jednym z siedmiu podstawowych narzędzi jakości. Pozwala na wizualne zbadanie relacji między dwoma zmiennymi. Diagram korelacji to skuteczny sposób wizualizacji danych, zwłaszcza gdy nie ma widocznej zależności liniowej między analizowanymi cechami. Diagram można także używać w połączeniu z testami statystycznymi, takimi jak analiza korelacji lub analiza regresji.

Budowa diagramu korelacji

Zmienne, których wzajemna relacja będzie analizowana, określamy mianem "zmienna niezależna" oraz "zmienna zależna".

Na osi X (poziomej) umieszczamy wartości dla zmiennej niezależnej, natomiast na osi Y (pionowej) wartości dla zmiennej zależnej. Następnie na ten wykres nanosimy wartości rozumiane jako pary obu zmiennych. W ten sposób powstaje diagram korelacji, który przedstawia relację między analizowanymi zmiennymi.

Dodatkowo do diagramu można dodać linię/krzywą regresji, którego kształt i nachylenie przedstawia między innymi stopień korelacji. Linia/krzywa regresji ułatwia ocenę analizowanych danych.

Diagram korelacji - punktowy z korelacją

Czasami można wprowadzić dodatkowe kategorie, które mogą pomóc lepiej zobrazować wyniki:

Diagram korelacji - punktowy z grupowaniem

Podział danych na grupy to stratyfikacja. Więcej informacji o tej technice znajdziesz w artykule: Stratyfikacja

Współczynnik korelacji

Współczynnik korelacji liniowej Pearsona został opracowany przez angielskiego matematyka Karla Pearsona (27.03.1857 - 27.04.1936). Ten współczynnik jest oznaczony symbolem "r" i może przyjąć wartość od -1 do +1. Im wartość jest bliższa +1 lub -1 tym korelacja jest mocniejsza, im wartość jest bliższa zeru, tym korelacja jest słabsza. Ten współczynnik jest przydatny, kiedy zmienne mają rozkład normalny i relacja jest liniowa.

Jeżeli analizowane zmienne nie mają rozkładu normalnego lub nie mają korelacji liniowej, wtedy można stosować inne formuły takie jak: współczynnik tau Kendalla, współczynnik Spearmana, statystyka Gamma itd.

Przykładowe korelacje

Korelacja dodatnia

Wartość zmiennej zależnej (oś Y) rośnie wraz ze wzrostem wartości zmiennej niezależnej (oś X). Współczynnik korelacji jest dodatni. Im współczynnik korelacji jest bliżej +1 tym ona jest silniejsza.

Korelacja ujemna

Wartość zmiennej zależnej (oś Y) spada wraz ze wzrostem wartości zmiennej niezależnej (oś X). Współczynnik korelacji jest ujemy. Im współczynnik korelacji jest bliżej -1 tym ona jest silniejsza.

Brak korelacji

Sytuacja, w której nie ma związku między dwiema zmiennymi. Współczynnik korelacji jest zbliżony do zera.

Korelacja nieliniowa

Zmienna zależna (oś Y) zmienia swoją wartość względem zmiennej niezależnej (oś X) w taki sposób, że raz wartość zmiennej zależnej (Y) narasta, a raz opada. Współczynnik korelacji liniowej Pearsona będzie w takim przypadku nieadekwatny i zazwyczaj zbliżony do zera. Przykłady korelacji nieliniowej:

Typowe problemy

Za dużo danych

Bardzo duża ilość danych naniesionych na wykres może doprowadzić do trudności w ocenie korelacji na podstawie samych punktów.

Za mało danych

Za mała ilość danych może być niewystarczająca do poprawnej oceny korelacji. Jeżeli mam do czynienia ze zjawiskiem, gdzie korelacja jest słaba lub nie występuje, to mała ilość danych może wprowadzić nas w błąd. Możemy "dostrzegać korelację" mimo jej faktycznego braku. Poniżej przykład przedstawiający brak korelacji (wykres po lewej) i pozornie występującą korelację, w przypadku małej ilości danych z tego samego zbioru wyników (wykres po prawej).

Diagram korelacji - za mała ilość danych

Obserwacje odstające

Obserwacje odstające (ang. Outlayers), to wyniki "niepasujące" do pozostałych analizowanych obserwacji. Możemy powiedzieć, że te wyniki "odstają od reszty", nie pasują do ogólnego obrazu jaki przedstawia diagram korelacji.

Obserwacje odstające typowo powstają na wskutek błędów pomiarowych, "literówek" w trakcie ręcznej rejestracji wyników lub innych nietypowych zdarzeń. Niektóre metody statystyczne są mało odporne na występowanie obserwacji odstających, szczególnie te zakładające rozkład normalny lub zależność liniową. Regresja liniowa oraz korelacja Pearsona są bardzo czułe na występowanie obserwacji odstających.

Jeżeli takowa obserwacja wystąpi, należy sprawdzić, co może być jej przyczyną. Typowo taką obserwację usuwa się z puli danych i ponownie przelicza współczynnik korelacji.

Braki danych

Obserwując wykres korelacji, możemy czasami dostrzec braki danych, co może wpływać na ocenę korelacji. Należy sprawdzić powód braku danych, gdyż czasami możemy otrzymać tylko część wyników (np. tylko wyniki niezgodne z puli wszystkich pomiarów).

Klastry danych

Wykres może przedstawiać obszary, gdzie występuje większa ilość obserwacji, co jest widoczne jak skupiska danych (ang. Data clusters). Podobnie jak w przypadku braku danych, warto sprawdzić powód, np. jak dokonywano pomiarów.

Korelacja a przyczyna

Diagram korelacji to przydatna technika na badanie związku między dwoma zmiennymi, ale należy zawsze pamiętać, że korelacja nie stanowi przyczyny.

Co to znaczy?

To znaczy, że jeżeli widzimy korelację między dwoma zmiennymi, to wcale nie oznacza, że jednocześnie istnieje związek przyczynowo-skutkowy między tymi zmiennymi. Zatem zmienna zależna (Y) może nie być spowodowana przez zmienną niezależną (X), a obserwowana korelacja może wynikać z innych nieznanych przyczyn. To bardzo ważna zasada, niestety często pomijana w czasie analizy danych.

Poniżej absurdalny przykład silnej korelacji: Ilość niekomercyjnych startów kosmicznych na całym świecie w relacji do ilości przyznanych tytułów doktora socjologii w USA.

Diagram korelacji - śmieszna korelacja — źródło: https://www.tylervigen.com/spurious-correlations

Czy na podstawie powyższego wykresu możemy stwierdzić, że ilość doktoratów z socjologi w USA wpływa na rozwój niekomercyjnych lotów kosmicznych na całym świecie?

Podsumowując: widząc korelację nie wyciągajmy pochopnych wniosków co do przyczyn zjawiska..

Narzędzia

Diagram korelacji można opracować na kartce papieru :), w arkuszu kalkulacyjnym, w programach do analizy danych (np. Minitab) lub z wykorzystaniem takich narzędzi jak Phyton lub R.

Podsumowanie

Diagram korelacji ułatwia analizę danych, pozwalając na lepsze zrozumienie relacji między analizowanymi zmiennymi. Dzięki wykresowi oraz ocenie współczynników korelacji można oceniać możliwy wpływ poszczególnych zmiennych, szukać możliwych przyczyn i doskonalić procesy a co za tym idzie doskonalić produkty.

Stosując diagram korelacji, należy zawsze pamiętać, że analizowane dane mogą być niekompletne, mogą zawierać obserwacje odstające, co może wpływać na wyniki. Należy także dobrze zapamiętać bardzo ważną zasadę: "korelacja nie stanowi przyczyny". Takie podejście pomoże nam wyciągać poprawne wnioski.

Diagram korelacji to jedno z siedmiu podstawowych narzędzi jakości. Pozostałe sześć to:

Diagram Ishikawy (wykres przyczynowo-skutkowy)
Arkusz kontrolny
Karta kontrolna
Histogram
Wykres Pareto
Stratyfikacja danych lub Mapa procesu

Zapraszam do zapoznania się z wymienionymi narzędziami jakości.