Strona główna » Badania usability

Dyskusja: liczyć czy nie liczyć, oto jest pytanie

9 lipca 2010 napisała Iga [ Brak odpowiedzi ] Drukuj wpis

Ostatni artykuł Ewy o statystyce w użyteczności wywołał dyskusję na naszej blogowej skrzynce mailowej. Starły się dwa poglądy: jeden propagujący analizy ilościowe, drugi – jakościowe. Postanowiłyśmy podzielić się naszą dyskusją i pokazać, że ux bite to nie tylko trzy kobiety i trzy pasjonatki ux, ale także różne poglądy i przekonania. Zapraszamy do zapoznania się z naszą dyskusją.

Jednocześnie ostrzegamy, jeśli nie wiesz co to jest „p” i nie słyszałeś nigdy o przedziałach ufności, to prawdopodobnie będziesz wolał poczekać na nasz kolejny artykuł ;)

Iga Mościchowska: Jak nawoływanie do stosowania analizy statystycznej w testach użyteczności ma się do realiów? Oczywiście, dobrze jest mieć możliwość wyliczenia estymacji dla wyników testów, jednak żeby to zrobić, wypadałoby przeprowadzić testy z co najmniej 20 użytkownikami. Z doświadczenia wiem, że każdy kolejny test wnosi coraz mniej do odkrycia problemów i, poza możliwością wykonania analiz statystycznych, nic nie zyskujemy poprzez wykonanie piętnastego testu. Dlatego moim zdaniem gra często NIE jest warta świeczki.

Oczywiście, jeśli celem badań jest odkrycie, na ile dane problemy są istotne dla wszystkich użytkowników, wtedy bez dwóch zdań należy pochylić się nad statystyką. Jednak najczęściej celem badań komercyjnych jest odkrycie i naprawa błędów, a nie udowodnienie, ile populacji ma problem z tym zadaniem. W takim przypadku, po co trzykrotnie zwiększać zakres prac, ponosić 5x większe koszty, żeby uzyskać liczbowe potwierdzenie, że: tak, błędy które odkryliśmy na pierwszym teście i które wydawały nam się duże i oczywiste, naprawdę takie są dla 75% społeczeństwa?

Ewa Sobula: Powszechnie wiadomo, że testy z kilkoma użytkownikami nie będą statystycznie istotne. I, kalamburując, nie jest to istotne ;) W testach, o których mówisz, kwestia istotności statystycznej jest tak naprawdę marginalna, mają one charakter jakościowy, wyniki mają dostarczyć wiedzy o tym, co się dzieje i czemu tak. Z czystym sumieniem można zignorować statystykę. Więc darujemy ją sobie i przechodzimy do roboty, bo się sprawdza w praktyce.

Ale nawet wyniki takich testów mogą być istotne statystycznie. Wiele zależy od tego, jakie sobie p założymy. W socjologii, czy zazwyczaj w nauce, przyjmujemy p = 0.05, no i wtedy faktycznie tak małe próby (ok. 6 użytkowników) nie dadzą nam 95% pewności. Ale nic nie stoi na przeszkodzie, by sobie założyć, że wystarczy nam mniejsza pewność, powiedzmy rzędu 80% i do niej odnosić wyniki.

Po drugie, jeśli efekt jest odpowiednio silny, to i na małej grupie da istotne wyniki. Jeśli zaobserwujesz, że powiedzmy 4 z 5 użytkowników ma ten sam poważny problem, to nawet przy p=0.05 jest to statystycznie istotne. Tricky part is: strasznie łatwo dojść do wniosku, że problem będzie dotyczył jakichś 80% użytkowników. A to bzdura. W rzeczywistości (w statystyce) możemy na tej podstawie (4 na 5 trafia na problem) powiedzieć (z 95% pewnością), że co najmniej 35% populacji napotka ten problem (a może być i więcej). Ok, może nie robi to takiego wrażenia, jak 80% ;) ale jak na moje oko 35% wszystkich użytkowników to naprawdę dużo.

IM: Tylko co nam da wiedza, że z 80% pewnością, od 35% do 65% ludzi będzie miało z czymś problem? Dla mnie to ma dokładnie taką samą wartość decyzyjną, jak stwierdzenie „część ludzi będzie miała z tym problem”. Nadal nie wiem (nawet w przybliżeniu!) czy będzie to dotyczyć większości czy mniejszości użytkowników. Dla mnie to jest takie samo domniemywanie, jak w oparciu o intuicję badacza i projektanta (który na bazie swojego doświadczenia określa, czy dany problem powinien zostać naprawiony).

Ogólnie jestem przeciwnikiem dyktatu liczb, szczególnie w odniesieniu do testów użyteczności. Czasem naprawdę nie potrzebujemy wiedzieć, dla ilu naszych użytkowników problem będzie istotny. Przykładowo, jeśli na jednym z testów odkryjemy, że użytkownik ma problem z interpretacją terminu Cena – nie wie, czy podana cena jest ceną netto, brutto, producenta, sklepu (jeśli sklepu, to jakiego) itd. Koszt dodania na stronę dodatkowego słowa – Sugerowana cena – to jest jakieś 5 minut pracy programisty. Przyjmując, że 1h jego pracy to 100zł, koszt naprawienia to 8,33zł. Jeśli chcielibyśmy sprawdzić statystycznie istotność tego problemu (przy 95% pewności, że uzyskujemy wiarygodne dane i niezbyt dużym przedziale ufności),  musimy wykonać 24 testy. Samo wynagrodzenie dla użytkowników (przyjmijmy 50zł) wyniesie nas o 900zł więcej. Czy opłaca się mieć pewność, że wydatek rzędu 8,33 zł jest zasadny w przypadku od 62% do 91% użytkowników? Moim zdaniem nie.

Oczywiście w przypadku trudniejszych decyzji, kiedy nakład pracy przy zmianie to np. 4 tygodnie pracy dwóch programistów, albo kiedy mamy sprzeczne dane z testów (np. w odniesieniu do niezrozumiałej terminologii) – wtedy lepiej upewnić się przy użyciu statystyki, czy podejmujemy dobrą decyzję. Ale jak często mamy takie problemy?

ES: Pytanie powinno brzmieć nie „jak często”, ale raczej co robimy, kiedy już stajemy przed takim problemem. Nie zamierzam nikogo przekonywać, że należy na siłę wciskać analizę statystyczną tam, gdzie nie ma ona rozsądnych podstaw. Jeśli jednak pojawi się taka potrzeba – np. porównania konkurencyjnych rozwiązań czy zrewidowania sprzecznych wniosków z testów – to trzeba umieć poprawnie do niej podejść.

Chciałabym, aby decyzja o tym, czy potrzebujemy liczb czy nie potrzebujemy, była podejmowana merytorycznie i z głową – a nie na zasadzie „bo tak się robi”. „Na co dzień w pracy robię praktycznie cały czas małe testy, więc nie potrzebuję uczyć się żadnej głupiej statystyki”. A potem można przeczytać w raporcie, że 80% użytkowników ma problem z serwisem (uhm, 4 na 5 przebadanych).

Inny, mniej drastyczny, ale znamienny przykład – jakiś czas temu performable opublikowało wyniki testu czerwony vs. zielony przycisk. Wynik 21% wzrost konwersji na korzyść czerwonego – hura. Test szybko zyskał popularność, cytowany przez wiele serwisów, na facebookach i innych twitterach. Problem w tym, że autorzy nie podają liczby obserwacji ani wielkości konwersji. Gdyby podali, moglibyśmy wyliczyć sobie p, czyli sprawdzić, czy owe wyniki są istotne statystycznie. Bez tej informacji nie należy ich brać za pewnik i na gwałt podmieniać kolory w serwisie.

Podsumowując, kiedy mówię o potrzebie statystyki w użyteczności to nie mam na myśli statystycznej analizy wszystkiego jak leci, ale świadome i poprawne wykorzystanie jej metod tam, gdzie mają zastosowanie.

IM: No i chyba dochodzimy do wspólnego stanowiska. Obie zgadzamy się, że statystykę znać trzeba. Obie zgadzamy się, że, znając statystykę, trzeba umieć ją zastosować do weryfikacji wniosków, nie tylko swoich. Ale też obie zgadzamy się, że często stosowanie statystyki nie przyniesie nam korzyści – bo nie zawsze jest ona potrzebna.

Wszystko właściwie sprowadza się do umiejętności artykułowania problemu badawczego. Co jest przedmiotem naszych badań? W jakim celu je przeprowadzamy? Czego chcemy się dowiedzieć? Dobór metody badawczej (a więc także czy będzie stosowana analiza statystyczna) powinien być zawsze uwarunkowany odpowiedziami na te pytania, a nie ślepym przekonaniem, że „jak nie ma liczb, to nie jest wiarygodnie”. Celem badań jakościowych nie jest możliwość obliczenia poziomu wiarygodności danych! Celem jest zrozumienie problemów.

Na marginesie, najczęstszym zarzutem badań jakościowych jest właśnie ich brak wiarygodności. Zapomina się, że badania te nie są „niewiarygodne”, tylko że „nie da się oszacować ich wiarygodności”. Jest istotna (nomen omen) różnica.

ES: Faktycznie okazuje się, że zdanie mamy podobne.

Pamiętajmy, że analizy jakościowe i ilościowe mają się nawzajem uzupełniać. To nie jest konkurs „które lepsze”, bo jedne i drugie służą odmiennym, ale komplementarnym celom. Podział jakość/ilość nie powinien być frontem sporów, ale polem do współpracy. Czego Tobie, sobie i wszystkim życzę.

Autorka

Iga Mościchowska

www: http://witflow.com
Managing Partner i UX Director w firmie WitFlow. Z zamiłowania projektant interakcji i badacz użyteczności, z wykształcenia socjolog. Szkoli, wykłada na AGH, występuje na konferencjach branżowych. Pracowała m.in. dla marek: Amica, Agora, eBay Classifieds, Egmont, Maspex Wadowice, MSZ, Polskapresse, PWN.pl, Vattenfall, a także dla licznych startupów. Czytaj więcej
Tagi: , , ,