Strona główna » Badania usability

Efekt badacza: dlaczego jeden ekspert to za mało

8 kwietnia 2010 napisała Ewa [ Brak odpowiedzi ] Drukuj wpis

W badaniach z użytkownikami nieustannie podkreśla się rolę badanego. Pytanie „Ilu użytkowników powinno brać udział w testach użyteczności?” jest jednym z najbardziej eksploatowanych tematów w dziedzinie usability – od literatury naukowej po blogi. Na tym tle stosunkowo rzadko pojawia się refleksja nad wpływem specjalistów usability na wyniki testów z użytkownikami.

Jeśli faktycznie w trakcie testów użytkownicy znajdują problemy analizowanego serwisu czy aplikacji, wówczas poszczególni specjaliści oceniający nagrania z testów powinni odnaleźć takie same błędy użyteczności. Tak jednak nie jest. Okazuje się, że różni badacze odnajdują różne problemy na podstawie tych samych materiałów badawczych. Jest to zjawisko określane jako efekt badacza (ang. evaluator effect).

Czym jest efekt badacza?

Z perspektywy badań użyteczności, efekt badacza polega na tym, że różni specjaliści usability, oceniając ten sam interfejs, odnajdują różne zestawy problemów użyteczności – odmienne zarówno pod względem liczby, jak i treści.

Efekt badacza - Matryca błędów

Każdy rząd przedstawia specjalistę, a każda kolumna określony błąd użyteczności. Czarne kwadraty ukazują, którzy specjaliści zidentyfikowali dany błąd analizując użyteczność serwisu.

Efekt badacza jest obserwowany zarówno:

  • wśród początkujących, jak i doświadczonych specjalistów,
  • dla kosmetycznych, jak i poważnych błędów,
  • w kwestii wykrywania błędów, jak i oceny ich wagi,
  • w ocenie prostych, jak i złożonych systemów.

Chociaż więcej uwagi poświęcono mu w kontekście technik eksperckich – szczególnie analizy heurystycznej (na jego podstawie zaleca się przeprowadzanie oceny przez kilku ekspertów) – okazuje się, że testy z użytkownikami także są podatne na wpływ efektu badacza. Analogicznie jak w przypadku podnoszenia liczby użytkowników biorących udział w testach, zwiększenie liczby specjalistów użyteczności prowadzi do większej liczby odnalezionych błędów.

Liczba znalezionych błędów w zależności od liczby użytkowników i ekspertów

Opracowanie wyników testów nie sprowadza się tylko do odnotowania problemów, na jakie trafił użytkownik. Jest to kombinacja doświadczenia użytkownika oraz wiedzy badacza. Identyfikacja i diagnoza błędów wymaga od specjalisty interpretacji tego, co widzi (i słyszy). Z tej perspektywy testy z użytkownikami to inna forma oceny eksperckiej – z tą różnicą, że tutaj badacz ma możliwość obserwacji działań użytkownika. Użytkownik napotyka trudności, ale to rolą badacza jest identyfikacja, diagnoza i opis problemu w celu jego dalszego rozwiązania. A tam, gdzie konieczność interpretacji, tam i pole do rozbieżności.

Skąd rozbieżności między badaczami?

Przyczyny różnych interpretacji testów można podzielić na pięć głównych grup.

1. Różnice w interpretacji wypowiedzi użytkowników oraz ich zachowań niewerbalnych.

Mogą one zaistnieć na wielu poziomach. Z jednej strony, różni specjaliści mogą czegoś nie dosłyszeć, nie zrozumieć lub nie zauważyć – szczególnie gdy dotyczy to niewyraźnych wypowiedzi czy mimiki. Z drugiej, mogą zauważyć i różnie zinterpretować. Uważna analiza zapisu testów i ich dokumentacja mogą zminimalizować ryzyko rozbieżności na tym poziomie.

2. Odgadywanie intencji użytkownika.

Poszczególni specjaliści mogą mieć (i zazwyczaj mają) różne zdania na temat intencji użytkowników, czyli powodów, dla których w określonej sytuacji postępują tak, a nie inaczej. To, co dla jednego badacza będzie błędem użyteczności, dla innego – niekoniecznie. Z tej perspektywy udział większej liczby badaczy jest szczególnie polecany. Jako że informacja o tym, co dzieje się w głowie użytkownika, nie jest ekspertom bezpośrednio dostępna, możliwe jest istnienie różnych równoprawnych interpretacji.

3. Niedobór i nadmiar

Ocena tego, na ile niepełne lub zbędne czynności faktycznie świadczą o istnieniu błędu, może być sama w sobie problematyczna. Dotyczy to najczęściej niepotrzebnych, ale nieszkodliwych zachowań. Jeśli klient sklepu internetowego, chcąc usunąć produkt z koszyka, zamiast kliknięcia linku ‘usuń’, wpisze ‘0’ w pole ‘ilość’ (i z powodzeniem wykona zadanie), to świadczy o jakimś problemie czy nie? W sytuacjach, kiedy specjalista nie jest pewien, jak interpretować takie działania, powinien mieć możliwość skonsultowania swoich wątpliwości z innymi badaczami.

4. Błąd użyteczności czy błąd testu?

Trudności może dostarczyć też rozpoznanie, co jest faktycznie błędem użyteczności, a co jest artefaktem testu. Np. użytkownik może niepoprawnie wykonać zadanie, bo błędnie zapamięta lub źle zrozumie instrukcję. W innym przypadku, polecenie może zostać wykonane prawidłowo, ale po bezpośredniej podpowiedzi prowadzącego test. W przypadku wątpliwości tego typu, warto przedyskutować konkretne sytuacje z innymi specjalistami.

5. Niedbałość analizy

Pominięcie istotnych problemów z użytecznością może niekiedy wynikać z nieuwagi badacza, niedostatecznej spostrzegawczości lub niewystarczającego opisu błędu. Dokładnie przeprowadzona i systematycznie udokumentowana analiza pozwala zmniejszyć szanse wystąpienia tych błędów.


Badania użyteczności zazwyczaj prowadzone są w ograniczonym czasie i ograniczonymi środkami, na bieżące potrzeby rozwoju serwisu czy aplikacji. W tej perspektywie ich celem nie jest wykrycie wszystkich błędów użyteczności, ale raczej zidentyfikowanie tylu, ile uda się przy danym nakładzie pracy.

Zaangażowanie większej liczby specjalistów użyteczności w badania – także w testy z użytkownikami – może istotnie poprawić jakość i dokładność otrzymanych wyników.


Rysunek 1 z:
Hertzum, M., & Jacobsen, N. E. (1999). The evaluator effect during first-time use of the cognitive walkthrough technique. In H.-J. Bullinger & J. Ziegler (Eds.),  Human-Computer Interaction: Ergonomics and User Interfaces. Proceedings of the HCI International ’99 (Vol. I, pp. 1063-1067). London: Lawrence Erlbaum.

Rysunek 2 z:
Jacobsen, N. E., Hertzum, M., & John, B. E. (1998). The Evaluator Effect in Usability Tests. In C.-M. Karat & A. Lund & J. Coutaz & J. Karat (Eds.), Proceedings of the Conference on Human Factors in Computing Systems (CHI 98) (pp. 255-256). New York: ACM.

Pozostałe źródła:
Hertzum, M., & Jacobsen, N. E. (2001). The Evaluator Effect: A Chilling Fact about Usability Evaluation Methods. International Journal of Human-Computer Interaction, vol. 13, no. 4, pp. 421-443.

Capra M. G. (2006). Usability Problem Description and the Evaluator Effect in Usability Testing. Dissertation submitted to the Faculty of the Virginia Polytechnic Institute and State University in partial fulfillment of the requirements for the degree of Doctor of Philosophy in Industrial and Systems Engineering.

Vermeeren, A. P. O. S., van Kesteren, I. E. H., & Bekker, M. M. (2003). Managing the Evaluator Effect in User Testing. In M. Rauterberg (Ed.) Proceedings of the Human-Computer Interaction – INTERACT’03 (pp. 647-654): IOS.

Autorka

Ewa Sobula

www: http://www.linkedin.com/pub/ewa-sobula/30/407/694
UX designer w Sabre Airline Solutions. Umiejętności badawcze i analityczne rozwijała na socjologii, by lepiej rozumieć użytkowników. Równolegle uczyła się tworzenia serwisów internetowych, by poznać technologiczne możliwości i ograniczenia. Teraz z przyjemnością łączy te kompetencje projektując i badając serwisy. Czytaj więcej
Tagi: , , ,