Dlaczego wystarczy przetestować 5 użytkowników?

Oceń artykuł:

Związek między minimalną, konieczną i wystarczającą jednocześnie, ilością badanych oraz wykrywalnością problemów z użytecznością od długiego czasu budzi zrozumiałe emocje.

Jak pisał, ponad już dwadzieścia lat temu, sam Jakob Nielsen:

“Rozbudowane testy użyteczności to marnowanie zasobów. Najlepsze wyniki daje testowanie nie więcej niż użytkowników i przeprowadzanie tylu małych testów, na ile możesz sobie pozwolić.”

Komu jak komu, ale człowiekowi, który jest prekursorem User Experience, który ma przy okazji bardzo trzeźwe, pragmatyczne podejście oraz wykazuje się przydatnym sceptycyzmem i ostrożnością nie wypada nie wierzyć.

Podejście Nielsena, długo traktowane jako UX-owy pewnik, doczekało się także stanowisk sceptycznych oraz w kilku przypadkach otwarcie krytycznych.

Zatem, jeśli Drogi Czytelniku, nie chcesz brać stwierdzeń Jakoba Nielsena na wiarę i potrzebujesz argumentów “za i przeciw” to koniecznie przeczytaj niniejszy artykuł.

Będziemy pochylać się nad argumentami zwolenników badania użyteczności z tylko pięcioma badanymi oraz przybliżymy argumenty krytyków tego podejścia.

W ostatnich latach pojawiły się głosy krytyczne i warto zapoznać się także z taką linią argumentacyjną oraz wykładnią problemu.

Tego wymaga uczciwość intelektualna, ale także od tego zależna jest jakość decyzji, jakie są podejmowane na bazie wyników badań.

Sprawa nie wydaje się bowiem aż tak oczywista, jak chciałby Jakob Nielsen. Wykrywalność problemu i wielkość próby - to związek, który należy przeegzaminować.

Dopiero zapoznanie się z dwoma stanowiskami w tej kwestii, pozwala na dokonanie świadomej decyzji, którą z nich preferujemy, która z nich będzie najbardziej korzystna w danym problemie badawczym, projekcie.

Zatem, czy pięciu użytkowników, badanych, respondentów jest wystarczającą ilością, by z pełnym przekonaniem stwierdzić, że badanie przyniosło rzetelne wyniki, które pozwolą podjąć najbardziej optymalne decyzje projektowe?

Jeśli pięciu użytkowników jest ilością niewystarczającą, to z jakich powodów?

Jaką minimalną ilość badanych należy zatem brać pod uwagę, by uzyskać spodziewane wyniki, gdy wykonujemy testy użyteczności stron internetowych?

Czy ilość badanych jest dobierana do celu badania? Mówimy o szczególnych przypadkach, czy o normie badawczej? - oto nasze pytania.

Serdecznie zapraszamy do lektury.

Chcesz wykonać Badania UX?

POZNAJ NASZE USŁUGI

Testy z użytkownikami, testy użyteczności, czyli pokrótce o badaniach UX

Badanie użyteczności (np. użyteczności serwisu internetowego), test użyteczności, badania UX w serwisie internetowym w większości przypadków odbywa się za pomocą badań ilościowych, badań jakościowych lub metod mieszanych.

Testy UX, badania użyteczności z udziałem użytkowników, przedstawicieli grupy docelowej są zazwyczaj wykonywane stacjonarnie lub zdalnie, w sposób moderowany lub bez udziału moderatora.

testy z użytkownikami — Źródło: NN Group

Metod badawczych jest co najmniej kilkanaście.

Przy czym w macierzy, którą wyznaczają osie badania jakościowe (Qualitative Research) versus ilościowe (Quantitative Research), badania zachowań (Behavioral - What people do) versus badania postaw (Attitudinal - What people say) najczęściej znajdujemy około dziewięciu najpopularniejszych metod.

Wspominamy o tym, bowiem problemu ilości badanych nie sposób separować od kwestii przedmiotu badania, sposobu badania.

Warto także nie zapominać, że bez względu na to, czy odwołamy się do badań ilościowych, jakościowych, badań postaw, czy badań zachowań wyniki testów mają służyć:

podjęciu najlepszych z możliwych decyzji projektowych
podjęciu najlepszych z możliwych decyzji biznesowych
podjęciu najlepszych z możliwych decyzji strategicznych, decydujących o konkurencyjności produktu cyfrowego.

Wyniki testów, przeprowadzonych badań, możliwe do obserwacji reakcje użytkownika, użytkowników dostarczają określonych informacji, które pozwalają stronę internetową udoskonalić, optymalizować, czynić bardziej intuicyjną.

Z mniejszym lub większym sukcesem.

Elementy takie jak: scenariusz badania, przebieg badania, pytania badawcze, także pytania pomocnicze w wywiadach z użytkownikami, pozwalające na uzyskanie bardziej specyficznych, określonych informacji, warunki, konteksty przeprowadzania badania, narzędzia badawcze i możliwość obserwacji także mają wpływ na wynik oraz zmniejszają lub zwiększają pełną kontrolę.

Wyniki testu (w szczególności testów użyteczności) stanowią rekomendacje zmian. Zmiany, jak wiadomo, wiążą się z ryzykiem, odpowiedzialnością, budżetem, czasem i wieloma innymi kwestiami.

Nie od dziś wiadomo także, że celem większości interesariuszy - m.in. projektantów UX/UI, badaczy UX, właścicieli biznesów - jest uzyskanie w krótkim czasie, w duży stopniu wiarygodnych wyników testów z użytkownikami.

Przy minimalnym zaangażowaniu środków, zasobów.

Ekonomizacja (w sensie finansowym, czasowym, organizacyjnym) procesu badawczego, projektowego, optymalizacyjnego, produkcyjnego jest z oczywistych względów zrozumiała.

Czy jest jednak zawsze uzasadnionym i korzystnym podejściem?

Testy z użytkownikami, w których bierze udział tylko pięciu respondentów wydają się te potrzeby idealnie zaspokajać.

Z przyczyn ekonomicznych, organizacyjnych trudno się nie oprzeć pokusie zignorowania argumentów, które uznają większą zasadność przeprowadzenia badań bardziej rozbudowanych.

Jak więc jest naprawdę, kto ma rację w tym sporze?

Wystarczy testować z 5 użytkownikami - podejście Jakoba Nielsena z NN Group

Stanowisko Nielsena jest znane od dekad i w niewielkim stopniu uległo modyfikacji na przestrzeni ostatnich 30 lat.

Współtwórca NN Group konsekwentnie broni swojego podejścia.

Jego stanowisko bardzo dobrze ilustrują artykuły publikowane na blogu jego macierzystej firmy.

Chcąc się zapoznać z oryginałem, warto zajrzeć do artykułów: “Why You Only Need to Test with 5 Users”, którego autorem jest Nielsen, “A mathematical model of the finding of usability problems”, którego autorami są Nielsen oraz Thomas K. Landauer oraz “How Many Test Users in a Usability Study?”, “Quantitative Studies: How Many Users to Test?” autorstwa Nielsena.

Poszerzeniu perspektywy dobrze zrobi także zapoznanie się z artykułem badaczki z NN Group Raluci Budiu pt. “Why 5 Participants Are Okay in a Qualitative Study, but Not in a Quantitative One”.

testowanie 5 użytkowników na stronie internetowej — Źródło: NN Group

Mając taki korpus tekstów na podorędziu możemy streścić główne argumenty, jakie wysuwane są do obrony podejścia z pięcioma badanymi.

Przede wszystkim Nielsen jest zwolennikiem ekonomizacji badań, podejście przeciwne uważa za rozrzutne, a tym samym zbyteczne i co najważniejsze nieuzasadnione.

Albo przynajmniej uznaje je za nierozsądne i domagające się innego podejścia, ale o tym będziemy pisać w dalszej części artykułu.

Czy wiesz, że...

Nielsen swoją argumentację opiera na autorskim modelu, który pozwala matematycznie, a więc obiektywnie, bezstronnie, wymiernie, konkretnie ustalić zależność między ilością osób koniecznych do badania a ilością problemów z użytecznością.

Zgodnie z modelem Nielsena i Landauera - N (1-(1- L ) n ) - 100% problemów z użytecznością wykryjemy wykonując badania z 15 użytkownikami, a do osiągnięcia 85% wykrywalności potrzeba tylko 5 respondentów.

Warto przytoczyć tutaj samego Nielsena, który słusznie wskazuje, że już jeden respondent jest w stanie dostarczyć wiedzy o problemach z użytecznością na poziomie 30%.

Z każdym kolejnym użytkownikiem przyrost nowej wiedzy, nowo odkrytych problemów nie rośnie aż tak dynamicznie, bowiem część problemów po prostu się pokrywa, dubluje.

Jak zauważa Nielsen:

“Dodając coraz więcej użytkowników, uczysz się coraz mniej, ponieważ wciąż będziesz widzieć te same rzeczy. Nie ma potrzeby wielokrotnego obserwowania tego samego”.

Dlaczego zatem Nielsen, w poczuciu lepszej sprawy, obstaje przy 5 a nie 15 badanych?

Bowiem jego zdaniem efektywniejszym podejściem jest iterowanie procesu projektowo-badawczego.

Czy wiesz, że...

Zamiast wykryć 100% błędów, lepiej - zdaniem Jakoba Nielsena - wykryć 85%. Poprawić projekt, wykonać ponowne badania. Powtórzyć proces. Zamiast jednego badania z 15 respondentami lepiej wykonać 3 badania, w 3 stadiach projektu, z 5 respondentami w każdym badaniu.

Nielsen jest przekonany, że takie podejście pozwala także wyeliminować problem cienia badawczego w postaci 15% problemów, których waga, istotność może przesądzać o powodzeniu lub porażce.

Zgodnie z jego optymistycznym podejściem:

“Drugie badanie z 5 użytkownikami odkryje większość pozostałych 15% pierwotnych problemów z użytecznością, które nie zostały wykryte w pierwszej rundzie testów”.

Podejście Nielsena, czego autor jest świadom, ale czemu nie przyznaje aż tak doniosłej roli, jest zasadne, gdy docelowa grupa użytkowników jest jednorodna.

Jeśli mamy do czynienia z kilkoma grupami użytkowników, a w rzeczywistości jest to normą, konieczne będzie wykonanie pierwszych testów z reprezentantami każdej z grup.

Podsumowując: kardynalny argument Nielsena jest argumentem nie tyle odnoszącym się do samej wykrywalności, co do jej skutków, rachunku zysków i strat, możliwości optymalizowania badań oraz ekonomizowania ich użyteczności.

Nielsen przy każdej okazji stwierdza stanowczo:

“Testy z użytkownikami, testowanie z 5 osobami pozwala znaleźć prawie tyle problemów z użytecznością, ile można znaleźć przy użyciu większej liczby uczestników testów”.

Jednocześnie po latach nieco koryguje swoje podejście i czyni je bardziej kontekstowym, związanym z kwestią związku przyczynowo-skutkowego między ilością badanych, rodzajem badania oraz wykrywalnością.

wymagania user research - testy użytkowników — Źródło: Human Factors

Zgodnie ze swoim zrewidowanym podejściem wskazuje on wyjątki.

Mianowicie:

w badaniach ilościowych koniecznych jest co najmniej 20 użytkowników
w sortowaniu kart koniecznych jest co najmniej 15 użytkowników
w badaniach eye-trackingowych koniecznych jest co najmniej 39 użytkowników.

Odrzucając argumenty zwolenników większej ilości badanych, Nielsen wskazuje na główny argument, jakim jest zwrot z inwestycji (ROI), trochę go przesadnie absolutyzując.

Dobrym podsumowaniem podejścia Nielsena stanowi artykuł Raluci Badiu. Badiu w skondensowanej formie zaprezentowała trzy kluczowe argumenty, które powinny każdego przekonać do badania z pięcioma respondentami.

Trzy główne argumenty to:

badanie jakościowe, testy z użytkownikami nie służą do predykcji ile osób będzie miało problem z użytecznością serwisu internetowego, za to służą do identyfikowania problemów z użytecznością
wystąpienie jednostkowe problemu nie wymaga potwierdzenia ilościowego - jeden problem dla jednego człowieka jest problemem dla wszystkich ludzi
prawdopodobieństwo, że ktoś napotka problem wynosi 31%.

To oczywiście rodzi problem ze statystyczną, ale jednocześnie biznesową ważnością takich odkryć, czego autorka jest świadoma.

Problem, który powtarza się w 1000 przypadków, dla 1000 użytkowników serwisu internetowego, a nie 1 raz na 1000 przypadków jest oczywiście bardziej doniosły i potencjalnie bardziej szkodliwy.

Ustalenie tej zależności wymaga oczywiście wykorzystania metod ilościowych, czego Badiu nie neguje, ale nie uważa także za konieczne, znów odwołując się do kategorii marnotrawstwa, ekonomizacji badań.

Czy takie podejście jest słuszne? Oddajmy głos jego krytykom.

Nie wystarczy testować z 5 użytkownikami - podejście krytyczne względem modelu Jakoba Nielsena

Jakob Nielsen nie jest nieomylny, a każda merytoryczna krytyka służy rozwojowi wiedzy i pozwala wybierać świadomie i z głębszym zrozumieniem konsekwencji. Pozwala lepiej przeprowadzać rachunek zysków i strat.

Także i w podejściu krytycznym mamy korpus tekstów różnych autorów i bardzo zachęcamy do zapoznania się z artykułami źródłowymi.

Przede wszystkim warto przeczytać artykuł: “5 Reasons You Should and Should Not Test With 5 Users” napisany przez dr Jeffa Sauro, “Five, ten, or twenty-five. How many test participants?” napisany przez dr Ellen Francik oraz “The 5 User Sample Size myth: How many users should you really test your UX with?” napisany przez Franka Spillersa.

Pierwsze dwa teksty mają bardziej naukowy, akademicki charakter, trzeci jest cenny ze względu na jego insiderski charakter, wskazanie praktycznych wyzwań, jakie namnażają się w procesie projektowo-badawczym.

podejście krytyczne względem modelu testowania Jakoba Nielsena — Źródło: NN Group

Zastrzeżenie wobec modelu testowania z 5 respondentami w głównej mierze dotyczą kwestii:

braku rangowania wykrytych błędów
absolutyzowania powtarzalności problemów z użytecznością z ich istotnością - 85% wykrytych błędów przez pięciu badanych nie musi być problemami najważniejszymi z punktu widzenia User Experience, sprzedaży, procesów biznesowych, strategii
“czułości” tej metody - pięciu respondentów odkryje większość oczywistych problemów, jeśli problem z użytecznością dotyczy co najmniej 31% wszystkich użytkowników
problemy bardziej specyficzne wymagają większej próby - warto pamiętać, a często się te kwestie myli, że pięciu respondentów nie odkryje 85% wszystkich problemów, tylko 85% najbardziej oczywistych problemów, i choć oczywiste problemy są istotne, to nie znaczy, że można pozostałe 15% uznać za mniej istotne
w przypadku testów mierzących procent respondentów, którzy ukończyli zadanie, by uzyskać statystycznie poprawny obraz sytuacji - odpowiedni margines błędu w granicach +/-10% - konieczne jest przetestowanie 80 respondentów
przy małej próbce trudniej jest wykazać użyteczność strony niż wykazać jej bezużyteczność - innymi słowy mała ilość respondentów może ukierunkowywać wnioski i wzmacniać tendencyjność wniosków i oceny.

Ciekawych argumentów, co najmniej czyniących problematycznym podejście Nielsena dostarczyła Ellen Francik, która przytoczyła badania, z których wynika, że krzywa Nielsena nie zawsze działa jak szwajcarski zegarek.

scenariusz badań ux — Źródło: Human Factors

Francik pisze:

“Perfetti i Landesman (2001) przetestowali serwis muzyczny online. W badaniach z 5 użytkownikami znaleźli tylko 35% wszystkich problemów z użytecznością.

W badaniach z 18 użytkownikami użytkownikach nadal odkrywali poważne problemy i odkryli mniej niż połowę z 600 szacowanych problemów.

Spool i Schroeder (2001) również opisali szeroko zakrojoną ewaluację strony internetowej, w której 5 uczestników nie zbliżyło się do odkrycia 85% problemów”.

Te rozbieżności są zrozumiałe, jeśli zwróci się uwagę, jak bardzo myląca jest kategoria badania w ujęciu Nielsena.

Jest ona przede wszystkim niekonkretna.

Czy wiesz, że...

Badanie użyteczności strony internetowej z udziałem użytkowników, grupy docelowej nigdy nie jest badaniem per se, tylko badaniem ukierunkowanym, fragmentarycznym, zawężonym. Stąd też te mityczne 85% dotyczy nie całości, tylko w praktyce najczęściej fragmentu.

Inną kwestią jest, że nie ma metody badawczej, która by pozwoliła zbadać całość systemu. Każda coś pomija, czegoś nie dostrzega, coś wyolbrzymia, coś abstrahuje.

Warto pamiętać, że praktyka badawcza a teoria to dwa różne światy.

A każde badanie grupy docelowej ma swoje ograniczenia:

czasowe - dużych, rozbudowanych systemów nie da się zbadać w całości w standardowym czasie badania
zadaniowe - w dużych, rozbudowanych systemach najczęściej bada się wybrane scenariusze użycia, wybrane funkcjonalności - badanie, testy UX jest ukierunkowane
związane z wykrywalnością - wykrywalność spada wraz z ilością i różnorodnością możliwych ścieżek wykonania danego zadania - serwisy, w których dane zadanie można wykonać tylko w jeden, doskonale zdeterminowany sposób należą do rzadkości
rozkład wykrywalności problemów powszechnych, umiarkowanie częstych i rzadkich jest wprost zależny od wielkości próby.

Czy wiesz, że...

Co jeszcze ważniejsze, wykrywalność problemów z użytecznością nie jest tylko kwestią ilości respondentów. Jest to bardzo szkodliwy redukcjonizm i uproszczenie.

Na wykrywalność problemów z użytecznością mają także wpływ czynniki takie jak:

ilość oraz doświadczenie samych badaczy, którzy potrafią odpowiednio poprowadzić badania, testy UX, badania użyteczności serwisu internetowego, badania UX
stadium zaawansowania projektu - im projekt doskonalszy pod względem użyteczności, tym wykrywalność problemów jest bardziej problematyczna, a same problemy są o wiele bardziej nietypowe, subtelne, mniej oczywiste
doświadczenie użytkowników - im użytkownicy są bardziej doświadczeni, tym łatwiej jest im użyć systemu do własnych celów, problem stanowi dla nich coś bardziej skomplikowanego
definicji problemu formułowanej przez użytkowników - różnorodne kompetencje, doświadczenia wpływają na to, co jest uznawane za problem i jaką rangę się nadaje problemowi
jednorodności, reprezentatywności badanych respondentów
złożoności zadania - jego typowości
czasu badania oraz ilości zadań, jakie przewidziano w czasie badania - skłonność do dostrzegania lub ignorowania problemów jest zależna od poziomu zmęczenia respondentów samym badaniem.

Do wyżej wymienionych kwestii należy dodać także problemy czysto praktyczne, związane nie z idealnym, modelowym wyobrażeniem o badaniach, ale jego realnym przebiegiem.

Problem wykrywalności jest związany także z:

jakością rekrutacji do badania UX
zaangażowaniem samego badacza w badania UX
skłonnością do unikania bardziej specyficznych problemów w procesie kategoryzowania, analizowania, interpretowania danych
wyzwaniami organizacyjnymi - iteracyjne podejście Nielsena do badania UX jest w dużej mierze podejściem idealistycznym, które w warunkach realnych napotyka na wiele oporów.

Frank Spillers stawia wymowne i dosadne pytanie retoryczne:

“Przy 12 użytkownikach konieczne są 4 rundy zmian w projekcie i 4 testy użytkowników. Pokaż mi zespół programistów Agile na świecie, który pozwoliłby na taki poziom zakłóceń i przedłużające się testowanie?”.

I dodaje w podobnym duchu:

“Nawet 3 mniejsze badania prawdopodobnie nie będą się skalować do realiów większości projektów”.

To jednak nie koniec argumentów przeciwko modelowi Nielsena.

Podejście Nielsena krytykowane jest także za:

anachroniczność - podstawy jego modelu zostały sformułowane kilka dekad temu, w zupełnie innych uwarunkowaniach oraz w początkowym stadium rozwoju badań User Experience
szkodliwy uniwersalizm - nie uwzględnia ono specyfik różnych grup odbiorców, różnych kanałów, różnych urządzeń, różnic między aplikacjami (np. pojęcie strony internetowej jest sproblematyzowanie w sposób minimalny)
brak uwzględnienia ról, jakie użytkownicy pełnią, korzystając ze strony, co znacząco przekłada się na zakres, ilość, ważność oraz rangę sygnalizowanych przez nich problemów
brak uwzględnienia wrażliwości na problem respondentów badania UX - problem z użytecznością to nie jest coś, co dotyczy każdego tak samo, w takim sam sposób, w takim samym sensie, zakresie, ciężarze.

Ciekawy i jednocześnie podsumowujący wszystkie zastrzeżenia, kierowane wobec modelu Nielsena, jest artykuł “Beyond the five-user assumption: Benefits of increased sample sizes in usability testing” napisany przez amerykańską autorkę, związaną z University of Texas, Laurę Faulkner.

Faulkner porównała testy z różnymi liczbami użytkowników. Okazało się, że zgodnie z jej wynikami istnieje spore ryzyko uzyskania niedokładnych wyników, gdy zbytnio zawierzymy modelowi Nielsena.

W niektórych badaniach z 5 respondentami uzyskiwano wykrywalność na poziomie 99%, w innych na poziomie 55%.

Podwojenie wielkości próby spowodowało, że najniższy odsetek problemów ujawnionych przez jeden zestaw wzrósł do 80%, a w przypadku 20 użytkowników - do 95%.