본문 바로가기
Design/UI UX

[UX] A/B Testing 사이트 비교하여 더 좋은 디자인 찾기

by Apeach_:) 2023. 4. 27.

 

What is A/B Testing

A/B 테스팅이란 기존 요소로 구성된 A안과 변형한 B안을 비교하여 더 높은 성과와 효율을 보이는지를 측정하는 실험이다. A/B 테스팅을 활용해 성과에 대해 정량적으로 평가하는 방식이다.

 

과학과 의학에서 쓰이는 무작위비교연구(RCT; Randomized-controlled trial)의 방법을 인터넷 마케팅에 적용한 것이다.

주로 웹사이트의 마케팅과 관련하여 많이 쓰이지만 디자인, 인터페이스, 상품 배치 등을 개선하기 위해서 사용하고, 모바일 앱, 게임, 이메일, 광고 등의 분야에서도 활용된다.

 

How to do A/B Testing

 

출처 :   When A/B testing, how do you decide what to test?

 

 

1. 리서치

AB 테스트를 진행하기 전에 현재 웹사이트의 성과를 측정해야 한다. 데이터를 살펴 보면서 고객들이 방문하지 않는 페이지, 이탈율이 높은 페이지, 다른 링크의 전환 경우, 유입경로 별 현황 파악 등 문제점을 찾아야하며, 고객 인터뷰를 통해서도 문제점을 확인할 수 있다. 반대로 고객 인터뷰를 먼저 진행하여 발견한 문제점을 데이터로 확인할 수도 있다.

 

* 리서치 비용이 크거나 시간이 오래걸릴경우에는 과감하게 생략하고 머릿속으로 합리적인 가설을 세우는 것만으로도 충분하다. A/B 테스트의 목적은 전환율 개선이지 문제 파악이 아니다.

2. 가설 수립

리서치 과정에서 직면한 문제점에 대한 가설을 세운다.

예) “버튼의 명도가 높아진다면 잘 읽혀 노출수가 증가하여 클릴율이 증가할 것이다."

3. A안과 B안 생성

가설을 기반으로 기존 요소의 A안과 문제점을 파악하여 변형한 B안을 생성한다.

이때 A안을 보는 집단은 대조군(Control Group), B안을 보는 집단은 실험군(Experimental Group)이 된다.

4. 테스트 진행

실험의 진행방식은 3가지 요소이다.

1. 분기

2. 구현

3. 지표 추적

 

1. 분기

분기는 수립된 가설에 따라 각각 원본 A와 대안 B를 보여줄 트래픽을 분리하는 작업이다.

A/B테스트 기능을 직접 개발하는 경우엔 DB의 PK값처럼 고유한 식별자가 그 기준이 된다.  PK 홀수 짝수 여부에 따라 A/B를 보여준다. 

 

A/B테스트를 진행하기 위해서는 A와 B의 콘텐츠 외에는 두 집단 차이의 차이가 존재해서는 안된다.

A/B 테스트를 하기위해 트래픽을 분기할 때 고려해야 하는 가장 중요한 사항은 트래픽이 해당 실험에 대해 얼마나 정확한가 이므로

날짜, 요일, 시간 같은 같은 시점에 따라 영향을 받을 수 있기 때문에 같은 조건을 부여해야한다. 또한 PV, UV 규모, 접근 계기가 될 수 있는 유입 경로, 기기, 운영 체제, 브라우저와 같은 결과에 영향을 끼칠 수 있는 항목들도 최소화할수록 더욱 정확한 비교가 가능하다.

 

표본 크기가 중요한 이유는 ‘통계적 유의성’ 때문입니다. 통계적 유의성을 판단할 수 있는 충분한 데이터가 모이기 전에 테스트를 종료하면 잘못된 해석으로 이어질 수 있다. 통계학에서는 라플라스 (Pierre Simon Laplace) 중심 극한 정리(Centeral Limit Theorem)이론에서 표본이 충분히 클 때 결과가 정규 분포를 따를 수 있다고 한다. 충분히 크다의 수치는 30이상 값으로 해석하고 있다. 

 

실험 툴은 구글 옵티마이즈, 허브스팟, VWO, 옵티마이즐, 언바운드 등이 있다. 

 

2.구현 

A/B 테스트에 동원된 트래픽이 제대로 분기 되었다면 원본과 대안을 적용해 준다. 버그가 없도록 꼼꼼히 해야하고 가설과 무관한 데이터를 받지 않도록 주의해서 대안을 구현해야한다.

 

3. 지표분석

지표를 분석하기 위해선 직접 개발한 경우는 DB에서 볼 것인지, 쿼리를 사용해서 할것인지 

또는 엠플리튜드(amplitude)나 믹스패널(Mixpanel)과 같은 외부 추적 툴을 사용할 것인지 결정하고 지표 추적 방식을 하게 된다. 

 

* pv : 페이지 뷰수 

* uv : 순 방문자 수

5. 분석 및 의사결정

테스트가 종료됐다면 결과를 분석하고 의사결정을 해야 한다. 변형된 B안이 기존 안 보다 높게 평가되었다면, 신규안을 배포한다. 또한 어떤 부분에서 더 좋은 성과가 나타났는지에 대한 이유를 정리해야한다. 

 

* A/B 테스팅으로 결과에 대해 단순히 더 높은 지표값을 나타내느 안으로 의사를 결정할 수 있지만, 일관되고 정교한 테스트를 위해서는 t-검정을 적용하여 유의성을 검증해야한다. 

 

실험 결과 분석에 도움되는 사이트

https://yozm.wishket.com/magazine/detail/1012/

 

p값? 신뢰구간? AB 테스트를 완성하는 통계 분석, 기본 개념 잡기 | 요즘IT

한 번이라도 AB 테스트를 돌려본다면 결과 분석이 생각보다 어려운 일임을 깨닫게 됩니다. 뻔히 눈에 보이는 결과, 수치인데 매번 해석하기가 난감합니다. 따라서 이번 글에서 AB 테스트 결과를

yozm.wishket.com

 

A/B Test Precautions

1. 무가설

A/B 테스트를 통해 검증하고 싶은 가설의 정의는 결과를 얻기 더 명확해 집니다.

2. 통제 변수 관리 실패

A/B 테스트가 실패하는 가장 큰 원인은 통제 변수를 식별하지 못했거나, 통제 변수를 잘 관리하지 못하는 것이다.

가설에서 정의한 독립 변수 외에 다른 변수가 종속 변수에 영향을 결과 값을 확신 할 수 없다. 

3. 단순 평균 비교

종속 변수의 변화를 단순 평균 비교하면 우연에 의한 결과와 실제 효과를 혼동할 수 있다.

평균 비교 외에도 분포, 유의수준 등을 종합적으로 고려해서 결과를 해석해야 한다.

4. 시간 흐름 무시

테스트 기간 전체에 대한 종속 변수 평균을 비교하는 것도 중요하지만 시간의 흐름에 따라 종속 변수가 어떻게 변화했는지를 보는 것도 중요하다. 실제로 실험 초반에는 조건별 차이가 나타났다가 후반에는 차이가 사라지는 경우, 또는 그 반대의 상황이 종종 나타나기 때문이다.

5. 실험 중지

실험 중에 계속해서 p-value의 변화를 살펴보다가 p-value가 0.05 이하로 내려가는 시점에 갑자기 실험을 중단하는 경우입니다.

처음 진행할 수록 이 실수에 주의해야한다. 

통계적으로는 유의미한 차이가 있는 것으로 보이지만, 사실은 실험자가 인위적으로 만들어낸 결과이므로 서비스의 성장에 크게 도움이 되지 않는다. p-value는 통계적 가설 검정에서 사용되는 개념으로 ‘가설검정(귀무가설, 대립가설, p-값)’에서 구체적인 내용을 확인할 수 있다.

6. 과거에 대한 맹신

A/B 테스트에서 유의미한 결과가 나왔다고 해서 그것이 계속해서 유의미하다고 보장할 수는 없다.

시장 변화, 계절 변화, 유저 변화 등 다양한 요인에 의해 A/B 테스트 결과는 얼마든지 달라질 수 있기 때문이다.

 

Points to Note

A/B 테스팅을 통해 인과관계를 찾아내려면 두 집단을 임의적으로 나누어야 한다. 이를 임의적 할당(random assignment)이라고 한다.
예를 들어

  • 남성은 A 집단, 여성은 B 집단
  • 짝수 시간대 방문자는 A 집단, 홀수 시간대 방문자는 B 집단
  • 첫 일주일 동안 방문한 사용자는 A 집단, 그 다음 일주일 동안 방문한 사용자는 B 집단

등 임의적이지 않은 방식을 사용할 경우 두 집단의 차이가 무엇 때문에 발생하는지 가려낼 수 없게 된다.
A/B 테스팅을 통해 찾아낸 결과가 범용성을 지니려면 애초에 실험에 참가한 집단이 모집단을 대표할 수 있어야한다. 이를 임의적 추출(random sampling)이라고 한다. 예를 들어 초등학교 학생들을 대상으로 한 실험의 결과를 초중고등학교 학생 모두에게 적용하거나, 페이스북 사용자를 대상으로 한 실험의 결과를 트위터에 적용하거나 하면 추출된 집단의 성격과 모집단의 성격에 차이가 있기 때문에 기대와 다른 결과가 나올 수 있다.

Example

오바마 대선 홍보 캠페인

기존엔 기부금을 내기 위해 1단계에서 여러항목을 입력해야 했는데, 이를 4단계로 구분하여 각 단계에서 요구하는 항목을 최소화 시켰다.

이를 통해 전환율 5% 상승 효과를 얻어낼 수 있었다.

출처 : https://medium.com/convertize/the-secret-behind-obamas-2012-election-success-a-b-testing-no-really-df672c248926

 

 

넷플릭스

 

 

넷플릭스는 회원 가입 전, 메인화면을 개선하는 작업을 진행했다.

B안을 만들기 이전에, 사용자들에게 회원 가입 전 화면에 대해 조사하였고, 조사 결과 약 46% 사용자들에게 ‘시청할 수 있는 영화와 TV쇼 목록’이라는 답변을 받았다. 하지만 기존 A안과 설문조사를 반영하여 개선한 B안으로 A/B Testing 결과, A에 비해 가입 전환률이 낮아진 결과를 확인할 수 있었다. 원인은 시청 목록 화면에서 가입 페이지로 바로 전환되는 것이 아니라 오히려 탐색으로 인해 가입 전환 콘텐츠 영역에서 벗어나게 되고, 또한 원하는 콘텐츠가 없을 시 좌절감을 느껴 이탈하게 되는 경우가 발생하였기 때문이다. 

따라서 넷플릭스는 사용자들이 가입 전 시청 가능 목록을 확인하되 목록 위주로 탐색하는 행위로 빠지지 않고 실제 가입으로 전환될 수 있도록 다음 이미지와 같이 디자인을 개선할 수 있었다. 

 

그 외 다른 A/B 테스트에 대한 정보는 아래 사이트에서 전환률에 대한 비교 분석을 확인해 볼 수 있다.

https://www.abtestcases.com/

 

AB Testing Case Studies from the world’s data driven marketeers | CRO cases

CRO cases…

www.abtestcases.com

application

https://yozm.wishket.com/magazine/detail/897/%EF%BB%BF/

 

바로 활용하는 12가지 AB 테스트 사례 | 요즘IT

AB 테스트는 가설 수립, 실험 진행, 결과 분석의 3단계로 진행되는 그로스 해킹 방법론입니다. AB 테스트는 제품과 조직의 확실한 성장 엔진으로, 그랩(Grab), 넷플릭스(Netflix), 에어비앤비(Airbnb) 등

yozm.wishket.com

 

참고문헌 

https://www.ascentkorea.com/ab-test/

Book: Data-Driven UX

https://www.beusable.net/blog/?p=1775 

https://yozm.wishket.com/magazine/detail/897/

https://vwo.com/blog/ab-testing-examples/

https://hbr.org/2017/06/a-refresher-on-ab-testing

https://yozm.wishket.com/magazine/detail/585/