Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018)

Материал из 0x1.tv

Докладчик
Анастасия Маркина.jpg
Анастасия Маркина

В работе представлен комплексный подход к оценке эффективности взаимодействия пользователя с программным обеспечением на платформе GNU/Linux, включающий комбинированное использование методов психологического анализа и биометрического подхода. Используемые методы включают в себя прохождение тестов, заполнение опросников, протоколирование действий пользователя и коммуникативное взаимодействие с ним, а также измерение биометрических показателей. Приводятся разработанные на принципах свободного контента материалы, а также результаты апробации подхода на задаче сравнения свободных и коммерческих табличных процессоров.

Видео

on youtube

Презентация

Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf


Thesis

Введение

Для измерения эффективности работы пользователя выделяют два принципиально различных подхода. В первом подходе активно используются экспертные оценки и самосообщаемые параметры; он не поддаётся значительной автоматизации и затратен по времени из-за опросов, хронометража и видеопротоколирования, больше подвержен влиянию человеческого фактора при обработке результатов. Также ряд параметров, таких как физическая нагрузка, может быть оценен лишь по косвенным признакам и самосообщаемым параметрам. Альтернативный подход предполагает экспресс-оценку состояния пользователя с помощью приборов, позволяющих регистрировать параметры, связанные с физической и когнитивной нагрузкой. Он также имеет ряд ограничений. Биометрические измерения предоставляют большой объем данных, поддающихся автоматической обработке, однако они позволяют оценивать эмоциональное состояние и когнитивные процессы лишь по косвенным признакам, что даёт в ряде случаев лишь приблизительную картину.

В настоящей работе предпринята попытка объединения достоинств обоих подходов в рамках комплексного usability-тестирования, нацеленного на получение картины процессов, имеющих место в ходе человеко-машинного взаимодействия, максимально полной и максимально абстрагированной от влияния человеческого фактора в процессе его оценки. По мнению авторов, подобная методика особенно актуальна для GNU/Linux, не относящейся к числу платформ, «избалованных» полномасштабными usability-исследованиями. Материалы для тестирования пользователей (в особенности универсальные) и программное обеспечение, разработанное и используемое авторами в ходе работы, распространяются под свободной лицензией и доступны в репозитории проекта UXDump.

Метрики

Список метрик, которые имеет смысл учитывать при проведении исследования, включает показатели результативности (время выполнения задания, ошибки, процент выполненных заданий), нагрузку (пульс, концентрацию внимания, фиксации взгляда) и впечатления респондентов (уровень ожиданий и уровень удовлетворения пользователя). Время и успешность выполнения задания — одни из основных показателей, используются только в сравнении. Успешность выполнения кодируется в бинарном коде (выполнил/не выполнил).

Проблемы, с которыми столкнулись пользователи, регистрируются как менеджером эксперимента, так и с помощью видео-захвата экрана. После тестирования проводится ретроспектива: с пользователем обсуждаются задания, вызвавшие проблемы, проигрывается запись, анализируется реакция и поведение в ходе теста. Это позволяет классифицировать проблемы, выявить более значимые для пользователя, рассчитать частотность проблем (сколько пользователей с ними столкнулись).

Уровень ожидания отражает отношение пользователя к продукту и представляемую им комфортность работы, а уровень удовлетворения — оценку удобства использования системы после прохождения теста. Эти метрики можно получить с помощью стандартных международных опросников System Usability Scale (SUS) и Post-Study System Usability Questionnaire (PSSUQ) [1]. Кроме этого, пользователям предлагается выбирать из списка эпитеты, которые могут описать их впечатления от программного продукта.

Нагрузка может оцениваться в соответствии с опробованной ранее экспресс-методикой [2], по которой регистрируются быстрота выполнения заданий, физическая и умственная нагрузка, направление взгляда пользователя [3]. Для оценки концентрации внимания нами использовалась метрика «Attention» бытового энцефалографа Neurosky Mindwave, физическая нагрузка оценивалась по частоте сердечных сокращений (ЧСС), измеряемой фитнес-трекером, а для регистрации направления взгляда применялись айтрекеры фирмы Tobii. Сбор и первичная обработка данных выполнялись в параллельном режиме программной системой, разработанной в рамках проекта UXDump.

Методика проведения

Проведение тестирования было разделено на следующие части:

  1. Составление сценария использования, включающего типовые задания для использования программного продукта с нарастающей сложностью, что позволяет отследить тенденцию обучаемости. Задания составляются исходя из опыта респондентов.
  2. Набор участников одной возрастной группы, имеющих сходный опыт работы с продуктами-аналогами. Оговаривается время проведения каждой стадии эксперимента.
  3. Инструктаж (приветствие, описание мероприятия, целей исследования, метрик и тестов, подписание соглашения на предоставление и обработку персональных данных).
  4. Вводное интервью (заполнение анкеты участника, проверка уровня владения продуктами-аналогами, проведение психологических тестов — в нашем случае теста Айзека на определение темперамента и теста Равена на уровень интеллекта).
  5. Демонстрационный показ работы с продуктом.
  6. Ожидания от работы с продуктом (заполняются опросники SUS, обсуждаются основные вопросы использования, особенности функционала).
  7. Настройка системы (в зависимости от имеющегося оборудования, подключение и калибровка биометрических датчиков, айтрекера, а также настройка видео-протоколирования и захвата видео с экрана).
  8. Работа с продуктом (выполнение тестовых заданий с ведением протокола менеджером, где фиксируются реакции пользователя).
  9. Сбор итоговых впечатлений (заполняются опросники PSSUQ, проводится ретроспектива).

Важно, что в ходе эксперимента менеджеры, регистрируя время и реакцию пользователей, не вмешиваются в ход выполнения заданий. В нашем случае менеджеры подбирались из круга респондентов, были с ними знакомы, что могло снизить стресс. Ответы на вопросы «Как это сделать?» должны быть расплывчаты («А как вы сами думаете?», «А что бы вы сделали в реальной жизни?»), т. к. это мотивирует респондента разбираться с системой и не смещает фокус. Также респонденты знают о видео-наблюдении, но внимание в ходе теста на этом не акцентируется.

Апробация на примере табличных процессоров

Апробация методики выполнялась на задаче сравнения эргономики табличных процессоров, входящих в состав современных офисных пакетов. В качестве подопытных выступали студенты в возрасте 18—19 лет, получающие техническое образование, которые имеют представление о табличном процессоре, но не используют его ежедневно. Для тестирования были выбраны Microsoft Excel 2016 и LibreOffice Calc 5.4.4. В тестировании участвовали 14 респондентов.

Выбор был обоснован следующими соображениями:

  • современный табличный процессор является мощным приложением с развитым функционалом и сложными инструментальными средствами управления;
  • ограниченное владение подопытных приложениями данного типа позволяет оценить, как особенности интерфейса приложения влияют на освоение его функционала.

Заметим, что ленточные интерфейсы имеют опредённые преимущества для сложных приложений [2]. Но т. к. сравнение классических и ленточных интерфейсов чаще проводится на примере текстовых процессоров, представляет дополнительный интерес их сравнение на сложных задачах другого типа. Кроме того, интересно оценить и результативность переработки, которую претерпел Libreoffice Calc 5.

В ходе вводного интервью три респондента были отсеяны по тесту Айзенка из-за низкой эмоциональной устойчивости и/или непреодоления порога достоверности теста, а один — по тесту Равена, показавшему существенно отличающийся от остальных респондентов уровень интеллекта, не вписывающийся в средние показатели группы.

Результаты снятия метрик приведены в таблице. Как можно заметить, работа в Calc проходила успешнее и быстрее, при меньшем уровне стресса. Анализ показал отсутствие изменений употребления негативных прилагательных при описании интерфейса Excel до и после эксперимента (8 случаев), в то время как для Calc таких случаев было 8 до эксперимента и 7 после. Для обоих пакетов заметна тенденция, когда респонденты чаще считали его более полезным и эффективным после тестирования, чем до. Мнение о простоте использования Excel в процессе работы снизилось на 67%, а мнение о простоте использования Calc — на 25%. Аналогично можно сказать об оценках экономии времени при использовании пакета (Excel — снижение на 60%, Calc — снижение на 50%). При этом есть категория пользователей, полностью справившихся с тестом только в Calc.

Основными проблемами, выявленными при при выполнении заданий в Excel оказались частое отсутствие корректных подсказок, сложный и запутанный поиск нужного функционала, неинтуитивность пользовательских настроек, низкая заметность элементов. При работе с Calc наблюдались проблемы заметности некоторых элементов управления и поиск имён функций по общему справочнику. Заметим также, что некоторые пользователи после работы с Excel нашли его «личным», «покровительствующим», «властным», «неконтролируемым» и «вызывающим смущение», а Calc — «высококачественным», «нетрадиционным», «насыщенным», «захватывающим», «вызывающим смущение», «ценным», и немного «разочаровывающим».

Excel Calc
Результативность
Минимальное время выполнения всего теста 23 мин 22 мин
Максимальное время выполнения всего теста 1 ч 6 мин 55 мин
Среднее время выполнения всего теста 31 мин 30 мин
Минимальное время выполнения одного задания 20 сек 15 сек
Максимальное время выполнения одного задания 24 мин 14,5 мин
Среднее время выполнения одного задания 2 мин 1,5 мин
Сколько респондентов выполнили все задания 14% 43%
Наименьший процент выполненных заданий в тесте 40% 50%
Процент выполненных заданий теста 80% 89%
Физическая нагрузка
Максимальная ЧСС 162 уд/мин 132 уд/мин
Минимальная ЧСС 59 уд/мин 74 уд/мин
Впечатления респондентов
Процент ожидания по SUS 51% 52%
Процент удовлетворения по PSSUQ 64% 64%
Рост тенденции (от ожидания к удовлетворению) 16% 16%

Источники

  1. Sauro J. Measuring usability with the system usability scale (SUS). https://measuringu.com/sus/ (2011-02-02).
  2. 2,0 2,1 Post-Study System Usability Questionnaire (PSSUQ). // UX Glossary http://www.conetrees.com/2010/12/ux-glossary/post-study-system-usability-questionnaire-pssuq (2010-12-10).
  3. Костюк Д.А., Латий О.О., Маркина А.А. Подход к биометрической оценке эргономики графического интерфейса пользователя // Вестник БрГТУ. ФМИ, 2016, № 5(101), с. 46–49.
  • Дубицкий А., Костюк Д., Маркина А., Фомин С. Применение айтрекеров для юзабилити-исследований в GNU/Linux // Четырнадцатая конференция разработчиков свободных программ: Тезисы докладов. Калуга, 22–24.09.2017. М.: Базальт СПО, 2017, с. 36–41.

Примечания и ссылки

Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018)!.jpg

Plays:48   Comments:0