Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018)
Материал из 0x1.tv
- Докладчик
- Анастасия Маркина
В работе представлен комплексный подход к оценке эффективности взаимодействия пользователя с программным обеспечением на платформе GNU/Linux, включающий комбинированное использование методов психологического анализа и биометрического подхода. Используемые методы включают в себя прохождение тестов, заполнение опросников, протоколирование действий пользователя и коммуникативное взаимодействие с ним, а также измерение биометрических показателей. Приводятся разработанные на принципах свободного контента материалы, а также результаты апробации подхода на задаче сравнения свободных и коммерческих табличных процессоров.
Содержание
Видео
Посмотрели доклад? Понравился? Напишите комментарий! Не согласны? Тем более напишите.
Презентация
Thesis
Введение
Для измерения эффективности работы пользователя выделяют два принципиально различных подхода. В первом подходе активно используются экспертные оценки и самосообщаемые параметры; он не поддаётся значительной автоматизации и затратен по времени из-за опросов, хронометража и видеопротоколирования, больше подвержен влиянию человеческого фактора при обработке результатов. Также ряд параметров, таких как физическая нагрузка, может быть оценен лишь по косвенным признакам и самосообщаемым параметрам. Альтернативный подход предполагает экспресс-оценку состояния пользователя с помощью приборов, позволяющих регистрировать параметры, связанные с физической и когнитивной нагрузкой. Он также имеет ряд ограничений. Биометрические измерения предоставляют большой объем данных, поддающихся автоматической обработке, однако они позволяют оценивать эмоциональное состояние и когнитивные процессы лишь по косвенным признакам, что даёт в ряде случаев лишь приблизительную картину.
В настоящей работе предпринята попытка объединения достоинств обоих подходов в рамках комплексного usability-тестирования, нацеленного на получение картины процессов, имеющих место в ходе человеко-машинного взаимодействия, максимально полной и максимально абстрагированной от влияния человеческого фактора в процессе его оценки. По мнению авторов, подобная методика особенно актуальна для GNU/Linux, не относящейся к числу платформ, «избалованных» полномасштабными usability-исследованиями. Материалы для тестирования пользователей (в особенности универсальные) и программное обеспечение, разработанное и используемое авторами в ходе работы, распространяются под свободной лицензией и доступны в репозитории проекта UXDump.
Метрики
Список метрик, которые имеет смысл учитывать при проведении исследования, включает показатели результативности (время выполнения задания, ошибки, процент выполненных заданий), нагрузку (пульс, концентрацию внимания, фиксации взгляда) и впечатления респондентов (уровень ожиданий и уровень удовлетворения пользователя). Время и успешность выполнения задания — одни из основных показателей, используются только в сравнении. Успешность выполнения кодируется в бинарном коде (выполнил/не выполнил).
Проблемы, с которыми столкнулись пользователи, регистрируются как менеджером эксперимента, так и с помощью видео-захвата экрана. После тестирования проводится ретроспектива: с пользователем обсуждаются задания, вызвавшие проблемы, проигрывается запись, анализируется реакция и поведение в ходе теста. Это позволяет классифицировать проблемы, выявить более значимые для пользователя, рассчитать частотность проблем (сколько пользователей с ними столкнулись).
Уровень ожидания отражает отношение пользователя к продукту и представляемую им комфортность работы, а уровень удовлетворения — оценку удобства использования системы после прохождения теста. Эти метрики можно получить с помощью стандартных международных опросников System Usability Scale (SUS) и Post-Study System Usability Questionnaire (PSSUQ) [1]. Кроме этого, пользователям предлагается выбирать из списка эпитеты, которые могут описать их впечатления от программного продукта.
Нагрузка может оцениваться в соответствии с опробованной ранее экспресс-методикой [2], по которой регистрируются быстрота выполнения заданий, физическая и умственная нагрузка, направление взгляда пользователя [3]. Для оценки концентрации внимания нами использовалась метрика «Attention» бытового энцефалографа Neurosky Mindwave, физическая нагрузка оценивалась по частоте сердечных сокращений (ЧСС), измеряемой фитнес-трекером, а для регистрации направления взгляда применялись айтрекеры фирмы Tobii. Сбор и первичная обработка данных выполнялись в параллельном режиме программной системой, разработанной в рамках проекта UXDump.
Методика проведения
Проведение тестирования было разделено на следующие части:
- Составление сценария использования, включающего типовые задания для использования программного продукта с нарастающей сложностью, что позволяет отследить тенденцию обучаемости. Задания составляются исходя из опыта респондентов.
- Набор участников одной возрастной группы, имеющих сходный опыт работы с продуктами-аналогами. Оговаривается время проведения каждой стадии эксперимента.
- Инструктаж (приветствие, описание мероприятия, целей исследования, метрик и тестов, подписание соглашения на предоставление и обработку персональных данных).
- Вводное интервью (заполнение анкеты участника, проверка уровня владения продуктами-аналогами, проведение психологических тестов — в нашем случае теста Айзека на определение темперамента и теста Равена на уровень интеллекта).
- Демонстрационный показ работы с продуктом.
- Ожидания от работы с продуктом (заполняются опросники SUS, обсуждаются основные вопросы использования, особенности функционала).
- Настройка системы (в зависимости от имеющегося оборудования, подключение и калибровка биометрических датчиков, айтрекера, а также настройка видео-протоколирования и захвата видео с экрана).
- Работа с продуктом (выполнение тестовых заданий с ведением протокола менеджером, где фиксируются реакции пользователя).
- Сбор итоговых впечатлений (заполняются опросники PSSUQ, проводится ретроспектива).
Важно, что в ходе эксперимента менеджеры, регистрируя время и реакцию пользователей, не вмешиваются в ход выполнения заданий. В нашем случае менеджеры подбирались из круга респондентов, были с ними знакомы, что могло снизить стресс. Ответы на вопросы «Как это сделать?» должны быть расплывчаты («А как вы сами думаете?», «А что бы вы сделали в реальной жизни?»), т. к. это мотивирует респондента разбираться с системой и не смещает фокус. Также респонденты знают о видео-наблюдении, но внимание в ходе теста на этом не акцентируется.
Апробация на примере табличных процессоров
Апробация методики выполнялась на задаче сравнения эргономики табличных процессоров, входящих в состав современных офисных пакетов. В качестве подопытных выступали студенты в возрасте 18—19 лет, получающие техническое образование, которые имеют представление о табличном процессоре, но не используют его ежедневно. Для тестирования были выбраны Microsoft Excel 2016 и LibreOffice Calc 5.4.4. В тестировании участвовали 14 респондентов.
Выбор был обоснован следующими соображениями:
- современный табличный процессор является мощным приложением с развитым функционалом и сложными инструментальными средствами управления;
- ограниченное владение подопытных приложениями данного типа позволяет оценить, как особенности интерфейса приложения влияют на освоение его функционала.
Заметим, что ленточные интерфейсы имеют опредённые преимущества для сложных приложений [2]. Но т. к. сравнение классических и ленточных интерфейсов чаще проводится на примере текстовых процессоров, представляет дополнительный интерес их сравнение на сложных задачах другого типа. Кроме того, интересно оценить и результативность переработки, которую претерпел Libreoffice Calc 5.
В ходе вводного интервью три респондента были отсеяны по тесту Айзенка из-за низкой эмоциональной устойчивости и/или непреодоления порога достоверности теста, а один — по тесту Равена, показавшему существенно отличающийся от остальных респондентов уровень интеллекта, не вписывающийся в средние показатели группы.
Результаты снятия метрик приведены в таблице. Как можно заметить, работа в Calc проходила успешнее и быстрее, при меньшем уровне стресса. Анализ показал отсутствие изменений употребления негативных прилагательных при описании интерфейса Excel до и после эксперимента (8 случаев), в то время как для Calc таких случаев было 8 до эксперимента и 7 после. Для обоих пакетов заметна тенденция, когда респонденты чаще считали его более полезным и эффективным после тестирования, чем до. Мнение о простоте использования Excel в процессе работы снизилось на 67%, а мнение о простоте использования Calc — на 25%. Аналогично можно сказать об оценках экономии времени при использовании пакета (Excel — снижение на 60%, Calc — снижение на 50%). При этом есть категория пользователей, полностью справившихся с тестом только в Calc.
Основными проблемами, выявленными при при выполнении заданий в Excel оказались частое отсутствие корректных подсказок, сложный и запутанный поиск нужного функционала, неинтуитивность пользовательских настроек, низкая заметность элементов. При работе с Calc наблюдались проблемы заметности некоторых элементов управления и поиск имён функций по общему справочнику. Заметим также, что некоторые пользователи после работы с Excel нашли его «личным», «покровительствующим», «властным», «неконтролируемым» и «вызывающим смущение», а Calc — «высококачественным», «нетрадиционным», «насыщенным», «захватывающим», «вызывающим смущение», «ценным», и немного «разочаровывающим».
| Excel | Calc | |
|---|---|---|
| Результативность | ||
| Минимальное время выполнения всего теста | 23 мин | 22 мин |
| Максимальное время выполнения всего теста | 1 ч 6 мин | 55 мин |
| Среднее время выполнения всего теста | 31 мин | 30 мин |
| Минимальное время выполнения одного задания | 20 сек | 15 сек |
| Максимальное время выполнения одного задания | 24 мин | 14,5 мин |
| Среднее время выполнения одного задания | 2 мин | 1,5 мин |
| Сколько респондентов выполнили все задания | 14% | 43% |
| Наименьший процент выполненных заданий в тесте | 40% | 50% |
| Процент выполненных заданий теста | 80% | 89% |
| Физическая нагрузка | ||
| Максимальная ЧСС | 162 уд/мин | 132 уд/мин |
| Минимальная ЧСС | 59 уд/мин | 74 уд/мин |
| Впечатления респондентов | ||
| Процент ожидания по SUS | 51% | 52% |
| Процент удовлетворения по PSSUQ | 64% | 64% |
| Рост тенденции (от ожидания к удовлетворению) | 16% | 16% |
Источники
- ↑ Sauro J. Measuring usability with the system usability scale (SUS). https://measuringu.com/sus/ (2011-02-02).
- ↑ 2,0 2,1 Post-Study System Usability Questionnaire (PSSUQ). // UX Glossary http://www.conetrees.com/2010/12/ux-glossary/post-study-system-usability-questionnaire-pssuq (2010-12-10).
- ↑ Костюк Д.А., Латий О.О., Маркина А.А. Подход к биометрической оценке эргономики графического интерфейса пользователя // Вестник БрГТУ. ФМИ, 2016, № 5(101), с. 46–49.
- Дубицкий А., Костюк Д., Маркина А., Фомин С. Применение айтрекеров для юзабилити-исследований в GNU/Linux // Четырнадцатая конференция разработчиков свободных программ: Тезисы докладов. Калуга, 22–24.09.2017. М.: Базальт СПО, 2017, с. 36–41.
Примечания и ссылки
Plays:48 Comments:0

