Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018) — различия между версиями
Материал из 0x1.tv
StasFomin (обсуждение | вклад) |
StasFomin (обсуждение | вклад) |
||
…муникативное взаимодействие с ним, а также измерение биометрических показателей. Приводятся разработанные на принципах свободного контента материалы, а также результаты апробации подхода на задаче сравнения свободных и коммерческих табличных процессоров. </blockquote> {{VideoSection}} {{vimeoembed|254114813|800|450}} {{youtubelink|WqOGhyAS3_o}}{{letscomment}} {{SlidesSection}} [[File:Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018).pdf|left|page=-|300px]] {{----}} == Thesis == <latex> \section{=== Введение} === Для измерения эффективности работы пользователя выделяют два принципиально различных подхода. В первом подходе активно используются экспертные оценки и самосообщаемые параметры; он не поддаётся значительной автоматизации и затратен по времени из-за опросов, хронометража и видеопротоколирования, больше подвержен влиянию человеческого фактора при обработке результатов. Также ряд параметров, таких как физическая нагрузка, может быть оценен лишь по косвенным признакам и самосообщаемым параметрам. Альтернативный подход предполагает экспресс-оценку состояния пользователя с помощью приборов, позволяющих регистрировать параметры, связанные с физической и когнитивной нагрузкой. Он также имеет ряд ограничений. Биометрические измерения предоставляют большой объем данных, поддающихся автоматической обработке, однако они позволяют оценивать эмоциональное состояние и когнитивные процессы лишь по косвенным признакам, что даёт в ряде случаев лишь приблизительную картину. В настоящей работе предпринята попытка объединения достоинств обоих подходов в рамках комплексного usability-тестирования, нацеленного на получение картины процессов, имеющих место в ходе человеко-машинного взаимодействия, максимально полной и максимально абстрагированной от влияния человеческого фактора в процессе его оценки. По мнению авторов, подобная методика особенно актуальна для GNU/Linux, не относящейся к числу платформ, <<«избалованных>>» полномасштабными usability-исследованиями. Материалы для тестирования пользователей (в особенности универсальные) и программное обеспечение, разработанное и используемое авторами в ходе работы, распространяются под свободной лицензией и доступны в репозитории проекта UXDump (\url{[https://bitbucket.org/AsyaAliset/uxdump}). \section{ UXDump]. === Метрики} === Список метрик, которые имеет смысл учитывать при проведении исследования, включает показатели результативности (время выполнения задания, ошибки, процент выполненных заданий), нагрузку (пульс, концентрацию внимания, фиксации взгляда) и впечатления респондентов (уровень ожиданий и уровень удовлетворения пользователя). Время и успешность выполнения задания~--- — одни из основных показателей, используются только в сравнении. Успешность выполнения кодируется в бинарном коде (выполнил/не выполнил). Проблемы, с которыми столкнулись пользователи, регистрируются как менеджером эксперимента, так и с помощью видео-захвата экрана. После тестирования проводится ретроспектива: с пользователем обсуждаются задания, вызвавшие проблемы, проигрывается запись, анализируется реакция и поведение в ходе теста. Это позволяет классифицировать проблемы, выявить более значимые для пользователя, рассчитать частотность проблем (сколько пользователей с ними столкнулись). Уровень ожидания отражает отношение пользователя к продукту и представляемую им комфортность работы, а уровень удовлетворения~--- — оценку удобства использования системы после прохождения теста. Эти метрики можно получить с помощью стандартных международных опросников System Usability Scale (SUS) и Post-Study System Usability Questionnaire (PSSUQ) \cite{sus, psuc}<ref name="cite-sus">''Sauro J.}'' Measuring usability with the system usability scale (SUS). \url{https://measuringu.com/sus/} Posted on February 2, [https://measuringu.com/sus/ https://measuringu.com/sus/] (2011-02-02).</ref>. Кроме этого, пользователям предлагается выбирать из списка эпитеты, которые могут описать их впечатления от программного продукта. Нагрузка может оцениваться в соответствии с опробованной ранее экспресс"=-методикой \cite{bstu16}<ref name="cite-2">Post-Study System Usability Questionnaire (PSSUQ). // UX Glossary \url{http://www.conetrees.com/2010/12/ux-glossary/post-study-system-usability-questionnaire-pssuq} Posted on December [http://www.conetrees.com/2010/12/ux-glossary/post-study-system-usability-questionnaire-pssuq http://www.conetrees.com/2010/12/ux-glossary/post-study-system-usability-questionnaire-pssuq] (2010-12-10).</ref>, по которой регистрируются быстрота выполнения заданий, физическая и умственная нагрузка, направление взгляда пользователя \cite{kaluga17}<ref name="cite-3">''Костюк Д.А., Латий О.О., Маркина А.А.}'' Подход к биометрической оценке эргономики графического интерфейса пользователя // Вестник Брестского государственного технического университета. Физика, математика, информатика.~---БрГТУ. ФМИ, 2016.~---, № 5(101), с.~--- С. 46--–49.</ref>. Для оценки концентрации внимания нами использовалась метрика <<«Attention>>» бытового энцефалографа Neurosky Mindwave, физическая нагрузка оценивалась по частоте сердечных сокращений (ЧСС), измеряемой фитнес-трекером, а для регистрации направления взгляда применялись айтрекеры фирмы Tobii. Сбор и первичная обработка данных выполнялись в параллельном режиме программной системой, разработанной в рамках проекта UXDump. \section{=== Методика проведения} === Проведение тестирования было разделено на следующие части: \begin{enumerate} \item \emph{# ''Составление сценария использования}использования'', включающего типовые задания для использования программного продукта с нарастающей сложностью, что позволяет отследить тенденцию обучаемости. Задания составляются исходя из опыта респондентов. \item \emph{# ''Набор участников}участников'' одной возрастной группы, имеющих сходный опыт работы с продуктами-аналогами. Оговаривается время проведения каждой стадии эксперимента. \item \emph{Инструктаж}# ''Инструктаж'' (приветствие, описание мероприятия, целей исследования, метрик и тестов, подписание соглашения на предоставление и обработку персональных данных). \item \emph{# ''Вводное интервью}интервью'' (заполнение анкеты участника, проверка уровня владения продуктами-аналогами, проведение психологических тестов~--- — в нашем случае теста Айзека на определение темперамента и теста Равена на уровень интеллекта). \item \emph{# ''Демонстрационный показ работы с продуктом}продуктом''. \item \emph{ # ''Ожидания от работы с продуктом}продуктом'' (заполняются опросники SUS, обсуждаются основные вопросы использования, особенности функционала). \item \emph{# ''Настройка системы}системы'' (в зависимости от имеющегося оборудования, подключение и калибровка биометрических датчиков, айтрекера, а также настройка видео-протоколирования и захвата видео с экрана). \item \emph{# ''Работа с продуктом}продуктом'' (выполнение тестовых заданий с ведением протокола менеджером, где фиксируются реакции пользователя). \item \emph{# ''Сбор итоговых впечатлений}впечатлений'' (заполняются опросники PSSUQ, проводится ретроспектива). \end{enumerate} Важно, что в ходе эксперимента менеджеры, регистрируя время и реакцию пользователей, не вмешиваются в ход выполнения заданий. В нашем случае менеджеры подбирались из круга респондентов, были с ними знакомы, что могло снизить стресс. Ответы на вопросы <<«Как это сделать?>>» должны быть расплывчаты («А как вы сами думаете?», «А что бы вы сделали в реальной жизни?»), т.~ к. это мотивирует респондента разбираться с системой и не смещает фокус. Также респонденты знают о видео-наблюдении, но внимание в ходе теста на этом не акцентируется. \section{=== Апробация на примере табличных процессоров} === Апробация методики выполнялась на задаче сравнения эргономики табличных процессоров, входящих в состав современных офисных пакетов. В качестве подопытных выступали студенты в возрасте 18--—19 лет, получающие техническое образование, которые имеют представление о табличном процессоре, но не используют его ежедневно. Для тестирования были выбраны Microsoft Excel 2016 и LibreOffice Calc 5.4.4. В тестировании участвовали 14 респондентов. Выбор был обоснован следующими соображениями: \begin{itemize} \item* современный табличный процессор является мощным приложением с развитым функционалом и сложными инструментальными средствами управления; \item* ограниченное владение подопытных приложениями данного типа позволяет оценить, как особенности интерфейса приложения влияют на освоение его функционала. \end{itemize} Заметим, что ленточные интерфейсы имеют опредённые преимущества для сложных приложений \<ref name="cite{bstu16}-2"></ref>. Но т.~ к. сравнение классических и ленточных интерфейсов чаще проводится на примере текстовых процессоров, представляет дополнительный интерес их сравнение на сложных задачах другого типа. Кроме того, интересно оценить и результативность переработки, которую претерпел Libreoffice Calc 5. В ходе вводного интервью три респондента были отсеяны по тесту Айзенка из-за низкой эмоциональной устойчивости и/или непреодоления порога достоверности теста, а один~-- — по тесту Равена, показавшему существенно отличающийся от остальных респондентов уровень интеллекта, не вписывающийся в средние показатели группы. Результаты снятия метрик приведены в таблице. Как можно заметить, работа в Calc проходила успешнее и быстрее, при меньшем уровне стресса. Анализ показал отсутствие изменений употребления негативных прилагательных при описании интерфейса Excel до и после эксперимента (8 случаев), в то время как для Calc таких случаев было 8 до эксперимента и 7 после. Для обоих пакетов заметна тенденция, когда респонденты чаще считали его более полезным и эффективным после тестирования, чем до. Мнение о простоте использования Excel в процессе работы снизилось на 67\%, а мнение о простоте использования Calc~--- — на 25\%. Аналогично можно сказать об оценках экономии времени при использовании пакета (Excel~--- — снижение на 60\%, Calc~--- — снижение на 50\%). При этом есть категория пользователей, полностью справившихся с тестом только в Calc. Основными проблемами, выявленными при при выполнении заданий в Excel оказались частое отсутствие корректных подсказок, сложный и запутанный поиск нужного функционала, неинтуитивность пользовательских настроек, низкая заметность элементов. При работе с Calc наблюдались проблемы заметности некоторых элементов управления и поиск имён функций по общему справочнику. Заметим также, что некоторые пользователи после работы с Excel нашли его <<«личным>>», <<«покровительствующим>>», <<«властным>>», <<«неконтролируемым>>» и <<«вызывающим смущение>>», а Calc~--- << — «высококачественным>>», <<«нетрадиционным>>», <<«насыщенным>>», <<«захватывающим>>», <<«вызывающим смущение>>», <<«ценным>>», и немного <<«разочаровывающим>>. {\tabcolsep=0.4em\footnotesize \begin{center} \begin{tabular}». {|l|c|c|} \hline ~ & \textbf{Excel} & \textbf{Calc} \\ \hline \multicolumn{ class="wikitable" ! || '''Excel''' || '''Calc''' |- ! colspan="3}{|c|}{\textbf{Результативность}} \\ \hline " | '''Результативность''' |- | Минимальное время выполнения всего теста & || 23 мин &|| 22 мин \\ \hline |- | Максимальное время выполнения всего теста &|| 1 ч 6 мин &|| 55 мин \\ \hline |- | Среднее время выполнения всего теста &|| 31 мин &|| 30 мин \\ \hline |- | Минимальное время выполнения одного задания &|| 20 сек &|| 15 сек \\ \hline |- | Максимальное время выполнения одного задания &|| 24 мин &|| 14,5 мин \\ \hline |- | Среднее время выполнения одного задания & || 2 мин &|| 1,5 мин \\ \hline |- | Сколько респондентов выполнили все задания &|| 14\% &|| 43\% \\ \hline |- | Наименьший процент выполненных заданий в тесте &|| 40\% &|| 50\% \\ \hline |- | Процент выполненных заданий теста &|| 80\% &|| 89\% \\ \hline \multicolumn{ |- ! colspan="3}{|c|}{\textbf{" | '''Физическая нагрузка}} \\ \hline нагрузка''' |- | Максимальная ЧСС &|| 162 уд/мин &|| 132 уд/мин \\ \hline |- | Минимальная ЧСС &|| 59 уд/мин &|| 74 уд/мин \\ \hline \multicolumn{ |- ! colspan="3}{|c|}{\textbf{" | '''Впечатления респондентов}} \\ \hline респондентов''' |- | Процент ожидания по SUS &|| 51\% &|| 52\% \\ \hline |- | Процент удовлетворения по PSSUQ & 64\% & 64\%\\ \hline || 64% || 64% |- | Рост тенденции (от ожидания к удовлетворению) & 16\% & 16\% \\ \hline \end{tabular} \end{center} } \begin{thebibliography}{9} \bibitem{sus} \textit{. \bibitem{psuc} , 2010. \bibitem{bstu16} \textit{|| 16% || 16% |} == Источники == <references /> * '' \bibitem{kaluga17} \textit{Дубицкий А., Костюк Д., Маркина А., Фомин С.}'' Применение айтрекеров для юзабилити-исследований в GNU/Linux // Четырнадцатая конференция разработчиков свободных программ: Тезисы докладов.~--- Калуга, 22--–24 сентября .09.2017 г. М.: Базальт СПО, 2017, с.~--- С. 36--–41. \end{thebibliography} </latex> {{LinksSection}} <!-- <blockquote>[©]</blockquote> --> {{fblink|2006609586258719}} {{vklink|1016}} <references/> [[File:{{#setmainimage:Подход к комплексному межгрупповому usability-тестированию для платформы GNU Linux (Анастасия Маркина, OSEDUCONF-2018)!.jpg}}|center|640px]] {{stats|disqus_comments=0|refresh_time=2021-08-31T17:52:56.686104|vimeo_plays=26|youtube_comments=0|youtube_plays=22}} [[Категория:OSEDUCONF-2018]] | |||
Версия 20:55, 19 октября 2025
- Докладчик
- Анастасия Маркина
В работе представлен комплексный подход к оценке эффективности взаимодействия пользователя с программным обеспечением на платформе GNU/Linux, включающий комбинированное использование методов психологического анализа и биометрического подхода. Используемые методы включают в себя прохождение тестов, заполнение опросников, протоколирование действий пользователя и коммуникативное взаимодействие с ним, а также измерение биометрических показателей. Приводятся разработанные на принципах свободного контента материалы, а также результаты апробации подхода на задаче сравнения свободных и коммерческих табличных процессоров.
Содержание
Видео
Посмотрели доклад? Понравился? Напишите комментарий! Не согласны? Тем более напишите.
Презентация
Thesis
Введение
Для измерения эффективности работы пользователя выделяют два принципиально различных подхода. В первом подходе активно используются экспертные оценки и самосообщаемые параметры; он не поддаётся значительной автоматизации и затратен по времени из-за опросов, хронометража и видеопротоколирования, больше подвержен влиянию человеческого фактора при обработке результатов. Также ряд параметров, таких как физическая нагрузка, может быть оценен лишь по косвенным признакам и самосообщаемым параметрам. Альтернативный подход предполагает экспресс-оценку состояния пользователя с помощью приборов, позволяющих регистрировать параметры, связанные с физической и когнитивной нагрузкой. Он также имеет ряд ограничений. Биометрические измерения предоставляют большой объем данных, поддающихся автоматической обработке, однако они позволяют оценивать эмоциональное состояние и когнитивные процессы лишь по косвенным признакам, что даёт в ряде случаев лишь приблизительную картину.
В настоящей работе предпринята попытка объединения достоинств обоих подходов в рамках комплексного usability-тестирования, нацеленного на получение картины процессов, имеющих место в ходе человеко-машинного взаимодействия, максимально полной и максимально абстрагированной от влияния человеческого фактора в процессе его оценки. По мнению авторов, подобная методика особенно актуальна для GNU/Linux, не относящейся к числу платформ, «избалованных» полномасштабными usability-исследованиями. Материалы для тестирования пользователей (в особенности универсальные) и программное обеспечение, разработанное и используемое авторами в ходе работы, распространяются под свободной лицензией и доступны в репозитории проекта UXDump.
Метрики
Список метрик, которые имеет смысл учитывать при проведении исследования, включает показатели результативности (время выполнения задания, ошибки, процент выполненных заданий), нагрузку (пульс, концентрацию внимания, фиксации взгляда) и впечатления респондентов (уровень ожиданий и уровень удовлетворения пользователя). Время и успешность выполнения задания — одни из основных показателей, используются только в сравнении. Успешность выполнения кодируется в бинарном коде (выполнил/не выполнил).
Проблемы, с которыми столкнулись пользователи, регистрируются как менеджером эксперимента, так и с помощью видео-захвата экрана. После тестирования проводится ретроспектива: с пользователем обсуждаются задания, вызвавшие проблемы, проигрывается запись, анализируется реакция и поведение в ходе теста. Это позволяет классифицировать проблемы, выявить более значимые для пользователя, рассчитать частотность проблем (сколько пользователей с ними столкнулись).
Уровень ожидания отражает отношение пользователя к продукту и представляемую им комфортность работы, а уровень удовлетворения — оценку удобства использования системы после прохождения теста. Эти метрики можно получить с помощью стандартных международных опросников System Usability Scale (SUS) и Post-Study System Usability Questionnaire (PSSUQ) [1]. Кроме этого, пользователям предлагается выбирать из списка эпитеты, которые могут описать их впечатления от программного продукта.
Нагрузка может оцениваться в соответствии с опробованной ранее экспресс-методикой [2], по которой регистрируются быстрота выполнения заданий, физическая и умственная нагрузка, направление взгляда пользователя [3]. Для оценки концентрации внимания нами использовалась метрика «Attention» бытового энцефалографа Neurosky Mindwave, физическая нагрузка оценивалась по частоте сердечных сокращений (ЧСС), измеряемой фитнес-трекером, а для регистрации направления взгляда применялись айтрекеры фирмы Tobii. Сбор и первичная обработка данных выполнялись в параллельном режиме программной системой, разработанной в рамках проекта UXDump.
Методика проведения
Проведение тестирования было разделено на следующие части:
- Составление сценария использования, включающего типовые задания для использования программного продукта с нарастающей сложностью, что позволяет отследить тенденцию обучаемости. Задания составляются исходя из опыта респондентов.
- Набор участников одной возрастной группы, имеющих сходный опыт работы с продуктами-аналогами. Оговаривается время проведения каждой стадии эксперимента.
- Инструктаж (приветствие, описание мероприятия, целей исследования, метрик и тестов, подписание соглашения на предоставление и обработку персональных данных).
- Вводное интервью (заполнение анкеты участника, проверка уровня владения продуктами-аналогами, проведение психологических тестов — в нашем случае теста Айзека на определение темперамента и теста Равена на уровень интеллекта).
- Демонстрационный показ работы с продуктом.
- Ожидания от работы с продуктом (заполняются опросники SUS, обсуждаются основные вопросы использования, особенности функционала).
- Настройка системы (в зависимости от имеющегося оборудования, подключение и калибровка биометрических датчиков, айтрекера, а также настройка видео-протоколирования и захвата видео с экрана).
- Работа с продуктом (выполнение тестовых заданий с ведением протокола менеджером, где фиксируются реакции пользователя).
- Сбор итоговых впечатлений (заполняются опросники PSSUQ, проводится ретроспектива).
Важно, что в ходе эксперимента менеджеры, регистрируя время и реакцию пользователей, не вмешиваются в ход выполнения заданий. В нашем случае менеджеры подбирались из круга респондентов, были с ними знакомы, что могло снизить стресс. Ответы на вопросы «Как это сделать?» должны быть расплывчаты («А как вы сами думаете?», «А что бы вы сделали в реальной жизни?»), т. к. это мотивирует респондента разбираться с системой и не смещает фокус. Также респонденты знают о видео-наблюдении, но внимание в ходе теста на этом не акцентируется.
Апробация на примере табличных процессоров
Апробация методики выполнялась на задаче сравнения эргономики табличных процессоров, входящих в состав современных офисных пакетов. В качестве подопытных выступали студенты в возрасте 18—19 лет, получающие техническое образование, которые имеют представление о табличном процессоре, но не используют его ежедневно. Для тестирования были выбраны Microsoft Excel 2016 и LibreOffice Calc 5.4.4. В тестировании участвовали 14 респондентов.
Выбор был обоснован следующими соображениями:
- современный табличный процессор является мощным приложением с развитым функционалом и сложными инструментальными средствами управления;
- ограниченное владение подопытных приложениями данного типа позволяет оценить, как особенности интерфейса приложения влияют на освоение его функционала.
Заметим, что ленточные интерфейсы имеют опредённые преимущества для сложных приложений [2]. Но т. к. сравнение классических и ленточных интерфейсов чаще проводится на примере текстовых процессоров, представляет дополнительный интерес их сравнение на сложных задачах другого типа. Кроме того, интересно оценить и результативность переработки, которую претерпел Libreoffice Calc 5.
В ходе вводного интервью три респондента были отсеяны по тесту Айзенка из-за низкой эмоциональной устойчивости и/или непреодоления порога достоверности теста, а один — по тесту Равена, показавшему существенно отличающийся от остальных респондентов уровень интеллекта, не вписывающийся в средние показатели группы.
Результаты снятия метрик приведены в таблице. Как можно заметить, работа в Calc проходила успешнее и быстрее, при меньшем уровне стресса. Анализ показал отсутствие изменений употребления негативных прилагательных при описании интерфейса Excel до и после эксперимента (8 случаев), в то время как для Calc таких случаев было 8 до эксперимента и 7 после. Для обоих пакетов заметна тенденция, когда респонденты чаще считали его более полезным и эффективным после тестирования, чем до. Мнение о простоте использования Excel в процессе работы снизилось на 67%, а мнение о простоте использования Calc — на 25%. Аналогично можно сказать об оценках экономии времени при использовании пакета (Excel — снижение на 60%, Calc — снижение на 50%). При этом есть категория пользователей, полностью справившихся с тестом только в Calc.
Основными проблемами, выявленными при при выполнении заданий в Excel оказались частое отсутствие корректных подсказок, сложный и запутанный поиск нужного функционала, неинтуитивность пользовательских настроек, низкая заметность элементов. При работе с Calc наблюдались проблемы заметности некоторых элементов управления и поиск имён функций по общему справочнику. Заметим также, что некоторые пользователи после работы с Excel нашли его «личным», «покровительствующим», «властным», «неконтролируемым» и «вызывающим смущение», а Calc — «высококачественным», «нетрадиционным», «насыщенным», «захватывающим», «вызывающим смущение», «ценным», и немного «разочаровывающим».
| Excel | Calc | |
|---|---|---|
| Результативность | ||
| Минимальное время выполнения всего теста | 23 мин | 22 мин |
| Максимальное время выполнения всего теста | 1 ч 6 мин | 55 мин |
| Среднее время выполнения всего теста | 31 мин | 30 мин |
| Минимальное время выполнения одного задания | 20 сек | 15 сек |
| Максимальное время выполнения одного задания | 24 мин | 14,5 мин |
| Среднее время выполнения одного задания | 2 мин | 1,5 мин |
| Сколько респондентов выполнили все задания | 14% | 43% |
| Наименьший процент выполненных заданий в тесте | 40% | 50% |
| Процент выполненных заданий теста | 80% | 89% |
| Физическая нагрузка | ||
| Максимальная ЧСС | 162 уд/мин | 132 уд/мин |
| Минимальная ЧСС | 59 уд/мин | 74 уд/мин |
| Впечатления респондентов | ||
| Процент ожидания по SUS | 51% | 52% |
| Процент удовлетворения по PSSUQ | 64% | 64% |
| Рост тенденции (от ожидания к удовлетворению) | 16% | 16% |
Источники
- ↑ Sauro J. Measuring usability with the system usability scale (SUS). https://measuringu.com/sus/ (2011-02-02).
- ↑ 2,0 2,1 Post-Study System Usability Questionnaire (PSSUQ). // UX Glossary http://www.conetrees.com/2010/12/ux-glossary/post-study-system-usability-questionnaire-pssuq (2010-12-10).
- ↑ Костюк Д.А., Латий О.О., Маркина А.А. Подход к биометрической оценке эргономики графического интерфейса пользователя // Вестник БрГТУ. ФМИ, 2016, № 5(101), с. 46–49.
- Дубицкий А., Костюк Д., Маркина А., Фомин С. Применение айтрекеров для юзабилити-исследований в GNU/Linux // Четырнадцатая конференция разработчиков свободных программ: Тезисы докладов. Калуга, 22–24.09.2017. М.: Базальт СПО, 2017, с. 36–41.
Примечания и ссылки
Plays:48 Comments:0

