Классификация опухолевых клеток с использованием моделей машинного обучения в среде Альт Линукc (Игорь Воронин, OSEDUCONF-2023) — различия между версиями
Материал из 0x1.tv
StasFomin (обсуждение | вклад) |
StasFomin (обсуждение | вклад) |
||
;{{SpeakerInfo}}: {{Speaker|Игорь Воронин}} <blockquote> Спектроскопия комбинационного рассеяния (также известная как рамановская) — метод, который успешно используется в химии для получения структурных «отпечатков пальцев». <i>Колебательная спектроскопия</i> дает ключевую информацию о структуре <i>молекул</i>. В результате полученных спектрограмм, можно анализировать и делать выводы о состоянии биологической ткани — методами машинного обучения. Для успешной борьбы с раковой опухолью очень важно обнаружить все раковые клетки на ранних этапах, даже те, которые находятся вне очевидных границ опухоли и являются труднодиагностируемыми. Цель диагностического поиска — своевременно обнаружить и выбрать тот способ лечения, который бы позволил удалить 100% опасных клеток и минимизировать риск рецидива заболевания. В связи с этим большую важность имеют разнообразные методики классификации тканей. В частности, можно проводить биопсию исследуемой области, получать небольшой образец ткани, а потом анализировать его спектрограмму. </blockquote> {{VideoSection}} {{vimeoembed||800|450}} {{youtubelink|}} {{SlidesSection}} [[File:Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf|left|page=-|300px]] {{----}} == Thesis == <b>Исходные данные</b> В данной работе была рассмотрена задача бинарной классификации с классами “больные” и “здоровые” образцы биологических тканей. Для обучения и тестирования виртуальной модели были использованы 888 спектрограммы, из которых 456 принадлежат классу “больные” и 432 принадлежат классу “здоровые”. Работа выполнялась на сервер astera.laser.ru (ИПЛИТ РАН, Шатура) в операционной среде ALT Server 10.1 (FalcoRusticolus), Python 3.9.6, Docker version 20.10.11, ядро Linux astera 5.10.131-std-def-alt1 Визуализация типовой спектрограммы: [[File:2023-catbusting-img001.png|center|640px]] Архитектура модели и результаты: [[File:2023-catbusting-img002.png|center|640px]] В качестве базовых моделей использовались: градиентный бустинг, логистическая регрессия и KNeighbors классификаторы, реализованные в библиотеках LightGBM и SKLearn. После того как эти 3 базовых классификатора делают свои прогнозы, прогнозы усредняются. Благодаря тому, что выбраны классификаторы с разными принципами работы, корреляция между их прогнозами не слишком высока, что позволяет получать ощутимое улучшение точности после усреднения. <b>Обучение</b>: train датасет используется для обучения 3 базовых классификаторов независимо друг от друга. <b>Валидация</b>: Используется кросс-валидация с n_folds = 5, на каждом шаге модель обучается на <m>\frac45</m> датасета и проверяется на оставшейся <m>\frac15</m> части. Итоговая точность вычисляется как среднее арифметическое от точности каждого шага. <b>Результаты</b>: На кросс-валидации удалось получить точность 97.6%. Использование популярных фреймворков (LightGBM, SKLearn и NumPy) позволяет создавать приложение для классификации для любой операционной системы. * Marco Riva et al, Glioma biopsies classification using raman spectroscopy and machine learning models o fresh tissue samples, [https://www.mdpi.com/2072-6694/13/5/1073/htm] * Jason Brownlee, Stacking ensemble machine learning with Python, [https://machinelearningmastery.com/stacking-ensemble-machine-learning-with-python/] * Сервер для дистанционной обработки спектрограмм [http://astera.laser.ru:8888/tree]. {{----}} [[File:{{#setmainimage:Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023)!.jpg}}|center|640px]] {{LinksSection}} <!-- <blockquote>[©]</blockquote> --> <references/> [[Категория:OSEDUCONF-2023]] [[Категория:Draft]] [[Категория:СПО в образовании]] |
Версия 19:08, 18 января 2024
- Докладчик
- Игорь Воронин
Спектроскопия комбинационного рассеяния (также известная как рамановская) — метод, который успешно используется в химии для получения структурных «отпечатков пальцев».
Колебательная спектроскопия дает ключевую информацию о структуре молекул. В результате полученных спектрограмм, можно анализировать и делать выводы о состоянии биологической ткани — методами машинного обучения.
Для успешной борьбы с раковой опухолью очень важно обнаружить все раковые клетки на ранних этапах, даже те, которые находятся вне очевидных границ опухоли и являются труднодиагностируемыми. Цель диагностического поиска — своевременно обнаружить и выбрать тот способ лечения, который бы позволил удалить 100% опасных клеток и минимизировать риск рецидива заболевания. В связи с этим большую важность имеют разнообразные методики классификации тканей. В частности, можно проводить биопсию исследуемой области, получать небольшой образец ткани, а потом анализировать его спектрограмму.
Содержание
Видео
Презентация
Thesis
Исходные данные В данной работе была рассмотрена задача бинарной классификации с классами “больные” и “здоровые” образцы биологических тканей. Для обучения и тестирования виртуальной модели были использованы 888 спектрограммы, из которых 456 принадлежат классу “больные” и 432 принадлежат классу “здоровые”. Работа выполнялась на сервер astera.laser.ru (ИПЛИТ РАН, Шатура) в операционной среде ALT Server 10.1 (FalcoRusticolus), Python 3.9.6, Docker version 20.10.11, ядро Linux astera 5.10.131-std-def-alt1
Визуализация типовой спектрограммы:
Архитектура модели и результаты:
В качестве базовых моделей использовались: градиентный бустинг, логистическая регрессия и KNeighbors классификаторы, реализованные в библиотеках LightGBM и SKLearn. После того как эти 3 базовых классификатора делают свои прогнозы, прогнозы усредняются. Благодаря тому, что выбраны классификаторы с разными принципами работы, корреляция между их прогнозами не слишком высока, что позволяет получать ощутимое улучшение точности после усреднения.
Обучение: train датасет используется для обучения 3 базовых классификаторов независимо друг от друга.
Валидация: Используется кросс-валидация с n_folds = 5, на каждом шаге модель обучается на датасета и проверяется на оставшейся части. Итоговая точность вычисляется как среднее арифметическое от точности каждого шага.
Результаты: На кросс-валидации удалось получить точность 97.6%. Использование популярных фреймворков (LightGBM, SKLearn и NumPy) позволяет создавать приложение для классификации для любой операционной системы.
- Marco Riva et al, Glioma biopsies classification using raman spectroscopy and machine learning models o fresh tissue samples, [1]
- Jason Brownlee, Stacking ensemble machine learning with Python, [2]
- Сервер для дистанционной обработки спектрограмм [3].