Классификация опухолевых клеток с использованием моделей машинного обучения в среде Альт Линукc (Игорь Воронин, OSEDUCONF-2023) — различия между версиями

Материал из 0x1.tv

;{{SpeakerInfo}}: {{Speaker|Игорь Воронин}}
<blockquote>
Спектроскопия комбинационного рассеяния (также известная как рамановская)   метод, который успешно используется в химии для получения структурных «отпечатков пальцев». 

<i>Колебательная спектроскопия</i> дает ключевую информацию о структуре <i>молекул</i>. 
В результате полученных спектрограмм, можно анализировать и делать выводы о состоянии биологической ткани  методами машинного обучения. 

Для успешной борьбы с раковой опухолью  очень важно обнаружить все раковые клетки на ранних
этапах, даже те, которые находятся вне очевидных границ опухоли и являются труднодиагностируемыми. Цель
диагностического поиска    своевременно обнаружить и выбрать тот способ лечения, который бы позволил  удалить 100%
опасных клеток и минимизировать риск рецидива заболевания.  В связи с этим большую важность имеют разнообразные
методики классификации тканей. В частности, можно проводить биопсию исследуемой области, получать небольшой образец
ткани, а потом анализировать его спектрограмму.
</blockquote>

{{VideoSection}}

{{vimeoembed||800|450}}
{{youtubelink|}}

{{SlidesSection}}
[[File:Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf|left|page=-|300px]]

{{----}}

== Thesis ==

<b>Исходные данные</b> В данной работе была рассмотрена задача бинарной классификации с классами “больные” и
“здоровые” образцы биологических тканей. Для обучения и тестирования виртуальной модели были использованы 888
спектрограммы, из которых 456 принадлежат классу “больные”  и 432 принадлежат классу “здоровые”.  Работа выполнялась на
сервер astera.laser.ru (ИПЛИТ РАН, Шатура) в операционной среде ALT Server 10.1 (FalcoRusticolus), Python 3.9.6, Docker
version 20.10.11, ядро Linux astera 5.10.131-std-def-alt1

Визуализация типовой спектрограммы:

[[File:2023-catbusting-img001.png|center|640px]]

Архитектура модели и результаты:

[[File:2023-catbusting-img002.png|center|640px]]

В качестве базовых моделей использовались: градиентный бустинг, логистическая регрессия и KNeighbors классификаторы,
реализованные в библиотеках LightGBM и SKLearn. После того как эти 3 базовых классификатора делают свои прогнозы,
прогнозы усредняются. Благодаря тому, что выбраны классификаторы с разными принципами работы, корреляция между их
прогнозами не слишком высока, что позволяет получать ощутимое улучшение точности после усреднения.

<b>Обучение</b>: train датасет используется для обучения 3 базовых классификаторов независимо друг от друга.

<b>Валидация</b>: Используется кросс-валидация с n_folds = 5, на каждом шаге модель обучается на <m>\frac45</m> датасета и
проверяется на оставшейся <m>\frac15</m> части. Итоговая точность вычисляется как среднее арифметическое от точности каждого
шага.

<b>Результаты</b>: На кросс-валидации удалось получить точность 97.6%. Использование популярных фреймворков
(LightGBM, SKLearn и NumPy) позволяет создавать приложение для классификации для любой операционной системы.

* Marco Riva et al, Glioma biopsies classification using raman spectroscopy and machine learning models o fresh tissue samples, [https://www.mdpi.com/2072-6694/13/5/1073/htm]
* Jason Brownlee, Stacking ensemble machine learning with Python, [https://machinelearningmastery.com/stacking-ensemble-machine-learning-with-python/]
* Сервер для дистанционной обработки спектрограмм [http://astera.laser.ru:8888/tree].



{{----}}
[[File:{{#setmainimage:Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023)!.jpg}}|center|640px]]
{{LinksSection}}
<!-- <blockquote>[©]</blockquote> -->

<references/>

[[Категория:OSEDUCONF-2023]]
[[Категория:Draft]]
[[Категория:СПО в образовании]]

Версия 19:08, 18 января 2024

Докладчик
Игорь Воронин.jpg
Игорь Воронин

Спектроскопия комбинационного рассеяния (также известная как рамановская) — метод, который успешно используется в химии для получения структурных «отпечатков пальцев».

Колебательная спектроскопия дает ключевую информацию о структуре молекул. В результате полученных спектрограмм, можно анализировать и делать выводы о состоянии биологической ткани — методами машинного обучения.

Для успешной борьбы с раковой опухолью очень важно обнаружить все раковые клетки на ранних этапах, даже те, которые находятся вне очевидных границ опухоли и являются труднодиагностируемыми. Цель диагностического поиска — своевременно обнаружить и выбрать тот способ лечения, который бы позволил удалить 100% опасных клеток и минимизировать риск рецидива заболевания. В связи с этим большую важность имеют разнообразные методики классификации тканей. В частности, можно проводить биопсию исследуемой области, получать небольшой образец ткани, а потом анализировать его спектрограмму.

Видео

Презентация

Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf

Thesis

Исходные данные В данной работе была рассмотрена задача бинарной классификации с классами “больные” и “здоровые” образцы биологических тканей. Для обучения и тестирования виртуальной модели были использованы 888 спектрограммы, из которых 456 принадлежат классу “больные” и 432 принадлежат классу “здоровые”. Работа выполнялась на сервер astera.laser.ru (ИПЛИТ РАН, Шатура) в операционной среде ALT Server 10.1 (FalcoRusticolus), Python 3.9.6, Docker version 20.10.11, ядро Linux astera 5.10.131-std-def-alt1

Визуализация типовой спектрограммы:

2023-catbusting-img001.png

Архитектура модели и результаты:

2023-catbusting-img002.png

В качестве базовых моделей использовались: градиентный бустинг, логистическая регрессия и KNeighbors классификаторы, реализованные в библиотеках LightGBM и SKLearn. После того как эти 3 базовых классификатора делают свои прогнозы, прогнозы усредняются. Благодаря тому, что выбраны классификаторы с разными принципами работы, корреляция между их прогнозами не слишком высока, что позволяет получать ощутимое улучшение точности после усреднения.

Обучение: train датасет используется для обучения 3 базовых классификаторов независимо друг от друга.

Валидация: Используется кросс-валидация с n_folds = 5, на каждом шаге модель обучается на датасета и проверяется на оставшейся части. Итоговая точность вычисляется как среднее арифметическое от точности каждого шага.

Результаты: На кросс-валидации удалось получить точность 97.6%. Использование популярных фреймворков (LightGBM, SKLearn и NumPy) позволяет создавать приложение для классификации для любой операционной системы.

  • Marco Riva et al, Glioma biopsies classification using raman spectroscopy and machine learning models o fresh tissue samples, [1]
  • Jason Brownlee, Stacking ensemble machine learning with Python, [2]
  • Сервер для дистанционной обработки спектрограмм [3].


Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023)!.jpg

Примечания и ссылки