Классификация опухолевых клеток с использованием моделей машинного обучения в среде Альт Линукc (Игорь Воронин, OSEDUCONF-2023) — различия между версиями

Материал из 0x1.tv

('вывод из драфт')
 
;{{SpeakerInfo}}: {{Speaker|Игорь Воронин}}
<blockquote>
Спектроскопия комбинационного рассеяния (также известная как рамановская)  — метод, который успешно используется в химии для получения структурных «отпечатков пальцев». 

<i>

''Колебательная спектроскопия</i>спектроскопия'' дает ключевую информацию о структуре <i>молекул</i>''молекул''. 
В результате полученных спектрограмм, можно анализировать и делать выводы о состоянии биологической ткани — методами машинного обучения. 

Для успешной борьбы с раковой опухолью  очень важно обнаружить все раковые клетки на ранних
этапах, даже те, которые находятся вне очевидных границ опухоли и являются труднодиагностируемыми. Цель
диагностического поиска  —  своевременно обнаружить и выбрать тот способ лечения, который бы позволил  удалить 100 %
опасных клеток и минимизировать риск рецидива заболевания.  В связи с этим большую важность имеют разнообразные
методики классификации тканей. В частности, можно проводить биопсию исследуемой области, получать небольшой образец
ткани, а потом анализировать его спектрограмму.
</blockquote>

{{VideoSection}}
{{vimeoembed|909009755|800|450}}
{{youtubelink|tHTSvv6fZEY}}
{{SlidesSection}}
[[File:Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf|left|page=-|300px]]

{{----}}

== Thesis ==

<b>'''Исходные данные</b>данные''' В данной работе была рассмотрена задача бинарной классификации с классами «больные» и
«здоровые» образцы биологических тканей. Для обучения и тестирования виртуальной модели были использованы 888
спектрограммы, из которых 456 принадлежат классу «больные»  и 432 принадлежат классу «здоровые».  Работа выполнялась на
сервер astera.laser.ru (ИПЛИТ РАН, Шатура) в операционной среде ALT Server 10.1 (FalcoRusticolus), Python 3.9.6, Docker
version 20.10.11, ядро Linux astera 5.10.131-std-def-alt1

Визуализация типовой спектрограммы:

[[File:2023-catbusting-img001.png|center|640px]]

Архитектура модели и результаты:

[[File:2023-catbusting-img002.png|center|640px]]

В качестве базовых моделей использовались: градиентный бустинг, логистическая регрессия и KNeighbors классификаторы,
реализованные в библиотеках LightGBM и SKLearn. После того как эти 3 базовых классификатора делают свои прогнозы,
прогнозы усредняются. Благодаря тому, что выбраны классификаторы с разными принципами работы, корреляция между их
прогнозами не слишком высока, что позволяет получать ощутимое улучшение точности после усреднения.

<b>Обучение</b>'''Обучение''': train датасет используется для обучения 3 базовых классификаторов независимо друг от друга.

<b>Валидация</b>'''Валидация''': Используется кросс-валидация с n_folds = 5, на каждом шаге модель обучается на <m>\frac45</m> датасета и
проверяется на оставшейся <m>\frac15</m> части. Итоговая точность вычисляется как среднее арифметическое от точности каждого
шага.

<b>Результаты</b>'''Результаты''': На кросс-валидации удалось получить точность 97.,6 %. Использование популярных фреймворков
(LightGBM, SKLearn и NumPy) позволяет создавать приложение для классификации для любой операционной системы.

* Marco Riva et al, Glioma biopsies classification using raman spectroscopy and machine learning models o fresh tissue samples, [https://www.mdpi.com/2072-6694/13/5/1073/htm]
* Jason Brownlee, Stacking ensemble machine learning with Python, [https://machinelearningmastery.com/stacking-ensemble-machine-learning-with-python/]
* Сервер для дистанционной обработки спектрограмм [http://astera.laser.ru:8888/tree].



{{----}}
[[File:{{#setmainimage:Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023)!.jpg}}|center|640px]]
{{LinksSection}}
<!-- <blockquote>[©]</blockquote> -->

<references/>

[[Категория:OSEDUCONF-2023]]
[[Категория:DraftMachine Learning]]
[[Категория:СПОALT Linux в образовании]]

Текущая версия на 15:27, 2 марта 2026

Докладчик
Игорь Воронин.jpg
Игорь Воронин

Спектроскопия комбинационного рассеяния (также известная как рамановская) — метод, который успешно используется в химии для получения структурных «отпечатков пальцев».

Колебательная спектроскопия дает ключевую информацию о структуре молекул. В результате полученных спектрограмм, можно анализировать и делать выводы о состоянии биологической ткани — методами машинного обучения.

Для успешной борьбы с раковой опухолью очень важно обнаружить все раковые клетки на ранних этапах, даже те, которые находятся вне очевидных границ опухоли и являются труднодиагностируемыми. Цель диагностического поиска — своевременно обнаружить и выбрать тот способ лечения, который бы позволил удалить 100 % опасных клеток и минимизировать риск рецидива заболевания. В связи с этим большую важность имеют разнообразные методики классификации тканей. В частности, можно проводить биопсию исследуемой области, получать небольшой образец ткани, а потом анализировать его спектрограмму.

Видео[править вики-текст]

on youtube

Презентация[править вики-текст]

Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023).pdf

Thesis[править | править вики-текст]

Исходные данные В данной работе была рассмотрена задача бинарной классификации с классами «больные» и «здоровые» образцы биологических тканей. Для обучения и тестирования виртуальной модели были использованы 888 спектрограммы, из которых 456 принадлежат классу «больные» и 432 принадлежат классу «здоровые». Работа выполнялась на сервер astera.laser.ru (ИПЛИТ РАН, Шатура) в операционной среде ALT Server 10.1 (FalcoRusticolus), Python 3.9.6, Docker version 20.10.11, ядро Linux astera 5.10.131-std-def-alt1

Визуализация типовой спектрограммы:

2023-catbusting-img001.png

Архитектура модели и результаты:

2023-catbusting-img002.png

В качестве базовых моделей использовались: градиентный бустинг, логистическая регрессия и KNeighbors классификаторы, реализованные в библиотеках LightGBM и SKLearn. После того как эти 3 базовых классификатора делают свои прогнозы, прогнозы усредняются. Благодаря тому, что выбраны классификаторы с разными принципами работы, корреляция между их прогнозами не слишком высока, что позволяет получать ощутимое улучшение точности после усреднения.

Обучение: train датасет используется для обучения 3 базовых классификаторов независимо друг от друга.

Валидация: Используется кросс-валидация с n_folds = 5, на каждом шаге модель обучается на датасета и проверяется на оставшейся части. Итоговая точность вычисляется как среднее арифметическое от точности каждого шага.

Результаты: На кросс-валидации удалось получить точность 97,6 %. Использование популярных фреймворков (LightGBM, SKLearn и NumPy) позволяет создавать приложение для классификации для любой операционной системы.

  • Marco Riva et al, Glioma biopsies classification using raman spectroscopy and machine learning models o fresh tissue samples, [1]
  • Jason Brownlee, Stacking ensemble machine learning with Python, [2]
  • Сервер для дистанционной обработки спектрограмм [3].


Использование СПО в разработке учебных моделей систем определения местоположения (OSEDUCONF-2023)!.jpg

Примечания и ссылки[править вики-текст]