Введение.
Метод перебора конъюнкций в проблеме структурного анализ многомерных данных (на примере решения медицинских задач)
Если обнаружатся сочетания симптомов, характерные для больных с плохим исходом (DТ1-? DТ2-), отличные от группы с хорошим исходом (DТ1+? DТ2+), то тем самым, могут определиться факторы плохого прогноза, вне зависимости от предлагаемых методов лечения. Если удастся выявить закономерности, различающие гр. (DТ1+) и гр. (DТ1-), то можно будет сформулировать показания и противопоказания к применению… Читать ещё >
Введение. Метод перебора конъюнкций в проблеме структурного анализ многомерных данных (на примере решения медицинских задач) (реферат, курсовая, диплом, контрольная)
В настоящее время в арсенале методов анализа данных широко используются различные программные продукты: статистические пакеты, нейросети, так называемые эволюционные методы, алгоритмы поиска логических закономерностей и др. [Дюк, 2001]. Такие компьютерные разработки представляют собой «инструмент» для анализа данных. Основная их задача — обеспечить корректность анализа, учитывая особенности медицинских данных (многообразие проявления заболевания, наличие большого количества пропущенных данных, их зашумленность и т. д.).
Необходимым свойством данной группы аналитических разработок является их «прозрачность», которая позволяет исследователю контролировать процесс формирования знаний, иметь возможность получать промежуточные результаты, менять параметры анализа, получать конечные результаты в виде, удобном для интерпретации, и т. п.
В настоящей работе рассматривается один из методов структурного анализа данных, основанный на методе перебора конъюнкций (МПК).
Преамбула
Рассмотрим некоторую упрощенную, но реальную клиническую ситуацию, на примере которой можно будет продемонстрировать необходимость исследования логических связей признаков в различных группах пациентов. (Признаки — перечень свойств, общих для всех объектов в группе исследования. Объект может принимать одно (или несколько) значений из предусмотренных для каждого признака. Каждое значение признака принято называть симптомом.).
Пусть имеется две группы больных с одним и тем же установленным диагнозом, состоящие из N1 и N2 объектов соответственно. Больным в первой группе (N1) назначался метод лечения T1, а в другой (N2) — метод T2. Требуется дать оценку эффективности каждого из этих методов лечения для данной категории больных.
Что понимать под эффективностью лечения — процент ли выздоровевших, доля ли больных, у которых наступило улучшение, пяти-, десятилетнюю выживаемость, или какой-либо другой критерий «хорошего исхода», в данном случае, не столь уж важно. Желательно только, чтобы оценка эффективности была, по возможности, объективной.
После введения критерия «хорошего исхода» группы больных разделяются на тех, для которых метод T1 хорош (Т1+), и на тех, для которых он плох (Т1-); и аналогично метод лечения T2 — для некоторых больных хорош (Т2+), а для некоторых — плох (Т2-). На рис. 1 представлена схема возможного распределения состава групп больных и их количеств в группах, получивших сравниваемые методы лечения.
Объекты исследования. D: {DТ1? DТ2}. (смешанные группы больных, получившие лечение Т1 или Т2). | Т1+ Т1+ Т2+ Т1- Т2- Т2+ Т1+ Т2+ Т1- Т2- Т1- Т2- Т2+ Т1+ Т2+ Т1- Т2- Т2- Т1- Т2- Т1- Т1- Т2- Т1- Т1- Т1- Т1- Т1+ Т2+ … … Т2+ Т1+ Т2+ Т1- Т2+ Т2+ Т1+ Т2+ Т1- Т1. | ||||
Состав групп. (после введения критерия фективности). | Т1. | Т2. | |||
DТ1 = {DТ1+? DТ1- }. | DТ2 = {DТ2+? DТ2- }. | ||||
Кол-во объектов. N = NТ1 + NТ2. | NТ1. | NТ2. | |||
Кол-во и состав Групп по эффект-ти. | NТ1+ (DТ1+). | NТ1- (DТ1-) | N Т2+ (DТ2+). | N Т2- (DТ2-). | |
Рис. 1 Распределение объектов по группам сравнения
D — объединенный состав больных {DТ1? DТ2}, т. е. получивших один из методов лечения (Т1 или Т2) и имеющих либо хороший исход (DТ1+ или DТ2+), либо плохой (DТ1- или DТ2-);
DТ1 — состав больных, получивших Т1;
DТ2 — состав больных, получивших Т2;
DТ1+ — состав больных из группы Т1, имеющих «хороший исход»;
DТ1- — состав больных из группы Т1, имеющих «плохой исход»;
DТ2+ — состав больных, из группы Т2, имеющих «хороший исход»;
DТ2- — состав больных из группы Т2, имеющих «плохой исход»;
N — общее количество больных, участвующих в исследовании, т. е., N = NТ1 + NТ2;
NТ1 — количество больных, получивших метод лечения Т1;
NТ2 — количество больных, получивших метод лечения Т2;
NТ1+ — количество больных в группе DТ1+ ;
NТ1- — количество больных в группе DТ1-;
NТ2+ — количество больных в группе DТ2+ ;
NТ2- — количество больных в группе DТ1-.
Для того чтобы оценить эффективность лечения, необходимо не только сказать, какой из этих методов дает лучший результат на всем материале исследования, но и среди признаков, описывающих объекты (больных), найти такие сочетания симптомов, которые, возможно, определяют хороший и плохой исход и при T1, и при T2. Иными словами, сформулировать показания и противопоказания к использованию каждого из сравниваемых методов лечения. (При этом предполагается, что в списке признаков содержатся такие, которые имеют отношение к оценке состояния больных).
Важно выяснить также существуют ли закономерности, общие для хорошего (или плохого) исходов и при T1, и при T2. В этом случае, обнаруженные закономерности могут определить хороший и плохой прогноз вне зависимости от выбранного метода лечения. Выделение таких групп очень важная задача, так как очевидно, что оценивать эффективность применения какого-либо метода лечения (или препарата) в группе с плохим прогнозом нельзя по тем же критериям, что и в группе с хорошим прогнозом. Так, в рассматриваемом примере представляет интерес рассмотреть и сопоставить связи признаков (симптомов) в следующих парах групп: (DТ1+? DТ2+) и (DТ1-? DТ2-); (DТ1+) и (DТ1-); (DТ2+) и (DТ2-); а также (DТ1) и (DТ2).
Если обнаружатся сочетания симптомов, характерные для больных с плохим исходом (DТ1-? DТ2-), отличные от группы с хорошим исходом (DТ1+? DТ2+), то тем самым, могут определиться факторы плохого прогноза, вне зависимости от предлагаемых методов лечения. Если удастся выявить закономерности, различающие гр. (DТ1+) и гр. (DТ1-), то можно будет сформулировать показания и противопоказания к применению метода T1. Аналогично, при сравнении гр. (DТ2+) и гр. (DТ2-), выявленные устойчивые связи симптомов позволят ориентироваться в показаниях и противопоказаниях к использованию метода T2. Сопоставление частоты (или доли) выявленных сочетаний симптомов в группах (DТ1) или (DТ2), позволят сделать суждение о распространенности обнаруженных связей, иными словами, о границах их применимости.
Необходимость решения перечисленных проблем привела к постановке задачи анализа структуры групп на заданном множестве признаков, иными словами, к поиску инвариантных и вариабельных связей признаков в заданных группах исследования.
Рассматриваемый пример является типичным в круге задач, стоящих перед врачом-исследователем, особенно в проблеме выбора наиболее эффективной тактики лечения конкретного больного. Следует заметить, что аналогичные задачи в практике проведения предварительных исследований возникают достаточно часто и в других областях [например, Губерман, 1987].