Программно-алгоритмическое обеспечение кластеризации и визуализации многомерных данных сейсморазведки и ГИС
Людям свойственно классифицировать и группировать все объекты и явления, с которыми они сталкиваются, и на основе отнесения объекта к той или иной группе пытаться предсказывать его поведение. В настоящее время, широкое развитие получила методика автоматического разбиения объектов на группы с использованием вычислительной техники — кластерный анализ или кластеризация. Обычно алгоритмы… Читать ещё >
Содержание
- Общая характеристика работы
- Глава 1. Краткий обзор библиографии по теме диссертации
- Глава 2. Кластеризация данных. Разработка новых алгоритмов кластеризации. Разработка системы тестов для алгоритмов кластеризации
- 2. 1. Кластеризация данных
- 2. 2. Алгоритмы кластеризации
- Иерархическая кластеризация
- Кластеризация методами теории графов
- Алгоритм ЕМ (Expectation-Maximization)
- Алгоритм кластеризации К-средних
- Алгоритм кластеризации Х-средних
- Алгоритм Форель
- Нейронная сеть Кохонена
- Анализ результатов кластеризации
- 2. 3. Развитие существующих алгоритмов кластеризации, разработка системы тестов алгоритмов кластеризации
- 2. 3. 1. Алгоритм кластеризации CFF
- 2. 3. 2. Комплексный алгоритм устойчивой кластеризации данных
- 2. 3. 3. Система тестов алгоритмов кластеризации
- 2. 4. Выводы
- 2. 3. Развитие существующих алгоритмов кластеризации, разработка системы тестов алгоритмов кластеризации
- Глава 3. Многомерная визуализация. Приемы визуализации геолого-геофизических данных
- 3. 1. Перспективность использования многомерной визуализации для разделения геолого-геофизических объектов
- 3. 2. Реализация программы визуализации трехмерных данных с использованием библиотеки OpenGL
- Основные возможности OpenGL
- Разработанная программа визуализации данных в трехмерном пространстве
Программно-алгоритмическое обеспечение кластеризации и визуализации многомерных данных сейсморазведки и ГИС (реферат, курсовая, диплом, контрольная)
Общая характеристика работы.
Актуальность темы
.
Технологии кластеризации и визуализации данных в настоящее время активно развиваются и являются одними из приоритетных направлений исследований в области информационных технологий. Вследствие бурного роста объема информации, развития технологий ее сбора, хранения и организации в базах данных, точные методы анализа информации и моделирования исследуемых объектов зачастую отстают от потребностей реальной жизни. Требуются универсальные и падежные подходы, пригодные для обработки информации из различных областей. В качестве подобного базиса могут быть использованы технологии и подходы математической теории распознавания и классификации.
Первые работы в области теории распознавания и классификации появились в 30-х годах XX в. и были связаны с байесовской теорией принятия решений, применением разделяющих функций к задаче классификации (Э. Г. Фишер), решением вопросов проверки гипотез (А. Вальд). В 50-х годах появились первые нейросетевые модели распознавания (Ф. Розенблатт). Большой вклад в развитие теории распознавания и классификации внесли отечественные ученые: Айвазян С. А., Айзерман М. А., Бравермаин Э. М., Розоноэр Л. И., Вапник В. Н., Червоненкис А. Я. (статистическая теория распознавания). Техника кластеризации применяется в самых разнообразных областях. Хартиган (J.A. Hartigan, 1975) дал прекрасный обзор многих опубликованных исследований, содержащих результаты, полученные методами кластерного анализа. В настоящее время существует множество разнообразных подходов и конкретных алгоритмов для решения задач кластерного анализа, когда требуется найти кластеры по заданной выборке их векторных признаковых описаний (Duba R., Hart Р., 2000, Pelleg D., Moore А., 2001).
Решения, найденные различными алгоритмами, могут существенно отличаться друг от друга. Существуют две основные проблемы при решении задач кластеризации: определение числа кластеров и получение устойчивого результата. Поэтому в применении процедур кластерного анализа немаловажным аспектом является правильное определение количества кластеров, возможность выделения кластеров произвольной формы и устойчивость структуры кластеров, отражающая реальную объективность кластеризации. Таким образом, к современным приложениям, осуществляющим кластеризацию данных, предъявляют жесткие требования, связанные с улучшением качества получаемых результатов и с сокращением времени работы алгоритмов кластеризации.
Наряду с разработкой математического аппарата кластеризации, существенное значение приобретают средства представления результатов кластерного анализа и оценки достоверности этих результатов. К задаче визуализации данных сводится проблема представления в наглядной форме данных эксперимента или результатов теоретического исследования. Качественная визуализация данных является важной частью любой аналитической системы. Во многих случаях эксперту достаточно просто взглянуть на данные, чтобы сделать необходимые выводы. Но одни и те же данные можно отображать множеством способов, и какой из них будет наиболее приемлем, зависит от решаемой задачи.
Традиционными для геофизики средствами визуализации являются карты, разрезы, кроссплоты, то есть средства 20 визуализации. В настоящее время возникает потребность графического представления данных более высокой размерности. Очевидно, что повышение достоверности результатов интерпретации данных геофизических исследований и, как следствие, эффективности сейсмических съемок и ГИС в значительной степени обусловлено последними достижениями в области визуализации первичной геолого-геофизической информации.
Существует большое количество программных средств, нацеленных на аналитическую работу с многомерными структурами данных. Однако при использовании V подобных программ пользователь наталкивается на целый ряд проблем. Во-первых, процедуры обработки данных налагают определенные требования на выборку (например, независимость, однородность, случайность, вид распределения). Несоответствие исходной выборки этим требованиям приводит к недостоверным результатам обработки. Во-вторых, пользователь — специалист в определенной области знаний — зачастую плохо понимает аппарат многомерного анализа, а при отсутствии образного визуального представления результатов с трудом их воспринимает. И, наконец, чрезмерная универсальность готовых пакетов визуализации (в наборах существующих стандартных методов не всегда присутствуют необходимые для решения конкретной задачи инструменты) и их стоимость. Всё это говорит об актуальности создания простых, удобных в использовании средств визуализации данных.
Цель работы.
Целью работы является разработка алгоритмов кластеризации и визуализации результатов, развитии существующих алгоритмов кластеризации для решения задачи определения количества кластеров и получения устойчивого решения, а также реализации специальных средств визуализации многомерных геолого-геофизических данных.
Основные задачи исследования.
1. Разработка новых алгоритмов кластеризации для решения следующих задач:
— кластеризация зашумленных данных;
— определение в процессе работы неизвестного числа кластеров;
— получение устойчивого результата кластеризации.
2. Разработка системы тестов для проверки алгоритмов кластеризации и оценки их результатов.
3. Разработка программы визуализации многомерных данных со специальными функциями для интерпретации различных видов каротажа.
4. Тестирование предложенных алгоритмов на модельных данных.
5. Решение практических задач по кластеризации и визуализации совместной интерпретации данных сейсморазведки и ГИС.
Научная новизна.
1. Разработаны, опробованы, реализованы в программе SeisProN два алгоритма, осуществляющих устойчивую кластеризацию зашумленных данных на заранее неизвестное количество кластеров. Получено свидетельство о регистрации программы SeisProN.
2. Реализовано семейство многомерных тестов для алгоритмов кластеризации (например, задание кластеров различной плотности в вершинах многомерного куба), допускающих задание переменного уровня шума и позволяющих оценить вероятности правильной классификации.
3. Написаны программы визуализации геолого-геофизических данных с привлечением ресурсов современных технологий библиотеки OpenGL. Программы позволяют решать конкретные задачи интерпретации комплекса различных методов каротажа и обладают специальными инструментами для решения данных задач (выделение и визуализация аномальных интервалов разреза скважин).
Защищаемые положения.
1. Созданное программно-алгоритмическое обеспечение по кластеризации и визуализации многомерных геолого-геофизических данных обеспечивает решение задач по кластеризации сильно зашумленных данных, определению неизвестного числа кластеров, выделению кластеров неэллиптической формы, получению воспроизводимого и устойчивого результата классификации данных сейсморазведки и ГИС.
2. Предложенные методы интерпретации и разграничения (кластеризации) данных каротажа в многомерном пространстве обеспечивают, например, надежное разделение нефтенасыщенного и водонасыщенного коллекторов, разделение терригенного коллектора и непроницаемого интервала в горизонтальных скважинах.
3. Разработанные автором алгоритмы кластеризации и визуализации применены в пространстве сейсмических атрибутов для выделения перспективных сейсмических фаций (нефтегазовых коллекторов). Созданная на их основе методика кластеризации кубов сейсмических атрибутов (кластеризация большого объема данных) используется в ОАО «Центральная Геофизическая Экспедиция» при разработке практических проектов поисково-разведочного бурения.
Практическая ценность.
Алгоритмы реализованы в программе 8е1зРгоМ, используются для совместной интерпретации ЗБ данных сейсморазведки и ГИС (выделение перспективных объектов для разведочного бурения) в ОАО «Центральная Геофизическая Экспедиция». Разработанные технологии имеют определенную область применения: интерпретация геолого-геофизических данных. Однако они могут быть использованы и в других отраслях, где возникает необходимость в разделении и визуализации большого количества данных.
Апробация работы.
По теме диссертации опубликовано 10 работ. Основные результаты проводимых исследований, изложенных в работе, докладывались на конференциях «Новые идеи в науках о Земле» (Москва, 2005;2007 гг.), «Геофизика-2005» (Санкт-Петербург 2005 г), «Геонауки: от новых идей к новым открытиям» (Санкт-Петербург, 2008 г.), «Геомодель-2008» (Геленджик 2008 г.), опубликованы в журналах «Каротажник» (2006), сборнике «Инновационные технологии, нейросетевая парадигма геологоразведочных работ на нефть, газ и золото» (2007), «Геофизика» (2007).
На основе результатов, изложенных в работе, представлен доклад на конкурсе студенческих и аспирантских работ в рамках Российской технической нефтегазовой конференции и выставки БРЕ (октябрь 2008). По результатам представленного доклада Белянушкиной М. С. было присуждено первое место в конкурсе аспирантских работ.
Гпава 1. Краткий обзор библиографии по теме диссертации.
Людям свойственно классифицировать и группировать все объекты и явления, с которыми они сталкиваются, и на основе отнесения объекта к той или иной группе пытаться предсказывать его поведение. В настоящее время, широкое развитие получила методика автоматического разбиения объектов на группы с использованием вычислительной техники — кластерный анализ или кластеризация. Обычно алгоритмы кластеризации используются в тех случаях, когда нет абсолютно никаких предположений о характере взаимосвязи между данными, а результаты их применения нередко являются исходными данными для других алгоритмов, например для построения деревьев решений. Как же работают подобные алгоритмы? Обычно они осуществляют итеративный поиск групп данных на основании заранее заданного числа кластеров. Изначально центры будущих кластеров представляют собой случайным образом выбранные точки в многомерном пространстве возможных значений. Затем все исходные данные перебираются и в зависимости от значений параметров помещаются в тот или иной кластер, при этом постоянно происходит поиск точек, сумма расстояний которых до остальныхточек в данном кластере является минимальной. Эти точки становятся центрами новых кластеров, и процедура повторяется до тех пор, пока центры и границы новых кластеров не перестанут перемещаться. Отметим, что данный алгоритм далеко не всегда приводит к результату, поддающемуся логическому объяснению, — он просто позволяет определить различные группы объектов или событий. Кроме того, не всегда можно с первого раза точно угадать число кластеров, отражающее реально существующее число групп.
Кластерный анализ — совокупность математических методов, предназначенных для формирования относительно «отдаленных» друг от друга групп «близких» между собой объектов по информации о расстояниях или связях (мерах близости) между ними. Меру близости (сходства) объектов удобно представить как обратную величину от расстояния между объектами. В многочисленных изданиях посвященных кластерному анализу описано множество различных способов вычисления расстояния между объектами [24, 25, 37]. По смыслу термин аналогичен терминам: автоматическая классификация, таксономия, распознавание образов без учителя" [45]. Фактически «кластерный анализ» -это обобщенное название достаточно большого набора алгоритмов, используемых при создании классификации. В ряде изданий используются и такие синонимы кластерного анализа, как классификация и разбиение. Кластерный анализ широко используется в науке как средство типологического анализа. В любой научной деятельности классификация является одной из фундаментальных составляющих, без которой невозможны построение и проверка научных гипотез и теорий.
В 1925 г. советский гидробиолог П. В. Тереитьев разработал так называемый «метод корреляционных плеяд» [35], предназначенный для группировки коррелирующих признаков. Этот метод дал толчок развитию методов группировки с помощью графов. Слово «cluster» переводится с английского языка как «гроздь, кисть, пучок, группа». По этой причине первоначальное время этот вид анализа называли «гроздевым анализом». В начале 50-х годов появились публикации Р. Люиса, Е. Фикса и Дж. Ходжеса по иерархическим алгоритмам кластерного анализа. Заметный толчок развитие работ по кластерному анализу дали работы Р. Розенблатта по распознающему устройству (персептроиу), положившие начало развитию теории «распознавания образов без учителя» .
В 60-е годы было предложено множество алгоритмов таких авторов, как Дж. Мак-Кин, Г. Болл и Д. Холл по методам k-среднихГ. Лаиса и У. Уильямса, Н. Джардайна и др. — по иерархическим методам. Заметный вклад в развитие методов кластерного анализа внесли и отечественные ученые — Э. М. Браверман, А. А. Дорофеюк, И. Б. Мучпик, Л. А, Растригин, Ю. И. Журавлев, И. И. Елисеева и др. В частности, в 60−70 гг. большой популярностью пользовались многочисленные алгоритмы разработанные новосибирскими математиками Н. Г. Загоруйко, В. Н. Елкиной и Г. С. Лбовым. Это такие широко известные алгоритмы, как FOREL, BIGFOR, KRAB, NTTP, DRET, TRF и др. Интересные программные продукты ППСА и Класс-Мастер были созданы московскими математиками С. А. Айвазяном, И. С. Енюковым и Б. Г. Миркиным [2, 3, 26].
В том или ином объеме методы кластерного анализа имеются в большинстве наиболее известных отечественных и зарубежных статистических пакетах: SIGAMD, DataScope, STADIA, СОМИ, ПНП-БИМ, СОРРА-2, СИТО, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS, GENSTAT, S-PLUS и т. д. Достаточно подробный сравнительный анализ многочисленный статистических пакетов представлен в [24]. Большинство статистических пакетов используют алгоритмы предложенные и разработанные в 60−70 гг [17].
По приблизительным оценкам специалистов число публикаций по кластерному анализу и его приложениям в различных областях знания удваивается каждые три года. Причины этого явления: появление мощной вычислительной техники, без которой кластерный анализ реальных данных практически не реализуемвторая причинасовременная наука все сильнее опирается в своих построениях на классификациютретья причина — углубление специальных знаний неизбежно приводит к увеличению количества переменных, учитываемых при анализе тех или иных объектов и явлений [3, 17, 22, 47, 51].
Несмотря на то, что кластерный анализ является эффективным и удобным инструментом классификации, а также весьма распространен в практических исследованиях, современных публикаций на эту тему на русском языке мало. В [19] сжатом виде представлены основные идеи кластерного анализа и показаны некоторые сферы его приложения в горных исследованиях. Среди опубликованных в последнее время наибольший интерес представляют работы зарубежных авторов, предлагающих модификации известных алгоритмов с целью повышения скорости работы и устойчивости результатов алгоритмов кластеризации. В работах Moore A.W., Gray A.G., Pelleg D., Wong W.K. (2000 — 2005) предлагаются алгоритмы, настроенные на работу с большим объемом данных. В работе «Estimating the number of clusters» (Cuevas A., Febrero M., Fraiman R., 2000) предлагается новый способ оценки неизвестного заранее количества кластеров.
Многократные попытки классификации методов кластерного анализа приводят к десяткам, а то и сотням разнообразных классов [34]. Такое многообразие порождается большим количеством возможных способов вычисления расстояния между отдельными наблюдениями, не меньшим количеством методов вычисления расстояния между отдельными кластерами в процессе кластеризации и многообразными оценками оптимальности конечной кластерной структуры. Наибольшее распространение в популярных статистических пакетах получили два группы алгоритмов кластерного анализа: иерархические агломеративные методы и итеративные методы группировки.
В зависимости от выбранных алгоритмов и параметров кластеризации, результаты кластерного анализа могут существенно различаться. Существуют две основные проблемы при решении задач кластеризации: определение числа кластеров и получение устойчивого результата. Поэтому в применении процедур кластерного анализа немаловажным аспектом является устойчивость структуры кластеров, отражающая реальную объективность классификации. В качестве одного из возможных способов проверки устойчивости результатов кластерного анализа может быть использован метод сравнения результатов полученных для различных алгоритмов кластеризации. Не меньше проблем и при оценке качества кластеризации. Первые работы которые содержали формулировки критерия минимизации внутрикластерной дисперсии и алгоритм (типа к-средних) поиска оптимального решения появились в конце 50-х гг. В 1963 г. в статье Дж. Уорда также излагался подобный оптимизационный иерархический алгоритм. Только в [34] автором дан обзор 45 подобных функционалов качества. Все это говорит о том, что не существует универсального критерия оптимизации кластерного решения. В такой ситуации наилучшим способом утвердиться в том, что найденное кластерное решение является па данном этапе исследования оптимальным, является только согласованность этого решения с выводами, полученными с помощью других методов многомерной статистики.
Всегда необходимо осознавать, что полученный при использовании кластерного анализа результат является одним из возможных. Этот результат необходимо сравнить с аналогичными результатами, полученными с применением других комбинаций метрик, алгоритмов объединения и т. д., а также с результатами использований и других методов анализа данных.
В использовании кластерного анализа имеются такие тонкости и детали, которые проявляются в отдельных конкретных случаях и видны не сразу. Например, роль масштаба признаков может быть минимальной, а может быть и доминирующей в ряде случаев. В таких случаях необходимо использовать преобразования переменных.
Наряду с разработкой математического аппарата кластеризации, важное значение имеют средства представления результатов кластерного анализа и оценки достоверности этих результатов. Современные программные пакеты, предоставляют широкий спектр графических инструментов для анализа результатов кластерного анализа. На практике, наиболее наглядным, является представление полученных кластеров в осях специальных переменных, в которых «удачность» полученной классификации можно оценить визуально.
Термин «визуализация данных» означает, что имеются некоторые данные, например таблица с числами. И эти данные нужно «донести» к конечному пользователю, и не просто «донести», а представить в удобной, понятной, и, самое главное, в визуальной форме. Данные в этом понимании есть просто некоторые абстрактные типы данных, которые нужно представить.
Для визуализации могут быть использованы 1-, 2-, 3-мерные пространства отображений. Под визуализацией данных мы понимаем такой способ представления многомерного распределения данных, при котором, по крайней мере, качественно отражены основные закономерности, присущие исходному распределению — его кластерная структура, топологические особенности, внутренние зависимости между признаками, информация о расположении данных в исходном пространстве. В качестве основных применений методов визуализации можно назвать следующие:
— наглядное представление геометрической метаморфозы данных;
— лаконичное описание внутренних закономерностей, заключенных в наборе данных;
— сжатие информации, заключенной в данных;
— восстановление пробелов в данных;
— решение задачи прогноза и построения регрессионных зависимостей между признаками.
Визуализация данных — задача, с которой сталкивается в своей работе любой исследователь. К задаче визуализации данных сводится проблема представления в наглядной форме данных эксперимента или результатов теоретического исследования. Традиционные инструменты в этой области — графики и диаграммы — плохо справляются с задачей визуализации, когда возникает необходимость изобразить более трех взаимосвязанных величин [27].
Качественная визуализация данных является важной частью любой аналитической системы. Во многих случаях эксперту достаточно просто взглянуть на данные, чтобы сделать необходимые выводы. Но одни и те же данные можно отображать множеством способов, и какой из них будет наиболее приемлем, зависит от решаемой задачи.
Существует большое количество программных средств, нацеленных на аналитическую работу с многомерными структурами данных. Однако при использовании подобных программ пользователь наталкивается на целый ряд проблем. Во-первых, процедуры обработки данных налагают определенные требования на выборку (например, независимость, однородность, случайность, вид распределения). Несоответствие исходной выборки этим требованиям, вообще говоря, приводит к недостоверным результатам обработки. Во-вторых, пользователь — специалист в определенной области знанийзачастую плохо понимает аппарат многомерного анализа, а при отсутствии образного визуального представления результатов с трудом их воспринимает. И, наконец, значительная часть задач в астрономии, биологии, медицине, экономике и др. науках просто не поддается чисто аналитическому описанию и требует дополнительного описания на качественном образном уровне. Всё это говорит о необходимости создания простых, удобных в использовании средств визуализации данных.
В той или иной мере средства для графического отображения данных поддерживаются всеми системами Data Mining. Вместе с тем, весьма внушительную долю рынка занимают системы, специализирующиеся исключительно на этой функции. Примерами могут служить: программа DataMiner3D (Dimension5) — программный продукт SpaceWalker, реализующий преобразование числовой информации об объектах с большим количеством параметров в наглядные графические динамические образыDeductor Studio, предлагающий много механизмов визуализации, из которых пользователь может выбрать наиболее оптимальные. Для реализации визуализации в собственных разработках возможно использование различных пакетов. Это и известная библиотека OpenGL, и программы, ориентированные в первую очередь на визуализацию многомерных данных: OpenDX, VTK (программное обеспечение для реализации компьютерной графики), а также matplotlib — сравнительно молодой, но богатый возможностями и активно развивающийся проект, является библиотекой для языка Python, РуХ — другой пакет для визуализации с помощью Python [14].
Визуализация один из важных вопросов в интерпретации и моделировании в геофизике. Традиционными для геофизики средствами визуализации являются карты, разрезы, кроссплоты, то есть средства 2D визуализации. В настоящее время возникает потребность графического представления данных более высокой размерности. Очевидно, что повышение достоверности результатов интерпретации данных геофизических исследований и, как следствие, эффективности сейсмических съемок и ГИС в целом в значительной степени обусловлено последними достижениями в области визуализации первичной геолого-геофизической информации. Качественная комплексная визуализация геолого-геофизической информации является ключевым моментом в понимании строения недр. История визуализации в геологии и геофизике берет начало с первых карт, разрезов и графиков, построение которых выполнялось вручную. По мере развития теории и практики нефтегазового бизнеса стали разрабатываться и совершенствоваться полиграфические технологии построения и публикации геолого-геофизических карт и других графических материалов. Однако высокая трудоемкость подобных технологий, с одной стороны, и их высокая зависимость от т.н. «человеческого фактора» — с другой, не позволяли обеспечить надлежащий уровень качества и достоверности получаемых графических геолого-геофизических материалов. Ситуацию резко изменили появившиеся в 70−80-х гг. прошлого столетия первые компьютерные технологии автоматизированного построения карт, графиков и других видов представления геолого-геофизических данных. Переход к следующему этапу произошел, когда на экранах компьютеров появились 3D изображения сейсмических кубов, структурных поверхностей и других геолого-геофизических данных. Сегодня ситуация кардинально изменилась. Современные исследователи имеют возможность получать трехмерное изображение внутреннего модельного строения недр на экране компьютера. Очевидно, что столь сложный процесс построения модели невозможен без качественной комплексной визуализации на каждом этапе. Одним из важных пунктов работы современных компаний является использование удобной и быстрой системы визуализации: Schlumberger (комплекс Petrel), Paradigm.
VoxelGeo), Roxar (Irap), Центральная Геофизическая Экспедиция (комплекс программ динамической визуализации DV), Mercury Computer Systems. Такие действия, как интерактивная визуализация больших множеств данных, классификация, подсветка, выделения регионов, представляющих интерес, обрезка изображения, слайсы реализованы в программных продуктах данных компаний.
Современные комплексы визуализации геолого-геофизической информации базируются на современных достижениях вычислительной техники и обычно состоят из следующих основных элементов: вычислительного блока, формирующего цифровое изображение (один или несколько). Обычно это современная вычислительная машина, на базе персонального компьютера или рабочей станции, с повышенными требованиями по производительности. прикладного программного обеспечения, формирующего трехмерное изображение геолого-геофизнческой информации и позволяющего интерактивно управлять полученным изображением. экранного комплекса визуализации. Это главный элемент комплекса визуализации, обычно состоящий из одного, двух, четырех и более проекторов. системы управления всем комплексом, обеспечивающей выбор видеоисточника.-системы звукового сопровождения, которая необходима при проведении видеоконференции и/или при удаленной презентации.
В качестве заключения можно отметить, что хотя еще не закончилась третья революция (данный этап в развитии визуализации), есть все основания полагать, что грядет новая, четвертая революция в технологиях визуализации. Она будет заключаться в реализации технологий высококачественной трехмерной визуализации по скоростным сетевым соединениям и создании условий для работы удаленных виртуальных групп. Такие системы уже создаются [40].
Автор отдает себе отчет, что полная библиография по теме диссертации даже в пределах наук о Земле грандиозна и совершенно необозрима. Автор упомянул в этом обзоре только те работы, которые изучил и которыми пользовался при подготовке работы. Автор приносит извинение читателю, если какие либо из важных работ по данной тематике не попали в диссертацию.
Гпава 2. Кластеризация данных. Разработка новых алгоритмов кластеризации. Разработка системы тестов для алгоритмов кластеризации.
4−3. Выводы.
• С применением разработанной программы визуализации данных каротажа была выполнена работа по интерпретации каротажа горизонтальных скважин. На первом этапе выполнялось разделение всего разреза на породы различных литологических типов, на втором этапе выделялся целевой объект — коллектор, и удаление неинтересные для интерпретации точки вмещающих пород. Затем точки коллектора использовались для количественной интерпретации. Произведена обработка каротажа скважин на месторождении с коллектором нетрадиционного тцпа: построены плоскости, разграничивающие аномальные объекты и вмещающие породы, вычислены вероятности такого разделения. Выделенные таким образом перспективные интервалы используются для построения гидродинамической модели месторождения.
Традиционная 20 интерпретация СО-картоажа, выделяла нефтецоспые интервалы с вероятностью не более 60−70%. Предложенный и реализованный ЗБ подход позволил повысить эту вероятность до 90%. Пол результатам интерпретации было дано заключение на перфорацию, в результате чего была получена практически чистая нефть. Реализована методика применения алгоритма кластеризации для расчета карт сейсмических фаций. Расчет карт сейсмических фаций выполняется с применением двух взаимодополняющих подходов: кластеризация сейсмических атрибутов и кластеризация участков сейсмических трасс по их форме. Результаты расчетов были использованы при разработке проектов поисково-разведочного бурения.
• Разработана методика расчета сейсмических фаций в объеме: кластеризация кубов сейсмических атрибутов. Выполнен тестовый расчет кластеризации кубов сейсмических атрибутов для одной из площадей региона Западная Сибирь.
Заключение
.
В диссертационной работе получены следующие основные результаты:
1. На основе существующих алгоритмов теории графов и алгоритмов К-средних разработаны новые алгоритмы для решения основных проблем кластеризации: определение в процессе работы неизвестного заранее количества кластеров, выделение кластеров произвольной формы и получение воспроизводимого и устойчивого результата. Алгоритмы позволяют решать задачу кластеризации данных при наличии шумов разного уровня.
2. Предложена и реализована система тестов для проверки алгоритмов кластеризации и оценки их эффективности, позволяющая сделать выводы о зависимости корректной работы алгоритмов от соотношения плотности частиц в кластерах и плотности частиц в исследуемом поле.
3. В системе MATLAB реализовано приложение, осуществляющее 4D визуализацию многомерных данных в виде кубов с различной плотностью распределения частиц в узлах.
4. Разработано программно-алгоритмическое обеспечение для визуализации многомерных данных с использованием технологии OpenGL. Разработки применены для выделения аномальных интервалов по комплексу каротажа на месторождении с нетрадиционным коллектором, интерпретации каротажа горизонтальных скважин, интерпретации СО-каротажа.
5. Предложена методика расчета кластеризации большого объема данных (кластеризации кубов сейсмических атрибутов) для выделения сейсмических фаций на основе кластеризации сейсмических атрибутов и участков сейсмических трасс по их форме на нескольких площадях региона Западная Сибирь. Результаты расчетов были использовапьт при разработке проектов поисково-разведочного бурения.
Благодарности.
Автор выражает благодарность научному руководителю, доктору физико-математических работ, профессору РГГРУ Б. Е. Лухминскому и научному консультанту, заведующему кафедрой высшей математики РГГРУ, профессору Ю. А. Фаркову за внимание, помощь и поддержку, оказанную автору в процессе подготовки данной работы.
Автор выражает благодарность заведующему кафедрой ЯРМиГИ РГГРУ профессору A.A. Никитину, профессору кафедры ЯРМиГИ РГГРУ A.B. Петрову за рекомендации и ценные замечания, руководству ОАО «ЦГЭ» и начальнику отдела интеллектуальной обработки данных Д. В. Логинову за помощь и поддержку при подготовке диссертационной работы.
Список литературы
- Авербух А.Г. Изучение состава и свойсив горных пород при сейсморазведке. М.: Недра, 1982 г.
- Айвазян С.А., Бежаева З. И., Староверов О. В. Классификация многомерных наблюдений. М.: Статистика, 1974. 240с.
- Айвазян С.А., Бухштабер В. М. Анализ данных, прикладная статистика и построение общей теории автоматической классификации// Методы анализа данных/ Пер. с фр. М.: Финансы и статистика, 1985. — Вступ. ст. — с. 5−22.
- Ампилов Ю.П. От сейсмической интерпретации к моделированию и оценке месторождений нефти и газа. М., ООО «Издательство «Спектр», 2008. — 384с.
- Ануфриев И., Смирнов А., Смирнова Е. МАТЬАВ 7.0. СПб.: БХВ-Петербург, 2005.
- Белянушкина М.С. Развитие трехмерной интерпретации и визуализации данных каротажа. Материалы V международной геолого-геофизической научно-практической конференции «Геофизика-2005», Санкт-Петербург 2005 г.
- Белянушкина М.С., Логинов Д. В. Развитие алгоритмов кластеризации сейсмических данных. Материалы X научно-практической конференции «Геомодель2008», Геленджик, 2008 г.
- Белянушкина М.С., Логинов Д. В., Лухминский Б. Е. Комплексный алгоритм кластеризации многомерных данных. Научно-технический журнал федерального агентства по недропользованию МПР России и ЕАГО «Геофизика» (4.2007), ЕАГО 2007 г.
- Белянушкина М.С., Логинов Д. В., Лухминский Б. Е. Развитие алгоритмов кластеризации данных и система многомерных тестов для оценки возможности12.