Рекомендательные системы: теорема Байеса и наивный байесовский классификатор. Наивный байесовский классификатор для сигналов набора индикаторов Статистический анализ конкретных данных

В этой части мы не будем говорить о рекомендательных системах как таковых. Вместо этого мы отдельно сконцентрируемся на главном инструменте машинного обучения - теореме Байеса - и рассмотрим один простой пример её применения - наивный байесовский классификатор. Disclaimer: знакомому с предметом читателю я вряд ли тут сообщу что-то новое, поговорим в основном о базовой философии машинного обучения.


Теорему Байеса или помнит, или тривиально может вывести любой, кто проходил хоть самый-самый базовый курс теории вероятностей. Помните, что такое условная вероятность события x при условии события y ? Прямо по определению: , где - это совместная вероятность x и y , а p (x ) и p (y ) - вероятности каждого события по отдельности. Значит, совместную вероятность можно выразить двумя способами:
.

Ну, вот вам и теорема Байеса:

Вы, наверное, думаете, что я над вами издеваюсь - как может тривиально-тавтологичное переписывание определения условной вероятности быть основным инструментом чего бы то ни было, тем более такой большой и нетривиальной науки, как машинное обучение? Однако давайте начнём разбираться; сначала просто перепишем теорему Байеса в других обозначениях (да-да, я продолжаю издеваться):

А теперь давайте соотнесём это с типичной задачей машинного обучения. Здесь D - это данные, то, что мы знаем, а θ - это параметры модели, которые мы хотим обучить. Например, в модели SVD данные - это те рейтинги, которые ставили пользователи продуктам, а параметры модели - факторы, которые мы обучаем для пользователей и продуктов.

Каждая из вероятностей тоже имеет свой смысл. - это то, что мы хотим найти, распределение вероятностей параметров модели после того, как мы приняли во внимание данные; это называется апостериорной вероятностью (posterior probability). Эту вероятность, как правило, напрямую не найти, и здесь как раз и нужна теорема Байеса. - это так называемое правдоподобие (likelihood), вероятность данных при условии зафиксированных параметров модели; это как раз найти обычно легко, собственно, конструкция модели обычно в том и состоит, чтобы задать функцию правдоподобия. А - априорная вероятность (prior probability), она является математической формализацией нашей интуиции о предмете, формализацией того, что мы знали раньше, ещё до всяких экспериментов.

Здесь, наверное, не время и не место в это углубляться, но заслуга преподобного Томаса Байеса была, конечно, не в том, чтобы переписать в две строчки определение условной вероятности (не было тогда таких определений), а как раз в том, чтобы выдвинуть и развить такой взгляд на само понятие вероятности. Сегодня «байесовским подходом» называют рассмотрение вероятностей с позиций скорее «степеней доверия», чем фриквентистской (от слова frequency, а не freak!) «доли успешных экспериментов при стремлении к бесконечности общего числа экспериментов». В частности, это позволяет рассуждать о вероятностях одноразовых событий - ведь на самом деле нет никакого «стремящегося к бесконечности числа экспериментов» для событий вроде «Россия станет чемпионом мира по футболу в 2018 году» или, ближе к нашей теме, «Васе понравится фильм «Трактористы»»; тут скорее как с динозавром: или понравится, или нет. Ну а математика, конечно, при этом везде одна и та же, колмогоровским аксиомам вероятности всё равно, что о них думают.

Для закрепления пройденного - простой пример. Рассмотрим задачу категоризации текстов: например, предположим, что мы пытаемся рассортировать по темам поток новостей на основе уже имеющейся базы данных с темами: спорт, экономика, культура… Мы будем использовать так называемую bag-of-words model: представлять документ (мульти)множеством слов, которые в нём содержатся. В результате каждый тестовый пример x принимает значения из множества категорий V и описывается атрибутами . Нам нужно найти наиболее вероятное значение данного атрибута, т.е.

По теореме Байеса,

Оценить легко: будем просто оценивать частоту его встречаемости. Но оценить разные не получится - их слишком много, - это вероятность в точности такого набора слов в сообщениях на разные темы. Очевидно, такой статистики взять неоткуда.

Чтобы с этим справиться, наивный байесовский классификатор (naive Bayes classifier - его иногда даже называют idiot’s Bayes) предполагает условную независимость атрибутов при условии данного значения целевой функции:

Теперь обучить отдельные гораздо проще: достаточно подсчитать статистику встречаемости слов в категориях (там есть ещё одна деталь, которая приводит к двум разным вариантам наивного байеса, но мы сейчас углубляться в детали не будем).

Заметим, что наивный байесовский классификатор делает чертовски сильное предположение: в классификации текстов мы предполагаем, что разные слова в тексте на одну и ту же тему появляются независимо друг от друга. Это, конечно, полный бред - но, тем не менее, результаты получаются вполне приличные. На самом деле наивный байесовский классификатор гораздо лучше, чем кажется. Его оценки вероятностей оптимальны, конечно, только в случае настоящей независимости; но сам классификатор оптимален в куда более широком классе задач, и вот почему. Во-первых, атрибуты, конечно, зависимы, но их зависимость одинакова для разных классов и «взаимно сокращается» при оценке вероятностей. Грамматические и семантические зависимости между словами одни и те же и в тексте про футбол, и в тексте о байесовском обучении. Во-вторых, для оценки вероятностей наивный байес очень плох, но как классификатор гораздо лучше (обычно, если даже на самом деле и , наивный байес выдаст и , но классификация при этом будет чаще правильная).

В следующей серии мы усложним этот пример и рассмотрим модель LDA, которая способна выделять темы в корпусе документов безо всякого набора отмеченных документов, причём так, что один документ сможет содержать несколько тем, а также применим её к задаче рекомендаций.

Кросс-проверка - известный метод получения оценок неизвестных параметров модели. Основная идея метода - разделение выборки данных на v "складки". V "складки" здесь случайным образом выделенные изолированные подвыборки.

По фиксированному значению k строится модель k-ближайших соседей для получения предсказаний на v-м сегменте (остальные сегменты при этом используются как примеры) и оценивается ошибка классификации. Для регрессионных задач наиболее часто в качестве оценки ошибки выступает сумма квадратов, а для классификационных задач удобней рассматривать точность ( процент корректно классифицированных наблюдений).

Далее процесс последовательно повторяется для всех возможных вариантов выбора v. По исчерпании v "складок" (циклов), вычисленные ошибки усредняются и используются в качестве меры устойчивости модели (т.е. меры качества предсказания в точках запроса). Вышеописанные действия повторяются для различных k, и значение , соответствующее наименьшей ошибке (или наибольшей классификационной точности), принимается как оптимальное (оптимальное в смысле метода кросс-проверки ).

Следует учитывать, что кросс-проверка - вычислительно емкая процедура, и необходимо предоставить время для работы алгоритма, особенно если объем выборки достаточно велик.

Второй вариант выбора значения параметра k - самостоятельно задать его значение . Однако этот способ следует использовать, если имеются обоснованные предположения относительно возможного значения параметра, например, предыдущие исследования сходных наборов данных.

Метод k-ближайших соседей показывает достаточно неплохие результаты в самых разнообразных задачах.

Примером реального использования описанного выше метода является программное обеспечение центра технической поддержки компании Dell, разработанное компанией Inference . Эта система помогает сотрудникам центра отвечать на большее число запросов, сразу предлагая ответы на распространенные вопросы и позволяя обращаться к базе во время разговора по телефону с пользователем. Сотрудники центра технической поддержки, благодаря реализации этого метода, могут отвечать одновременно на значительное число звонков. Программное обеспечение CBR сейчас развернуто в сети Intranet компании Dell.

Инструментов Data Mining , реализующих метод k-ближайших соседей и CBR -метод, не слишком много. Среди наиболее известных: CBR Express и Case Point ( Inference Corp.), Apriori ( Answer Systems), DP Umbrella (VYCOR Corp.), KATE tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США), а также некоторые статистические пакеты, например, Statistica.

Байесовская классификация

Альтернативные названия: байесовское моделирование , байесовская статистика , метод байесовских сетей.

Ознакомиться детально с байесовской классификацией можно в . Изначально байесовская классификация использовалась для формализации знаний экспертов в экспертных системах , сейчас байесовская классификация также применяется в качестве одного из методов Data Mining .

Так называемая наивная классификация или наивно-байесовский подход (naive- bayes approach ) является наиболее простым вариантом метода, использующего байесовские сети. При этом подходе решаются задачи классификации, результатом работы метода являются так называемые "прозрачные" модели.

"Наивная" классификация - достаточно прозрачный и понятный метод классификации. "Наивной" она называется потому, что исходит из предположения о взаимной независимости признаков.

Свойства наивной классификации:

  1. Использование всех переменных и определение всех зависимостей между ними.
  2. Наличие двух предположений относительно переменных:
    • все переменные являются одинаково важными;
    • все переменные являются статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой.

Большинство других методов классификации предполагают, что перед началом классификации вероятность того, что объект принадлежит тому или иному классу, одинакова; но это не всегда верно.

Допустим, известно, что определенный процент данных принадлежит конкретному классу. Возникает вопрос, можем ли мы использовать эту информацию при построении модели классификации? Существует множество реальных примеров использования этих априорных знаний, помогающих классифицировать объекты. Типичный пример из медицинской практики. Если доктор отправляет результаты анализов пациента на дополнительное исследование, он относит пациента к какому-то определенному классу. Каким образом можно применить эту информацию? Мы можем использовать ее в качестве дополнительных данных при построении классификационной модели.

Отмечают такие достоинства байесовских сетей как метода Data Mining :

  • в модели определяются зависимости между всеми переменными, это позволяет легко обрабатывать ситуации, в которых значения некоторых переменных неизвестны;
  • байесовские сети достаточно просто интерпретируются и позволяют на этапе прогностического моделирования легко проводить анализ по сценарию "что, если";
  • байесовский метод позволяет естественным образом совмещать закономерности, выведенные из данных, и, например, экспертные знания, полученные в явном виде;
  • использование байесовских сетей позволяет избежать проблемы переучивания (overfitting), то есть избыточного усложнения модели, что является слабой стороной многих методов (например, деревьев решений и нейронных сетей).

Наивно-байесовский подход имеет следующие недостатки:

  • перемножать условные вероятности корректно только тогда, когда все входные переменные действительно статистически независимы; хотя часто данный метод показывает достаточно хорошие результаты при несоблюдении условия статистической независимости, но теоретически такая ситуация должна обрабатываться более сложными методами, основанными на обучении байесовских сетей ;
  • невозможна непосредственная обработка непрерывных переменных - требуется их преобразование к интервальной шкале, чтобы атрибуты были дискретными; однако такие преобразования иногда могут приводить к потере значимых закономерностей ;
  • на результат классификации в наивно-байесовском подходе влияют только индивидуальные значения входных переменных, комбинированное влияние пар или троек значений разных атрибутов здесь не учитывается . Это могло бы улучшить качество классификационной модели с точки зрения ее прогнозирующей точности, однако,увеличило бы количество проверяемых вариантов.

Байесовская классификация нашла широкое применение на практике.

Байесовская фильтрация по словам

Не так давно байесовская классификация была предложена для персональной фильтрации спама. Первый фильтр был разработан Полем Грахемом (Paul Graham). Для работы алгоритма требуется выполнение двух требований.

Первое требование - необходимо, чтобы у классифицируемого объекта присутствовало достаточное количество признаков. Этому идеально удовлетворяют все слова писем пользователя, за исключением совсем коротких и очень редко встречающихся.

Второе требование - постоянное переобучение и пополнение набора "спам - не спам". Такие условия очень хорошо работают в локальных почтовых клиентах, так как поток "не спама" у конечного клиента достаточно постоянен, а если изменяется, то не быстро.

Однако для всех клиентов сервера точно определить поток "не спама" довольно сложно, поскольку одно и то же письмо , являющееся для одного клиента спамом, для другого спамом не является. Словарь получается слишком большим, не существует четкого разделения на спам и "не спам", в результате качество классификации, в данном случае решение задачи фильтрации писем, значительно снижается.

Статистика- наука, изучающая количественную сторону массовых социально- экономических явлений и процессов, в неразрывном единстве с их качественной стороной в конкретных условиях места и времени.

В естественных науках понятие «статистика» означает анализ массовых явлений, основанных на применении методов теории вероятности.

Статистика разрабатывает специальную методологию исследования и обработки материалов: массовые статистические наблюдения, метод группировок, средних величин, индексов, балансовый метод, метод графических изображений.

Методологическими особенностями является изучение: массовости явлений, качественно однородных признаков того или иного явления в динамике.

Статистика включает ряд разделов, среди которых: общая теория статистики, экономическая статистика, отраслевые статистики- промышленная, сельского хозяйства, транспорта, медицинская.

11. Группы показателей для оценки состояния здоровья населения.

Здоровье населения характеризуется тремя группами основных показателей:

А) медико-демографические –отражают состояние и динамику демографических процессов:

    Статистика населения (плотность, размещение, социальный состав, состав по полу и возрасту, грамотность, образование, национальность, язык, культура.)

    Динамика населения (механическая эмиграция и иммиграция, естественная рождаемость, смертность, естественный прирост.)

    Семейное состояние (коэффициент брачности, разводов, средняя продолжительность брака.)

    Процессы воспроизводства (суммарная плодовитость, брутто-коэффициент и нетто-коэффициент.)

    Средняя ожидаемая продолжительность жизни

    Смертность (структура смертности, показатели смертности в зависимости от причины, характера заболеваемости и возраста.)

Б) показатели заболеваемости и травматизма (первичная заболеваемость, распространенность, накопленная заболеваемость, патологическая пораженность, индекс здоровья, летальность, травматизм, инвалидность.)

В) показатели физического развития:

    Антропометрические (рост, масса тела, окружность грудной клетки, головы, плеча, предплечья, голени, бедра)

    Физиометрические (жизненная ёмкость легких, мышечная сила кистей рук, становая сила)

    Соматоскопические (телосложение, развитие мускулатуры, степень упитанности, форма грудной клетки, форма голеней, стоп, выраженность вторичных половых признаков.)

    Медицинская статистика, ее разделы, задачи. Роль статистического метода в изучении здоровья населения и деятельности системы здравоохранения.

Медицинская (санитарная) статистика - изу­чает количественную сторону явлений и процессов, связанных с ме­дициной, гигиеной и здравоохранением.

Выделяют 3 раздела медицинской статистики:

1. Статистика здоровья населения - изучает состояние здоровья населения в целом или его отдельных групп (путем сбора и статис­тического анализа данных о численности и составе населения, его воспроизводстве, о естественном движении, физическом развитии, распространенности различных заболеваний, продолжительности жиз­ни и т.д.). Оценка показателей здоровья проводится в сопоставлении с общепринятыми оценочными уровнями и уровнями, полученными по различным регионам и в динамике.

2. Статистика здравоохранения - решает вопросы сбора, обработ­ки и анализа информации о сети учреждений здравоохранения (их размещении, оснащении, деятельности) и кадрах (о численности врачей, среднего и младшего медицинского персонала, о распределе­нии их по специальностям, стажу работы, о их переподготовке и т.д.). При анализе деятельности лечебно-профилактических учрежде­ний осуществляется сопоставление полученных данных с нормативны­ми уровнями, а также уровнями, полученными по другим регионам и в динамике.

3. Клиническая статистика - это использование статистических методов при обработке результатов клинических, экспериментальных и лабораторных исследований; она позволяет с количественной точ­ки зрения оценить достоверность результатов исследования и ре­шить ряд других задач (определение объема необходимого числа наблюдений при выборочном исследовании, сформировать эксперимен­тальную и контрольную группы, изучить наличие корреляционных и регрессионных связей, устранить качественную неоднородность групп и т. д.).

Задачами медицинской статистики являются:

1) изучение состояния здоровья населения, анализ количественных характеристик общественного здоровья.

2) выявление связей между показателями здоровья и различными фак­торами природной и социальной среды, оценка влияния этих фак­торов на уровни здоровья населения.

3) изучение материально- технической базы здравоохранения.

4) анализ деятельности лечебно-профилактических учреждений.

5) оценка эффективности (медицинской, социальной, экономической) проводимых лечебных, профилактических, противоэпидемических мероприятий и здравоохранения в целом.

6) использование статистических методов при проведении клинических и экспериментальных медико-биологических исследований.

Медицинская статистика является методом социальной диагности­ки, поскольку она позволяет дать оценку состояния здоровья насе­ления страны, региона и на этой основе разработать меры, направ­ленные на улучшение общественного здоровья. Важнейшим принципом статистики является применение ее для изу­чения не отдельных, единичных, а массовых явлений , с целью выявления их общих закономерностей. Эти закономерности проявляются, как правило, в массе наблюдений, то есть при изучении статистической совокупности.

В медицине статистика - ведущий метод, т.к.:

1) позволяет количественно измерить показатели здоровья населения и показатели деятельности медицинских учреждений

2) определяет силу влияния различных факторов на здоровье населения

3) определяет эффективность лечения и оздоровительных мероприятий

4) позволяет оценить динамику показателей здоровья и позволяет прогнозировать их

5) позволяет получить необходимые данные для разработки норм и нормативов здравоохранения.

    Статистическая совокупность. Определение, виды, свойства. Особенности исследования статистической совокупности.

Объектом любого статистического исследования является статис­тическая совокупность.

Статистическая совокупность - группа, состоящая из множества относительно однородных элементов, взятых вместе в известных гра­ницах пространства и времени и обладающих признаками сходства и различия.

Свойства статистической совокупности : 1) однородность единиц наблюдения 2) определенные границы пространства и времени изучаемого явления

Объектом статистического исследования в медицине и здравоохранении могут быть различные контингенты населения (население в целой или его отдельные группы, больные, умершие, родившиеся), лечебно-профилактические учреждения и др.

Различают два вида статистической совокупности :

а) генеральная совокупность

б) выборочная совокупность

1. выборочная совокупность формируется таким образом, чтобы обес­печить равную возможность для всех элементов исходной совокупнос­ти быть охваченными наблюдением.

2. выборочная совокупность должна быть репрезентативной (представительной), точно и полно отра­жать явление, т.е. давать такое же представление о явлении, как если бы изучалась вся генеральная совокупность.

Выборочная совокупность

1) должна быть репрезентативной, точно и полно отражать явление, т.е. давать такое же представление о явлении как если бы изучалась вся генеральная совокупность, для этого она должна:

а. быть достаточной по численности

б. обладать основными чертами генеральной совокупности (в отобранной части должны быть представлены все элементы в таком же соотношении, как и в генеральной)

2) при ее формировании должен соблюдаться

1) случайный отбор - отбор единиц наблюдения путем жеребьевки с помощью таблицы случайных чисел и т.д. При этом для каждой единицы обеспечивается равная возможность попасть в выборку.

2) механический отбор - единицы генеральной совокупности, последовательно расположенные по какому-либо признаку (по алфавиту, по датам обращения к врачу и т.д.), разбиваются на равные части; из каждой части в заранее обусловленном порядке отбирают каждую 5, 10 или n-ую единицу наблюдения таким образом, чтобы обеспечить необходимый объем выборки.

3) типический (типологический) отбор - предполагает обязательное предварительное расчленение генеральной совокупности на отдельные качественно однородные группы (типы) с последующей выборкой единиц наблюдения из каждой группы по принипам случайного или механического отбора.

4) серийный (гнездный, гнездовой) отбор - предполагает выборку из генеральной совокупности не отдельных единиц, а целых серий (организованной совокупности единиц наблюдений, например, организаций, районов и т.д.)

5) комбинированные способы - сочетание различных способов формирования выборочной.

    Выборочная совокупность, требования, предъявляемые к ней. Принципы и способы формирования выборочной совокупности.

Различают два вида статистической совокупности :

а) генеральная совокупность - совокупность, состоящая из всех единиц наблюдения, которые могут быть к ней отнесены в соответствии с целью исследования. При изучении общественного здоровья генеральная совокупность часто рассматривается в пределах конкретных территориальных гра­ниц или может ограничиваться другими признаками (полом, возрас­том и др.) в зависимости от цели исследования.

б) выборочная совокупность - часть генеральной, отобранная спе­циальным (выборочным) методом и предназначенная для характерис­тики генеральной совокупности.

Особенности проведения статистического исследования на выборочной совокупности:

1. выборочная совокупность формируется таким образом, чтобы обес­печить равную возможность для всех элементов исходной совокупнос­ти быть охваченными наблюдением.

2. выборочная совокупность должна быть репрезентативной (представительной), точно и полно отра­жать явление, т.е. давать такое же представление о явлении, как если бы изучалась вся генеральная совокупность.

Выборочная совокупность - часть генеральной совокупности, отобранная спе­циальным (выборочным) методом и предназначенная для характерис­тики генеральной совокупности.

Требования, предъявляемые к выборочной совокупности:

1) должна быть репрезентативной, точно и полно отражать явление, т.е. давать такое же представление о явлении как если бы изучалась вся генеральная совокупность, для этого она должна:

а. быть достаточной по численности

б. обладать основными чертами генеральной совокупности (в отобранной части должны быть представлены все элементы в таком же соотношении, как и в генеральной)

2) при ее формировании должен соблюдаться основной принцип формирования выборочной совокупности : равная возможность для каждой единицы наблюдения попасть в исследование.

Способы формирования статистической совокупности:

1) случайный отбор - отбор единиц наблюдения путем жеребьевки с помощью таблицы случайных чисел и т.д. При этом для каждой единицы обеспечивается равная возможность попасть в выборку.

2) механический отбор - единицы генеральной совокупности, последовательно расположенные по какому-либо признаку (по алфавиту, по датам обращения к врачу и т.д.), разбиваются на равные части; из каждой части в заранее обусловленном порядке отбирают каждую 5, 10 или n-ую единицу наблюдения таким образом, чтобы обеспечить необходимый объем выборки.

3) типический (типологический) отбор - предполагает обязательное предварительное расчленение генеральной совокупности на отдельные качественно однородные группы (типы) с последующей выборкой единиц наблюдения из каждой группы по принипам случайного или механического отбора.

4) серийный (гнездный, гнездовой) отбор - предполагает выборку из генеральной совокупности не отдельных единиц, а целых серий (организованной совокупности единиц наблюдений, например, организаций, районов и т.д.)

5) комбинированные способы - сочетание различных способов формирования выборочной.





error: Контент защищен !!