|
|
Опубликовано 27.04.2019 9:53:15
|
|
|

Майнинг больших данных — это процесс обнаружения ценной и потенциально полезной информации и знаний, скрытых в огромных, неполных, шумных, нечетких и случайных больших базах данных, а также является процессом поддержки принятия решений. Он в основном основан на искусственном интеллекте, машинном обучении, обучении паттернах, статистике и т.д. Майнинг больших данных — это процесс обнаружения ценной и потенциально полезной информации и знаний, скрытых в огромных, неполных, шумных, нечетких и случайных больших базах данных, а также является процессом поддержки принятия решений. Он в основном основан на искусственном интеллекте, машинном обучении, обучении паттернах, статистике и т.д.
(1) Классификация. Классификация — это выявление общих характеристик набора объектов данных в базе данных и их разделение на разные классы в соответствии с классификационной моделью, целью которой является сопоставление элементов данных в базе данных с заданной категорией через модель классификации. Её можно применять к классификации приложений и прогнозированию тенденций, например, магазины Taobao делят покупки пользователей на разные категории в течение определенного времени и рекомендуют им связанные товары в зависимости от ситуации, тем самым увеличивая объём продаж магазина. Для классификации можно использовать множество алгоритмов, таких как деревья решений, knn, байесовские и др.
(2) Регрессионный анализ. Регрессионный анализ отражает характеристики значений атрибутов данных в базе данных и выявляет зависимости между значениями атрибутов, выражая взаимосвязь отображения данных через функции. Её можно применять к прогнозированию и корреляции рядов данных. В маркетинге регрессионный анализ можно применять к различным аспектам. Например, с помощью регрессионного анализа продаж в текущем квартале прогнозируется тенденция продаж в следующем квартале и вносятся целенаправленные маркетинговые изменения. Распространённые алгоритмы регрессии включают обычную наименьшую регрессию, логистическую регрессию, пошаговую регрессию, многомерные адаптивные регрессионные сплайны и локально оценённые Сглаживание диаграммы рассеяния)
(3) Кластеризация. Кластеризация похожа на классификацию, но в отличие от классификации, она делит набор данных на категории на основе сходств и различий в данных. Сходство между данными, относящимися к одной категории, очень велико, но сходство между данными между категориями очень мало, а корреляция между этими категориями очень низкая. Распространённые алгоритмы кластеризации включают k-средние алгоритмы и максимизацию ожиданий (EM).
(4) Правила ассоциации. Правила ассоциаций — это ассоциации или отношения между скрытыми элементами данных, то есть возникновение других элементов данных можно вывести на основе внешнего вида одного элемента данных. Процесс майнинга правил ассоциации в основном состоит из двух этапов: первый этап — поиск всех высокочастотных проектных групп из массовых исходных данных; Второй крайний вариант — генерировать правила ассоциаций из этих групп высокочастотных проектов. Технология майнинга по правилам ассоциаций широко используется в финансовых предприятиях для прогнозирования потребностей клиентов, а банки улучшают свой маркетинг, объединяя информацию, которая может быть интересна клиентам, чтобы пользователи могли понимать и получать соответствующую информацию на своих банкоматах. Распространённые алгоритмы включают алгоритмы Априори и алгоритм Эклат.
(5) Метод нейронных сетей. Как передовая технология искусственного интеллекта, нейронные сети отлично подходят для решения нелинейных и вычислительных задач, характеризующихся расплывчатыми, неполными и неточными знаниями или данными, а её характеристики отлично подходят для решения задач добычи данных. Типичные модели нейронных сетей в основном делятся на три категории: первая — это модель прямой нейронной сети для прогнозирования классификации и распознавания образов, которая в основном представлена функциональными сетями и перцептронами; Вторая категория — модель обратной связи нейронных сетей для ассоциативной памяти и алгоритмов оптимизации, представленная дискретной моделью Хопфилда и непрерывной моделью. Третья категория — это метод самоорганизующегося отображения для кластеризации, представленный моделью ART. Хотя существует множество моделей и алгоритмов для нейронных сетей, нет единого правила по тому, какие модели и алгоритмы использовать в конкретных областях майнинга данных, и людям сложно понять процесс обучения и принятия решений в сетях.
(6) Веб-майнинг данных. Майнинг веб-данных — это комплексная технология, которая относится к вебу из структуры документа и множества C, используемого для обнаружения неявного паттерна P; если C рассматривается как вход, P — как выход, то процесс веб-майнинга можно рассматривать как процесс отображения от входа к выходу. В настоящее время всё больше веб-данных появляется в виде потоков данных, поэтому это имеет большое значение для анализа потоков веб-данных. В настоящее время наиболее часто используемые алгоритмы для веб-анализа данных: алгоритм PageRank, алгоритм HITS и алгоритм LOGSOM. Упомянутые в этих трех алгоритмах пользователи являются общими пользователями и не различают отдельных пользователей. В настоящее время майнинг веб-данных сталкивается с некоторыми проблемами, включая: классификацию пользователей, своевременность контента сайта, время пребывания пользователей на странице, количество ссылок на вход и выход страниц и т.д. В современном стремительном развитии веб-технологий эти проблемы всё ещё стоит изучать и решать.
(7) Глубокое обучение Алгоритмы глубокого обучения — это разработка искусственных нейронных сетей. В последнее время это привлекло много внимания, особенно после того, как Baidu также начал развивать глубокое обучение, что привлекло большое внимание в Китае. В современном мире, где вычислительная мощность становится дешевле, глубокое обучение пытается создать нейронные сети, которые гораздо больше и сложнее. Многие алгоритмы глубокого обучения — это полуконтролируемые алгоритмы, используемые для обработки больших наборов данных с небольшим объёмом неидентифицированных данных. Распространённые алгоритмы глубокого обучения включают: ограниченную машину Больцмана (RBN), глубокие сети убеждений (DBN), сверточные сети и стекированные автокодеры.
(8) Алгоритм интеграции Алгоритм ансамбля использует относительно слабые модели обучения для независимого обучения на одной и той же выборке, а затем интегрирует результаты для общего предсказания. Основная сложность ансамблевого алгоритма заключается в том, какие независимые слабые модели обучения интегрированы и как интегрировать результаты обучения. Это очень мощный класс алгоритмов и одновременно очень популярный. Распространённые алгоритмы включают: Boosting, Bootstrapped Aggregation (Bagging), AdaBoost, Stacked Generalization (Blending), Gradient Boosting Machine (GBM) и Random Forest.
Кроме того, сокращение размерности также очень важно в инженерии анализа данных, как и алгоритмы кластеризации, алгоритмы уменьшения размерности пытаются анализировать внутреннюю структуру данных, но алгоритмы уменьшения размерности стремятся использовать меньше информации для суммирования или интерпретации данных без надзора. Эти алгоритмы могут использоваться для визуализации высокомерных данных или для упрощения данных для обучения под надзором. Распространённые алгоритмы включают: анализ компонентов принципов (PCA), регрессию частичного наименьшего квадрата (PLS), картографирование Саммона, многомерное масштабирование (MDS), поиск проекций и др.
Для детального анализа преимуществ и недостатков некоторых алгоритмов и ссылок на выбор алгоритмов вы можете ознакомиться со сценариями адаптации нескольких часто используемых алгоритмов и их преимуществами и недостатками в следующем блоге (очень хорошо).
Ниже приведено из абзаца из блога выше: Ссылка на выбор алгоритма:
Я уже переводил некоторые зарубежные статьи, и одна из них даёт простую технику выбора алгоритмов:
Если её эффект нехороший, результаты можно использовать в качестве ориентира и сравнивать с другими алгоритмами на базе.
Затем попробуйте дерево решений (случайный лес), чтобы посмотреть, сможет ли оно значительно улучшить производительность вашей модели. Даже если вы не используете его как финальную модель, вы можете использовать случайный лес для удаления шумовых переменных и выбора признаков;
Если количество признаков и наблюдательных выборок особенно велико, то использование SVM возможно, когда ресурсы и время достаточны (эта предпосылка важна).
Обычно: [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=Другое...], сейчас глубокое обучение очень популярно, используется во многих областях, оно основано на нейронных сетях, я сейчас изучаю сам, но теоретические знания не очень глубокие, понимание недостаточно глубокое, я не буду вводить это здесь.
Алгоритмы важны, но хорошие данные лучше хороших алгоритмов, и проектирование хороших функций приносит огромную пользу. Если у вас очень большой набор данных, то какой бы алгоритм вы ни использовали, это может не сильно повлиять на производительность классификации (вы можете выбирать по скорости и простоте использования).
|
Предыдущий:Преобразовать результаты запроса в формат Json script sharingСледующий:C# — это сервис Windows, который регулярно выполняет задачи
|