빅데이터 공유를 위한 공통 알고리즘 (응용)

우수한 인재 네트워크를 해결하세요 · 게시됨 2019. 4. 27. 오전 9:53:15

빅데이터 마이닝은 방대하고 불완전하며 잡음이 많고 모호하고 무작위적인 대규모 데이터베이스에 숨겨진 가치 있고 잠재적으로 유용한 정보와 지식을 발견하는 과정이며, 동시에 의사결정 지원 과정이기도 합니다. 주로 인공지능, 머신러닝, 패턴 학습, 통계 등을 기반으로 합니다. 빅데이터 마이닝은 방대하고 불완전하며 잡음이 많고 모호하고 무작위적인 대규모 데이터베이스에 숨겨진 가치 있고 잠재적으로 유용한 정보와 지식을 발견하는 과정이며, 동시에 의사결정 지원 과정이기도 합니다. 주로 인공지능, 머신러닝, 패턴 학습, 통계 등을 기반으로 합니다.

(1) 분류. 분류는 데이터베이스 내 데이터 객체 집합의 공통된 특성을 찾아내고, 분류 패턴에 따라 여러 클래스로 나누는 것으로, 분류 모델을 통해 데이터베이스 내 데이터 항목을 특정 카테고리에 매핑하는 것입니다. 이는 애플리케이션 분류와 트렌드 예측에 적용할 수 있는데, 예를 들어 타오바오 매장은 일정 기간 동안 사용자의 구매를 여러 카테고리로 나누고 상황에 따라 관련 제품을 추천하여 매장의 매출량을 증가시킵니다. 결정 트리, knn, 베이지안 등 다양한 알고리즘이 분류에 사용될 수 있습니다

(2) 회귀분석. 회귀분석은 데이터베이스 내 데이터의 속성 값 특성을 반영하며, 함수를 통해 데이터 매핑의 관계를 표현하여 속성 값 간 의존성을 발견합니다. 이는 데이터 시리즈의 예측과 상관관계에 적용될 수 있습니다. 마케팅에서 회귀분석은 다양한 측면에 적용될 수 있습니다. 예를 들어, 현재 분기 매출에 대한 회귀분석을 통해 다음 분기의 매출 추세를 예측하고 목표 기반 마케팅 변화를 시행합니다. 일반적인 회귀 알고리즘에는 일반 최소제곱법, 로지스틱 회귀, 단계별 회귀, 다변량 적응 회귀 스플라인, 국소 추정 알고리즘이 있습니다 산점도 평활화)

(3) 군집화. 클러스터링은 분류와 유사하지만, 분류와 달리 데이터의 유사점과 차이점에 따라 데이터를 카테고리로 나눕니다. 같은 범주에 속하는 데이터 간의 유사도는 매우 크지만, 서로 다른 범주 간 데이터 간의 유사성은 매우 낮고, 범주 간 데이터 간 상관관계도 매우 낮습니다. 일반적인 클러스터링 알고리즘으로는 k-평균 알고리즘과 기대 최대화(EM)가 있습니다.

(4) 협회 규칙. 연관 규칙은 숨겨진 데이터 항목 간의 연관성 또는 관계로, 즉 다른 데이터 항목의 발생 여부를 한 데이터 항목의 외관을 바탕으로 추론할 수 있습니다. 연관 규칙의 마이닝 과정은 주로 두 단계로 구성됩니다: 첫 단계는 방대한 원시 데이터에서 모든 고빈도 프로젝트 그룹을 찾는 것; 두 번째 극단은 이러한 고빈도 프로젝트 그룹에서 연관 규칙을 생성하는 것입니다. 협회 규칙 마이닝 기술은 금융 산업에서 고객 요구를 예측하는 데 널리 사용되어 왔으며, 은행들은 고객이 관심 가질 만한 정보를 묶어 사용자가 이해하고 ATM에서 해당 정보를 얻을 수 있도록 마케팅을 개선합니다. 일반적인 알고리즘으로는 Apriori 알고리즘과 Eclat 알고리즘이 있습니다.

(5) 신경망 방법. 첨단 인공지능 기술인 신경망은 모호하고 불완전하며 부정확한 지식이나 데이터를 처리하는 비선형 및 처리 문제에 매우 적합하며, 그 특성은 데이터 마이닝 문제 해결에도 매우 적합합니다. 일반적인 신경망 모델은 주로 세 가지 범주로 나뉩니다: 첫 번째는 분류 예측과 패턴 인식을 위한 피드포워드 신경망 모델로, 주로 기능적 네트워크와 지각론으로 표현됩니다; 두 번째 범주는 연관 기억 및 최적화 알고리즘을 위한 피드백 신경망 모델로, 홉필드의 이산 모델과 연속 모델로 표현됩니다. 세 번째 범주는 군집을 위한 자기조직화 매핑 방법으로, ART 모델로 표현됩니다. 신경망을 위한 모델과 알고리즘은 많지만, 특정 데이터 마이닝 분야에서 어떤 모델과 알고리즘을 사용할지에 대한 통일된 규칙은 없으며, 네트워크의 학습 및 의사결정 과정을 이해하는 것은 어렵습니다.

(6) 웹 데이터 마이닝. 웹 데이터 마이닝은 포괄적인 기술로, 암묵적 패턴 P를 발견하는 데 사용되는 문서 구조와 집합 C에서 웹을 의미합니다. 만약 C를 입력으로 간주하고 P를 출력으로 간주한다면, 웹 마이닝 과정은 입력에서 출력으로의 매핑 과정으로 볼 수 있습니다. 현재 점점 더 많은 웹 데이터가 데이터 스트림 형태로 나타나고 있어 웹 데이터 플로우 마이닝에 매우 중요한 의미를 갖고 있습니다. 현재 일반적으로 사용되는 웹 데이터 마이닝 알고리즘은 PageRank 알고리즘, HITS 알고리즘, LOGSOM 알고리즘입니다. 이 세 알고리즘에 언급된 사용자는 일반 사용자이며 개별 사용자를 구분하지 않습니다. 현재 웹 데이터 마이닝은 사용자 분류, 웹사이트 콘텐츠 신속성, 사용자 페이지 머무름 시간, 페이지 링크 출입 수 등 몇 가지 문제에 직면해 있습니다. 오늘날 웹 기술이 빠르게 발전하는 상황에서도 이러한 문제들은 여전히 연구하고 해결할 가치가 있습니다.

(7) 딥러닝
딥러닝 알고리즘은 인공 신경망의 개발입니다. 최근 바이두가 딥러닝 개발을 시작하면서 많은 관심을 받고 있으며, 이는 중국에서 큰 관심을 끌고 있습니다. 오늘날 컴퓨팅 파워가 점점 저렴해지는 세상에서, 딥러닝은 훨씬 크고 복잡한 신경망을 구축하려고 시도하고 있습니다. 많은 딥러닝 알고리즘은 소량의 미확인 데이터를 가진 대규모 데이터셋을 처리하는 데 사용되는 반지도 학습 알고리즘입니다. 일반적인 딥러닝 알고리즘으로는 제한 볼츠만 머신(RBN), 딥 빌리브 네트워크(DBN), 컨볼루션 네트워크, 스택드 오토인코더 등이 있습니다.

(8) 적분 알고리즘
앙상블 알고리즘은 비교적 약한 학습 모델을 사용해 동일한 샘플에 독립적으로 학습한 후, 전체 예측을 위해 결과를 통합합니다. 앙상블 알고리즘의 주요 어려움은 어떤 독립적이고 약한 학습 모델을 통합하는지, 그리고 학습 결과를 어떻게 통합할 것인가입니다. 이 알고리즘은 매우 강력한 종류이며 동시에 매우 인기 있는 알고리즘입니다. 일반적인 알고리즘으로는 부스팅, 부트스트랩 집계(Bagging), AdaBoost, 스택드 일반화(Blending), 그라디언트 부스팅 머신(GBM), 랜덤 포레스트 등이 있습니다.

또한, 차원 축소는 군집화 알고리즘처럼 데이터 분석 공학에서도 매우 중요합니다. 차원 축소 알고리즘은 데이터의 내부 구조를 분석하려고 하지만, 차원 축소 알고리즘은 비지도 학습 방식으로 데이터를 요약하거나 해석하는 데 적은 정보를 사용하려고 합니다. 이 알고리즘들은 고차원 데이터를 시각화하거나 지도 학습을 위한 데이터를 단순화하는 데 사용할 수 있습니다. 일반적인 알고리즘으로는 주성분분석(PCA), 부분최소제곱회귀(PLS), 새먼 매핑, 다차원 스케일링(MDS), 투영 추적 등이 있습니다.

일부 알고리즘의 장단점 및 알고리즘 선택 참고문헌에 대한 자세한 분석을 원하시면, 다음 블로그에서 여러 일반적으로 사용되는 알고리즘의 적응 시나리오와 그 장점과 단점을 살펴보실 수 있습니다(매우 좋습니다).

다음은 위 블로그의 한 단락에서 발췌한 내용입니다:
알고리즘 선택 참고문헌:

저는 이전에 외국 기사를 번역한 적이 있는데, 그 중 한 기사는 간단한 알고리즘 선택 기법을 제시합니다:

효과가 좋지 않다면, 그 결과를 참고 자료로 사용해 다른 알고리즘과 비교할 수 있습니다.

그 다음 결정 트리(랜덤 포레스트)를 사용해 모델 성능을 극적으로 향상시킬 수 있는지 확인해 보세요. 최종 모델로 사용하지 않더라도, 랜덤 포레스트를 사용해 노이즈 변수를 제거하고 특징을 선택할 수 있습니다;

특징과 관측 샘플의 수가 특히 많다면, 자원과 시간이 충분할 때 SVM 사용이 가능합니다(이 전제는 중요합니다).

보통은 [XGBOOST>=GBDT>=SVM>=RF>=Adaboost>=기타...], 지금은 딥러닝이 매우 인기가 많고 여러 분야에서 사용되고 있으며, 신경망에 기반하고 있습니다. 저도 현재 배우고 있지만 이론적 지식이 깊지 않고 이해도 깊지 않아 여기서 소개하지 않겠습니다.

알고리즘도 중요하지만, 좋은 데이터가 좋은 알고리즘보다 더 낫고, 좋은 특징을 설계하는 것이 큰 이점이 있습니다. 데이터셋이 매우 크다면, 어떤 알고리즘을 사용하든 분류 성능에 큰 영향을 주지 않을 수 있습니다(속도와 사용 편의성에 따라 선택할 수 있습니다).

우수한 인재 네트워크를 해결하세요 · 게시됨 2019. 5. 27. 오전 8:27:15

여러분 안녕하세요

우수한 인재 네트워크를 해결하세요 · 게시됨 2019. 9. 16. 오후 12:10:06

알고리즘은 고액 보상을 받고 언제든지 연락할 수 있습니다

빅데이터 공유를 위한 공통 알고리즘 (응용)

본 섹션