austin-distel-rxpThOwuVgE-unsplash.jpg

AI연구회

경남ICT협회 AI 연구 모임

학습

다변량 데이터 분포를 사용한 Anomaly defect detection과 활용 방안 검토

1. 변칙 검색이란?

일반적으로 이상 탐지는 평범하지 않은 현상을 식별하는 프로세스를 말합니다. 변칙 검색의 목표는 예상과 일치하지 않고 일부 기본 패턴에 맞지 않는 이벤트, 발생, 데이터 요소 또는 결과를 식별하는 것입니다. 따라서 변칙 검색을 구현하는 핵심은 예상 이벤트의 기본 패턴을 이해하는 것입니다. 예상한 패턴을 알고 있다면 이를 사용하여 이전에 본 적이 없는 데이터 포인트를 매핑할 수 있습니다. 매핑이 성공하지 못하고 새 데이터 포인트가 예상 패턴을 벗어나면 이상 현상을 발견했을 가능성이 높습니다.

 

일반적인 첫 번째 유형은 

 전체 데이터 세트와 관련하여 비정상으로 간주되는 개별 인스턴스가 포함됩니다(예: 고속도로에서 매우 낮은 속도로 주행하는 개별 자동차는 모든 고속도로 교통량에 비해 비정상적임). 

두 번째 유형은 

특정 컨텍스트 내에서 변칙적인 사례가 포함됩니다(예: 모든 신용 카드 거래와 비교할 때 괜찮아 보이지만 특정 개인의 지출 패턴에 대해서는 변칙적인 신용 카드 거래). 

세 번째 유형은 

 이상 현상은 집합적이며, 각 인스턴스가 자체적으로 특정 기대치를 따르더라도 인스턴스 집합은 비정상으로 간주될 수 있습니다 

 

변칙 검색 기술의 세 가지 범주

  1. 지도 학습 검색에는 데이터 세트에 양성 및 비정상 레이블이 필요합니다. 신경망 또는 부스트 포리스트와 같은 감독 학습 알고리즘을 적용하여 데이터 요소를 예상/변칙 클래스로 분류할 수 있습니다. 안타깝게도 변칙 데이터 세트는 매우 불균형한 경향이 있으며 일반적으로 지도 학습을 지원하기 위해 업샘플링 또는 다운샘플링 기술을 허용하기에 충분한 학습 샘플이 없습니다.
  2.  
  3. Semi-supervised 검색은 부분적으로 레이블이 지정된 데이터를 처리합니다. 반 감독 기술에서는 입력 데이터에 양수 인스턴스만 포함되어 있고 입력 데이터가 예상 패턴을 따른다고 가정합니다. 
  4.  
  5. 이러한 기술은 양성 사례를 생성할 수 있도록 양성 사례의 분포를 학습하려고 시도합니다. 테스트하는 동안 알고리즘은 모델에서 비정상 인스턴스가 생성되었을 가능성을 평가하고 이 확률을 사용하여 비정상 사례를 예측합니다. 
  6.  
  7. Unsupervised 검색은 예상의 경계를 만들기 위해 완전히 레이블이 지정되지 않은 데이터를 사용하며 이 경계를 벗어나는 모든 것은 비정상으로 간주됩니다. 변칙 검색 기술은 모든 데이터에 적용할 수 있으며 알고리즘이 가장 유용한 데이터 형식 영향을 줍니다. 데이터 유형에는 계열(시계열, 연결 목록, 언어, 사운드), 표 형식(예: 엔진 센서 데이터), 이미지(예: X선 이미지) 및 그래프(예: 워크플로 또는 프로세스)가 포함됩니다.
  8.  
  • 다양한 문제와 기술을 감안할 때 변칙 검색은 실제로 많은 응용 프로그램이 있는 데이터 과학의 방대한 영역입니다. 이러한 응용 프로그램에는 사기 탐지, 사이버 보안 응용 프로그램, 판매 또는 거래 데이터 분석, 희귀 질환 식별, 제조 공정 모니터링, 외계 행성 검색, 기계 학습 전 처리 등이 포함됩니다.
  • 따라서 강력하고 성능이 뛰어난 알고리즘에 대한 액세스는 많은 분야에서 상당한 영향을 미칠 수 있는 잠재력을 가지고 있으며, 특히 이미지 데이터 전 처리와 Auto Annotation에 활용 가능성을 검토 하고자 한다. 
  •  

     이미지 데이터에서 Threshold, Normalization등의 전 처리 및 Labeling 활용 방안 검토 -→ Next     

기업 홍보를 위한 확실한 방법
협회 홈페이지에 회사정보를 보강해 보세요.