Computer Science/DeepLearning

인공지능 기초 8 - 머신러닝과 수학 2

2mukee 2020. 12. 10. 14:29
320x100
320x100

 

기초개념

- 가중치 : 독립변수와 종속변수의 상관관계 (<수학>기울기, <통계>회귀분석)

- 변수 : 데이터를 구성하는 항목

- 특징량 : 변수를 사용한 계산식 (데이터의 변화)

- 선형 계획법

: 선형함수의 제약과 조건을 이용해 x축과 y축으로 이루어진 그래프 내의 점의 분포를 구하는 것

: 다음 값을 예측하거나 분류하는 방법

: 선형분리

ㆍ선형함수를 이용해 점의 분포를 그룹별로 나누는 것

: 사상

ㆍ변수값 쌍을 함수형태로 변환한 것 (그래프의 점들을 함수로 표현)

- 비선형 계획법

: 함수로 표현이 불가할때 (사상 및 선형계획이 불가할때) 값을 예측하거나 분류하는 방법

 

 

회귀분석 (기울기 분석)

- 주어진 데이터로 함수를 만들고 그래프의 기울기와 패턴을 찾는 것 (회귀 = 기울기)

- 데이터의 관련성을 찾는 방법 (어느 정도의 가중치가 나오는지 판단가능)

- 분산 : 기울기로부터 데이터가 흩어진 정도

- 함수에 피팅할때는 잔차가 최소화 되도록 함수를 조정

: 피팅 (주어진 데이터를 가장 잘 표현하도록 조정하는 것)

: 잔차 (데이터끼리의 거리)

: 일반적으로 최소제곱법을 많이 사용

ex) 신장과 체중 사이의 관계 Y=aX+B

 

 

선형회귀

- 종속변수 Y와 한개 이상의 독립변수 X의 선형관계를 회귀분석하는 기법

: 독립변수 = 다른 변수의 영향을 받지 않는 변수

: 종속변수 = 결과나 중간값과 같이 다른 변수에 의해 영향을 받는 변수

- 선형예측함수를 이용하여 회귀식(선형모델)을 모델링

 

 

다중회귀

- 독립변수가 여러개일때의 기울기 함수를 구하는 기법

- 2차원 평면상에 점을 찍어 주성분 분석을 통해 시각화

ex) 날씨(기온, 습도, 바람, 태양), y = a+ x1 + x2 + e

 

 

로지스틱 회귀

- 독립변수의 선형 결합을 이용해 종속변수와 독립변수와의 관계를 함수로 표현하는 기법

- 주로 로그함수와 지수함수를 이용

 

 

최소 제곱법

- 측정값을 기초로하여 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법

- 데이터의 분산도에 따라 기울기가 변화

- 특이값에 취약하다는 약점이 존재 (특이값에 대한 패널티를 주어 성능 개선 가능)

 

 

LOWESS 분석

- 가중회귀 함수를 이용하여 일종의 추세선을 찾는 방법 (데이터의 평활화)

- 기울기가 꺾인선 형태로 구성

 

 

정규화 (Regulrarization)

- 모델이 높은 일반화 능력(성능)을 가지도록 가중치에 패널티를 부여하는 방식

: 가중치를 변화 시키면 데이터(독립변수)가 결과(족속변수)에 미치는 영향을 조절할 수 있음

- 정규화는 Lasso(L1정규화)와 Ridge(L2정규화), Elastic Net(L1정규화+L2정규화)으로 나뉨

- 벌칙항 (정규화 항)

: 패널티를 부여하는 항

 

 

Lasso (L1정규화)

- 영향력이 적은 변수들의 계수를 0으로 취급

- 절대값에 대해 설정

- 유효한 데이터만 선정할때 유용

ex) 절대값 기준을 5로 잡으면 5미만의 데이터는 0으로 취급

 

 

Ridge (L2정규화)

- 제곱 값에 대해 패널티 부여

- 분산을 줄일때 유용

ex) 제곱값 기준을 144로 잡으면 제곱했을때 144가 넘는 값은 제외

 

 

Elastic Net (L1정규화 + L2정규화)

- L1 정규화와 L2 정규화를 통해 유효데이터 선정과 분산을 줄이는 방식

- 다중회귀 때 사용

 

 

유사도

- 비교대상이 얼마나 비슷한지 확인하는 기준

 

코사인 유사도

- 문서 사이의 유사도를 계산하는데 사용 (두 가지 벡터를 표현한 그래프가 있을때 그 사이의 각도로 계산)

- 문서에 나타나는 단어의 출현 빈도를 구해 코사인 유사도 계산식에 적용하여 계산

 

 

상관계수

- 2개의 확률 변수 사이의 분포 규칙으로 선형 관계의 정도를 의미

: 두 변수의 관련성 여부 판단 (가중치를 알수 없음)

: 상관계수는 -1 ~ 0 ~ 1로 구분하여 나눔

- 일반적으로 피어슨 상관계수를 사용

 

 

상관함수

- 상관계수를 함수로 표현한 것

- 주로 교차상관함수와 자기상관 함수가 쓰임

- 거리

: 편집 거리

ㆍ'거리'의 개념으로 유사도를 나타낸것

ㆍ주로 오타 보정에 사용

ㆍ치환, 삽입, 삭제에 패널티를 설정하고 패널티의 합계를 유사도로 규정

: 레벤슈타인 거리

ㆍ문자열 사이의 유사도를 나타낼때 사용

ㆍ일반적인 편집 거리의 개념으로 취급

: 해밍 거리

ㆍ고정길이 이진 데이터에서 서로 다른 비트 부호수를 갖는 문자 개수

: 유클리드 거리

ㆍ점 두개의 좌표사이의 거리

: 마할노비스 거리

ㆍ유클리드 거리에서 점의 수를 늘려 거리를 구함

: 자카드 계수

ㆍ집합 2개의 유사도를 구할때 공통요소를 전체요소 수로 나눔

 

 

그래프

- 유향그래프 : 방향성이 있는 그래프

- 무향그래프 : 방향성이 없는 그래프

- 가중그래프 : 유향그래프 중에 가중치 정보가 추가된 그래프

- 네트워크 분석

: 그래프를 이용한 데이터 분석 방법의 전반

- 트리구조 그래프

: 강화학습에서 많이 사용하는 계층적인 구조의 그래프

 

 

 

 

300x250
728x90