인공지능 기초 8 - 머신러닝과 수학 2
기초개념
- 가중치 : 독립변수와 종속변수의 상관관계 (<수학>기울기, <통계>회귀분석)
- 변수 : 데이터를 구성하는 항목
- 특징량 : 변수를 사용한 계산식 (데이터의 변화)
- 선형 계획법
: 선형함수의 제약과 조건을 이용해 x축과 y축으로 이루어진 그래프 내의 점의 분포를 구하는 것
: 다음 값을 예측하거나 분류하는 방법
: 선형분리
ㆍ선형함수를 이용해 점의 분포를 그룹별로 나누는 것
: 사상
ㆍ변수값 쌍을 함수형태로 변환한 것 (그래프의 점들을 함수로 표현)
- 비선형 계획법
: 함수로 표현이 불가할때 (사상 및 선형계획이 불가할때) 값을 예측하거나 분류하는 방법
회귀분석 (기울기 분석)
- 주어진 데이터로 함수를 만들고 그래프의 기울기와 패턴을 찾는 것 (회귀 = 기울기)
- 데이터의 관련성을 찾는 방법 (어느 정도의 가중치가 나오는지 판단가능)
- 분산 : 기울기로부터 데이터가 흩어진 정도
- 함수에 피팅할때는 잔차가 최소화 되도록 함수를 조정
: 피팅 (주어진 데이터를 가장 잘 표현하도록 조정하는 것)
: 잔차 (데이터끼리의 거리)
: 일반적으로 최소제곱법을 많이 사용
ex) 신장과 체중 사이의 관계 Y=aX+B
선형회귀
- 종속변수 Y와 한개 이상의 독립변수 X의 선형관계를 회귀분석하는 기법
: 독립변수 = 다른 변수의 영향을 받지 않는 변수
: 종속변수 = 결과나 중간값과 같이 다른 변수에 의해 영향을 받는 변수
- 선형예측함수를 이용하여 회귀식(선형모델)을 모델링
다중회귀
- 독립변수가 여러개일때의 기울기 함수를 구하는 기법
- 2차원 평면상에 점을 찍어 주성분 분석을 통해 시각화
ex) 날씨(기온, 습도, 바람, 태양), y = a+ x1 + x2 + e
로지스틱 회귀
- 독립변수의 선형 결합을 이용해 종속변수와 독립변수와의 관계를 함수로 표현하는 기법
- 주로 로그함수와 지수함수를 이용
최소 제곱법
- 측정값을 기초로하여 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법
- 데이터의 분산도에 따라 기울기가 변화
- 특이값에 취약하다는 약점이 존재 (특이값에 대한 패널티를 주어 성능 개선 가능)
LOWESS 분석
- 가중회귀 함수를 이용하여 일종의 추세선을 찾는 방법 (데이터의 평활화)
- 기울기가 꺾인선 형태로 구성
정규화 (Regulrarization)
- 모델이 높은 일반화 능력(성능)을 가지도록 가중치에 패널티를 부여하는 방식
: 가중치를 변화 시키면 데이터(독립변수)가 결과(족속변수)에 미치는 영향을 조절할 수 있음
- 정규화는 Lasso(L1정규화)와 Ridge(L2정규화), Elastic Net(L1정규화+L2정규화)으로 나뉨
- 벌칙항 (정규화 항)
: 패널티를 부여하는 항
Lasso (L1정규화)
- 영향력이 적은 변수들의 계수를 0으로 취급
- 절대값에 대해 설정
- 유효한 데이터만 선정할때 유용
ex) 절대값 기준을 5로 잡으면 5미만의 데이터는 0으로 취급
Ridge (L2정규화)
- 제곱 값에 대해 패널티 부여
- 분산을 줄일때 유용
ex) 제곱값 기준을 144로 잡으면 제곱했을때 144가 넘는 값은 제외
Elastic Net (L1정규화 + L2정규화)
- L1 정규화와 L2 정규화를 통해 유효데이터 선정과 분산을 줄이는 방식
- 다중회귀 때 사용
유사도
- 비교대상이 얼마나 비슷한지 확인하는 기준
코사인 유사도
- 문서 사이의 유사도를 계산하는데 사용 (두 가지 벡터를 표현한 그래프가 있을때 그 사이의 각도로 계산)
- 문서에 나타나는 단어의 출현 빈도를 구해 코사인 유사도 계산식에 적용하여 계산
상관계수
- 2개의 확률 변수 사이의 분포 규칙으로 선형 관계의 정도를 의미
: 두 변수의 관련성 여부 판단 (가중치를 알수 없음)
: 상관계수는 -1 ~ 0 ~ 1로 구분하여 나눔
- 일반적으로 피어슨 상관계수를 사용
상관함수
- 상관계수를 함수로 표현한 것
- 주로 교차상관함수와 자기상관 함수가 쓰임
- 거리
: 편집 거리
ㆍ'거리'의 개념으로 유사도를 나타낸것
ㆍ주로 오타 보정에 사용
ㆍ치환, 삽입, 삭제에 패널티를 설정하고 패널티의 합계를 유사도로 규정
: 레벤슈타인 거리
ㆍ문자열 사이의 유사도를 나타낼때 사용
ㆍ일반적인 편집 거리의 개념으로 취급
: 해밍 거리
ㆍ고정길이 이진 데이터에서 서로 다른 비트 부호수를 갖는 문자 개수
: 유클리드 거리
ㆍ점 두개의 좌표사이의 거리
: 마할노비스 거리
ㆍ유클리드 거리에서 점의 수를 늘려 거리를 구함
: 자카드 계수
ㆍ집합 2개의 유사도를 구할때 공통요소를 전체요소 수로 나눔
그래프
- 유향그래프 : 방향성이 있는 그래프
- 무향그래프 : 방향성이 없는 그래프
- 가중그래프 : 유향그래프 중에 가중치 정보가 추가된 그래프
- 네트워크 분석
: 그래프를 이용한 데이터 분석 방법의 전반
- 트리구조 그래프
: 강화학습에서 많이 사용하는 계층적인 구조의 그래프