자격증/ADsP

[3κ³Όλͺ©] [톡계 뢄석] λ‹€λ³€λŸ‰ 뢄석

_silver 2025. 10. 25. 03:03

λ³€μˆ˜ λ³€ν™˜μ˜ μ’…λ₯˜(λ‹¨μˆœ κΈ°λŠ₯ λ³€ν™˜, 비닝, 데이터 μŠ€μΌ€μΌλ§, 인코딩)

λ‹¨μˆœ κΈ°λŠ₯ λ³€ν™˜ - 뢄포 λ³€κ²½ λͺ©μ 
- 둜그 λ³€ν™˜: 0 λ˜λŠ” 음수 κ°’ 적용 λΆˆκ°€
- 루트 λ³€ν™˜: 0 λ˜λŠ” 음수 κ°’ 적용 κ°€λŠ₯
비닝(=ꡬ간화) - μ—°μ†ν˜• λ³€μˆ˜ β–Έ λ²”μ£Όν˜• λ³€μˆ˜ μ „ν™˜
- 작음 제거 β–Έ 데이터 ν‰ν™œν™”
- νšŒκ·€ 예츑 λͺ¨λΈ
데이터 μŠ€μΌ€μΌλ§ - 각 λ³€μˆ˜μ˜ μŠ€μΌ€μΌ(λ‹¨μœ„, λ²”μœ„)이 λ‹€λ₯Όλ•Œ β–Έ λ™μΌν•œ κΈ°μ€€μœΌλ‘œ μ‘°μ •
- 거리 기반 μ•Œκ³ λ¦¬μ¦˜
- μ •κ·œν™”, ν‘œμ€€ν™” 방법 μ‚¬μš©
   β–Έ μ •κ·œν™”(= μ΅œμ†Œ-μ΅œλŒ€ μ •κ·œν™”)
      - 데이터 λ²”μœ„: 0~1 사이 λ³€ν™˜
      - 계산식: 쀑앙값 - min(x) / max(x) - min(x)

   β–Έ ν‘œμ€€ν™”
      - ν‘œμ€€μ •κ·œλΆ„ν¬λ₯Ό 갖도둝 ν‘œμ€€ν™” λ³€ν™˜
      - 평균 = 0, ν‘œμ€€νŽΈμ°¨ = 1
인코딩(=λΆ€ν˜Έν™”) - 기계가 이해할 수 μžˆλ„λ‘ 데이터λ₯Ό 수치(숫자) ν˜•νƒœλ‘œ λ³€ν™˜ν•˜λŠ” κ³Όμ •
- λ²”μ£Όν˜• λ³€μˆ˜(λ¬Έμžν˜•) β–Έ μˆ˜μΉ˜ν˜• 데이터 λ³€ν™˜
- μ’…λ₯˜: Label Encoding, One Hot Encoding

πŸ—’οΈ λ‹¨μˆœ κΈ°λŠ₯ λ³€ν™˜ 방법

μ–‘μ˜ μ™œλ„ 음의 μ™œλ„
- 둜그 λ³€ν™˜
- 루트 λ³€ν™˜
- μ—­μˆ˜ λ³€ν™˜
- 제곱 λ³€ν™˜
- μ§€μˆ˜ λ³€ν™˜

 

πŸ—’οΈ 인코딩 μ’…λ₯˜(Label Encoding, One Hot Encoding)

 Label Encoding
남 0 1
μ—¬ 1 0
One Hot Encoding
이름 학생_A 학생_B 학생_C
A 1 0 0
B 0 1 0
C 0 0 1

 


상관 관계 뢄석

- 두 개의 λ³€μˆ˜ κ°„ 상관 관계(μƒν˜Έ μ—°κ΄€μ„±)λ₯Ό λΆ„μ„ν•˜λŠ” 방법

  β–Έ ν•œ λ³€μˆ˜κ°€ 증가(λ˜λŠ” κ°μ†Œ)μ‹œ λ‹€λ₯Έ λ³€μˆ˜κ°€ μ–΄λ–»κ²Œ λ³€ν•˜λŠ”μ§€ 확인

- λ³€μˆ˜ κ°„ 인과관계 μ„€λͺ…ν•˜λŠ” 것이 μ•„λ‹ˆλΌ κ΄€λ ¨μ„±μ˜ 정도 뢄석

 

1. 곡뢄산(COV) ⭐️⭐️⭐️⭐️⭐️

- 두 λ³€μˆ˜ μ‚¬μ΄μ˜ 상관 관계λ₯Ό λ‚˜νƒ€λ‚΄λŠ” κ°’

- λ³€μˆ˜μ˜ ν¬κΈ°λ‚˜ λ‹¨μœ„μ˜ 영ν–₯을 λ°›μŒ

- μΈ‘μ • λ‹¨μœ„μ— 따라 λ‹¬λΌμ§€λ―€λ‘œ μ„ ν˜•κ΄€κ³„μ˜ 강도λ₯Ό λ‚˜νƒ€λ‚΄μ§€ λͺ»ν•¨

COV(x,y) > 0 β–Έ x 증가, y 증가

COV(x,y) > 0 β–Έ x 증가, y κ°μ†Œ 

COV(x,y) = 0 β–Έ 두 λ³€μˆ˜κ°„ μ„ ν˜•μ  관계 μ—†μŒ, μ„œλ‘œ 독립을 μ˜λ―Έν•˜λŠ” 것은 μ•„λ‹˜...

 

2. μƒκ΄€κ³„μˆ˜ ⭐️⭐️⭐️⭐️⭐️

- 두 λ³€μˆ˜ μ‚¬μ΄μ˜ 연관성을 수치적으둜 κ°κ΄€ν™”ν•˜μ—¬ 두 λ³€μˆ˜ μ‚¬μ΄μ˜ λ°©ν–₯μ„±(μŒμ˜μƒκ΄€, μ–‘μ˜μƒκ΄€)κ³Ό 강도λ₯Ό ν‘œν˜„

- -1 λΆ€ν„° 1 μ‚¬μž‡κ°’μ„ κ°€μ§€λ©° μ ˆλŒ€κ°’μ΄ 1에 κ°€κΉŒμšΈμˆ˜λ‘ 상관관계 강도 큼

- μƒκ΄€λΆ„μ„μ˜ μœ ν˜•: ν”Όμ–΄μŠ¨ μƒκ΄€κ³„μˆ˜, μŠ€ν”Όμ–΄λ§Œ μƒκ΄€κ³„μˆ˜

ν”Όμ–΄μŠ¨ μƒκ΄€κ³„μˆ˜ μŠ€ν”Όμ–΄λ§Œ μƒκ΄€κ³„μˆ˜
- μ„ ν˜•μ μΈ 크기만 μΈ‘μ • β–Έ λͺ¨μˆ˜μ  척도
- 양적 척도(λ“±κ°„ 척도, λΉ„μœ¨ 척도)
- μ—°μ†ν˜• λ³€μˆ˜
- μ„ ν˜• 관계 + λΉ„μ„ ν˜• 상관 관계 μΈ‘μ • κ°€λŠ₯
- μˆœμ„œ(μ„œμ—΄)척도
- μˆœμ„œν˜•, μ—°μ†ν˜•, μ΄μ‚°ν˜• λ³€μˆ˜
- μ›μ‹œ 데이터가 μ•„λ‹Œ 각 λ³€μˆ˜μ— λŒ€ν•΄ μˆœμœ„λ₯Ό λ§€κΈ΄ 값을 기반
- λΉ„λͺ¨μˆ˜μ  λ°©λ²•μœΌλ‘œ 두 λ³€μˆ˜κ°„μ˜ 단쑰 관계 평가
μ²™λ„μ˜ μ’…λ₯˜ 정리 λΈ”λ‘œκ·Έ

 

πŸ—’οΈ 곡뢄산은 λ³€μˆ˜μ˜ ν¬κΈ°λ‚˜ λ‹¨μœ„μ˜ 영ν–₯을 λ°›μ§€λ§Œ, μƒκ΄€κ³„μˆ˜λŠ” 이λ₯Ό μ •κ·œν™”ν•œ κ°’μ΄λ―€λ‘œ λ‹¨μœ„μ˜ 영ν–₯을 λ°›μ§€ μ•ŠμŒ!

πŸ—’οΈ μŠ€ν”Όμ–΄λ§Œ μƒκ΄€κ³„μˆ˜λŠ” λ²”μ£Όν˜• λ³€μˆ˜μ— μ μš©ν•  수 μ—†μœΌλ©°, μ„ ν˜• 관계λ₯Ό μΈ‘μ •ν•˜μ§€ λͺ»ν•¨!

 


닀차원 척도법(MDS)

- 거리λ₯Ό μ΅œλŒ€ν•œ 보쑴(= 차원 μΆ•μ†Œ 기법)

- κ°œμ²΄λ“€ μ‚¬μ΄μ˜ μœ μ‚¬μ„±/근접성을 μΈ‘μ •ν•˜μ—¬ 저차원이 곡간상에 점으둜 ν‘œν˜„

- 거리 ν‘œν˜„: μœ ν΄λ¦¬λ“œ 거리

- 평가 척도: 슀트레슀(stress) 값을 μ΄μš©ν•˜μ—¬ 적합도 κ²€μ •(0에 κ°€κΉŒμšΈμˆ˜λ‘ 적합도 μˆ˜μ€€ μ™„λ²½ / 1에 κ°€κΉŒμšΈμˆ˜λ‘ λ‚˜μ¨)

- κ³„λŸ‰μ  MDS: 양적척도(ꡬ간/λΉ„μœ¨μ²™λ„)인 경우

- λΉ„κ³„λŸ‰μ  MDS: μˆœμ„œ(μ„œμ—΄) 척도인 경우

 


μ£Όμ„±λΆ„ 뢄석(PCA)

- 상관관계가 μžˆλŠ” 자료 변동 μ΅œμ†Œν™” β–Έ 저차원 자료 λ³€ν™˜(차원 μΆ•μ†Œ 기법)

- 상관관계가 높은 λ³€μˆ˜λ“€μ˜ μ„ ν˜• 결합을 톡해 차원 μΆ•μ†Œ β–Έ μƒˆλ‘œμš΄ λ³€μˆ˜ 생성

- 곡뢄산 ν–‰λ ¬ λ˜λŠ” μƒκ΄€κ³„μˆ˜ 행렬을 μ‚¬μš©ν•΄ μ„€λͺ…λ ₯ 높은(λΆ„μ‚° κ·ΉλŒ€ν™”) μ£Όμ„±λΆ„ λ„μΆœ

- μƒˆλ‘œ μœ λ„λœ 주성뢄은 ν•΄μ„ν•˜κΈ° 어렀움

 

[ μ£Όμ„±λΆ„ 선택법]

- λ…λ¦½λ³€μˆ˜λ“€κ³Ό μ£Όμ„±λΆ„κ³Όμ˜ 거리인 정보 μ†μ‹€λŸ‰μ„ μ΅œμ†Œν™”

- μ£Όμ„±λΆ„μ˜ λΆ„μ‚° μ„€λͺ…λ ₯을 μ΅œλŒ€ν™”ν•˜λŠ” λͺ¨ν˜• 선택

- λˆ„μ  λΆ„μ‚° μ„€λͺ…λ ₯(전체 변이 κ³΅ν—Œλ„)이 70% 이상인 μ£Όμ„±λΆ„ 수 선택

- κ³ μœ κ°’μ΄ 1 이상인 μ£Όμ„±λΆ„λ§Œ 선택

 

πŸ—’οΈ κ³΅λΆ„μ‚° ν–‰λ ¬

- 각 λ³€μˆ˜ κ°„ μ ˆλŒ€μ μΈ λΆ„μ‚°κ³Ό 곡뢄산을 λ‚˜νƒ€λƒ„

- λ³€μˆ˜ μΈ‘μ • λ‹¨μœ„λ₯Ό κ·ΈλŒ€λ‘œ λ°˜μ˜ν•˜λ―€λ‘œ 같은 λ‹¨μœ„λ₯Ό κ°–λŠ” λ³€μˆ˜μΌ 경우 μ‚¬μš©λ¨(λ³€μˆ˜ μŠ€μΌ€μΌμ΄ 민감)

 

πŸ—’οΈ μƒκ΄€κ³„μˆ˜ ν–‰λ ¬

- 곡뢄산을 두 λ³€μˆ˜μ˜ ν‘œμ€€νŽΈμ°¨μ˜ 곱으둜 λ‚˜λˆ„μ–΄ 계산

   β–Έ 계산식: 곡뢄산 0.6이고 X의 ν‘œμ€€νŽΈμ°¨κ°€ 2, Y의 ν‘œμ€€νŽΈμ°¨κ°€ 3μΌλ•Œ ν”Όμ–΄μŠ¨ μƒκ΄€κ³„μˆ˜λŠ” μ–Όλ§ˆμΈκ°€?

    0.6 / (2 * 3) = 0.1

- λ³€μˆ˜ κ°„μ˜ μƒλŒ€μ  κ΄€κ³„λ§Œμ„ 반영

- μŠ€μΌ€μΌμ΄ λ‹€λ₯Έ λ³€μˆ˜λ“€μ„ 비ꡐ할 λ•Œ μ‚¬μš©