[3κ³Όλͺ©] [ν΅κ³ λΆμ] λ€λ³λ λΆμ
λ³μ λ³νμ μ’ λ₯(λ¨μ κΈ°λ₯ λ³ν, λΉλ, λ°μ΄ν° μ€μΌμΌλ§, μΈμ½λ©)
| λ¨μ κΈ°λ₯ λ³ν | - λΆν¬ λ³κ²½ λͺ©μ - λ‘κ·Έ λ³ν: 0 λλ μμ κ° μ μ© λΆκ° - λ£¨νΈ λ³ν: 0 λλ μμ κ° μ μ© κ°λ₯ |
| λΉλ(=ꡬκ°ν) | - μ°μν λ³μ βΈ λ²μ£Όν λ³μ μ ν - μ‘μ μ κ±° βΈ λ°μ΄ν° ννν - νκ· μμΈ‘ λͺ¨λΈ |
| λ°μ΄ν° μ€μΌμΌλ§ | - κ° λ³μμ μ€μΌμΌ(λ¨μ, λ²μ)μ΄ λ€λ₯Όλ βΈ λμΌν κΈ°μ€μΌλ‘ μ‘°μ - 거리 κΈ°λ° μκ³ λ¦¬μ¦ - μ κ·ν, νμ€ν λ°©λ² μ¬μ© βΈ μ κ·ν(= μ΅μ-μ΅λ μ κ·ν) - λ°μ΄ν° λ²μ: 0~1 μ¬μ΄ λ³ν - κ³μ°μ: μ€μκ° - min(x) / max(x) - min(x) βΈ νμ€ν - νμ€μ κ·λΆν¬λ₯Ό κ°λλ‘ νμ€ν λ³ν - νκ· = 0, νμ€νΈμ°¨ = 1 |
| μΈμ½λ©(=λΆνΈν) | - κΈ°κ³κ° μ΄ν΄ν μ μλλ‘ λ°μ΄ν°λ₯Ό μμΉ(μ«μ) ννλ‘ λ³ννλ κ³Όμ - λ²μ£Όν λ³μ(λ¬Έμν) βΈ μμΉν λ°μ΄ν° λ³ν - μ’ λ₯: Label Encoding, One Hot Encoding |
ποΈ λ¨μ κΈ°λ₯ λ³ν λ°©λ²
| μμ μλ | μμ μλ |
| - λ‘κ·Έ λ³ν - λ£¨νΈ λ³ν - μμ λ³ν |
- μ κ³± λ³ν - μ§μ λ³ν |
ποΈ μΈμ½λ© μ’ λ₯(Label Encoding, One Hot Encoding)
| Label Encoding | ||
| λ¨ | 0 | 1 |
| μ¬ | 1 | 0 |
| One Hot Encoding | |||
| μ΄λ¦ | νμ_A | νμ_B | νμ_C |
| A | 1 | 0 | 0 |
| B | 0 | 1 | 0 |
| C | 0 | 0 | 1 |
μκ΄ κ΄κ³ λΆμ
- λ κ°μ λ³μ κ° μκ΄ κ΄κ³(μνΈ μ°κ΄μ±)λ₯Ό λΆμνλ λ°©λ²
βΈ ν λ³μκ° μ¦κ°(λλ κ°μ)μ λ€λ₯Έ λ³μκ° μ΄λ»κ² λ³νλμ§ νμΈ
- λ³μ κ° μΈκ³Όκ΄κ³ μ€λͺ
νλ κ²μ΄ μλλΌ κ΄λ ¨μ±μ μ λ λΆμ
1. 곡λΆμ°(COV) βοΈβοΈβοΈβοΈβοΈ
- λ λ³μ μ¬μ΄μ μκ΄ κ΄κ³λ₯Ό λνλ΄λ κ°
- λ³μμ ν¬κΈ°λ λ¨μμ μν₯μ λ°μ
- μΈ‘μ λ¨μμ λ°λΌ λ¬λΌμ§λ―λ‘ μ νκ΄κ³μ κ°λλ₯Ό λνλ΄μ§ λͺ»ν¨
COV(x,y) > 0 βΈ x μ¦κ°, y μ¦κ°
COV(x,y) > 0 βΈ x μ¦κ°, y κ°μ
COV(x,y) = 0 βΈ λ λ³μκ° μ νμ κ΄κ³ μμ, μλ‘ λ 립μ μλ―Ένλ κ²μ μλ...
2. μκ΄κ³μ βοΈβοΈβοΈβοΈβοΈ
- λ λ³μ μ¬μ΄μ μ°κ΄μ±μ μμΉμ μΌλ‘ κ°κ΄ννμ¬ λ λ³μ μ¬μ΄μ λ°©ν₯μ±(μμμκ΄, μμμκ΄)κ³Ό κ°λλ₯Ό νν
- -1 λΆν° 1 μ¬μκ°μ κ°μ§λ©° μ λκ°μ΄ 1μ κ°κΉμΈμλ‘ μκ΄κ΄κ³ κ°λ νΌ
- μκ΄λΆμμ μ ν: νΌμ΄μ¨ μκ΄κ³μ, μ€νΌμ΄λ§ μκ΄κ³μ
| νΌμ΄μ¨ μκ΄κ³μ | μ€νΌμ΄λ§ μκ΄κ³μ |
| - μ νμ μΈ ν¬κΈ°λ§ μΈ‘μ βΈ λͺ¨μμ μ²λ - μμ μ²λ(λ±κ° μ²λ, λΉμ¨ μ²λ) - μ°μν λ³μ |
- μ ν κ΄κ³ + λΉμ ν μκ΄ κ΄κ³ μΈ‘μ κ°λ₯ - μμ(μμ΄)μ²λ - μμν, μ°μν, μ΄μ°ν λ³μ - μμ λ°μ΄ν°κ° μλ κ° λ³μμ λν΄ μμλ₯Ό λ§€κΈ΄ κ°μ κΈ°λ° - λΉλͺ¨μμ λ°©λ²μΌλ‘ λ λ³μκ°μ λ¨μ‘° κ΄κ³ νκ° |
μ²λμ μ’ λ₯ μ 리 λΈλ‘κ·Έ
ποΈ κ³΅λΆμ°μ λ³μμ ν¬κΈ°λ λ¨μμ μν₯μ λ°μ§λ§, μκ΄κ³μλ μ΄λ₯Ό μ κ·νν κ°μ΄λ―λ‘ λ¨μμ μν₯μ λ°μ§ μμ!
ποΈ μ€νΌμ΄λ§ μκ΄κ³μλ λ²μ£Όν λ³μμ μ μ©ν μ μμΌλ©°, μ ν κ΄κ³λ₯Ό μΈ‘μ νμ§ λͺ»ν¨!
λ€μ°¨μ μ²λλ²(MDS)
- 거리λ₯Ό μ΅λν 보쑴(= μ°¨μ μΆμ κΈ°λ²)
- κ°μ²΄λ€ μ¬μ΄μ μ μ¬μ±/κ·Όμ μ±μ μΈ‘μ νμ¬ μ μ°¨μμ΄ κ³΅κ°μμ μ μΌλ‘ νν
- 거리 νν: μ ν΄λ¦¬λ 거리
- νκ° μ²λ: μ€νΈλ μ€(stress) κ°μ μ΄μ©νμ¬ μ ν©λ κ²μ (0μ κ°κΉμΈμλ‘ μ ν©λ μμ€ μλ²½ / 1μ κ°κΉμΈμλ‘ λμ¨)
- κ³λμ MDS: μμ μ²λ(ꡬκ°/λΉμ¨μ²λ)μΈ κ²½μ°
- λΉκ³λμ MDS: μμ(μμ΄) μ²λμΈ κ²½μ°
μ£Όμ±λΆ λΆμ(PCA)
- μκ΄κ΄κ³κ° μλ μλ£ λ³λ μ΅μν βΈ μ μ°¨μ μλ£ λ³ν(μ°¨μ μΆμ κΈ°λ²)
- μκ΄κ΄κ³κ° λμ λ³μλ€μ μ ν κ²°ν©μ ν΅ν΄ μ°¨μ μΆμ βΈ μλ‘μ΄ λ³μ μμ±
- 곡λΆμ° νλ ¬ λλ μκ΄κ³μ νλ ¬μ μ¬μ©ν΄ μ€λͺ λ ₯ λμ(λΆμ° κ·Ήλν) μ£Όμ±λΆ λμΆ
- μλ‘ μ λλ μ£Όμ±λΆμ ν΄μνκΈ° μ΄λ €μ
[ μ£Όμ±λΆ μ νλ²]
- λ 립λ³μλ€κ³Ό μ£Όμ±λΆκ³Όμ κ±°λ¦¬μΈ μ 보 μμ€λμ μ΅μν
- μ£Όμ±λΆμ λΆμ° μ€λͺ λ ₯μ μ΅λννλ λͺ¨ν μ ν
- λμ λΆμ° μ€λͺ λ ₯(μ 체 λ³μ΄ 곡νλ)μ΄ 70% μ΄μμΈ μ£Όμ±λΆ μ μ ν
- κ³ μ κ°μ΄ 1 μ΄μμΈ μ£Όμ±λΆλ§ μ ν
ποΈ κ³΅λΆμ° νλ ¬
- κ° λ³μ κ° μ λμ μΈ λΆμ°κ³Ό 곡λΆμ°μ λνλ
- λ³μ μΈ‘μ λ¨μλ₯Ό κ·Έλλ‘ λ°μνλ―λ‘ κ°μ λ¨μλ₯Ό κ°λ λ³μμΌ κ²½μ° μ¬μ©λ¨(λ³μ μ€μΌμΌμ΄ λ―Όκ°)
ποΈ μκ΄κ³μ νλ ¬
- 곡λΆμ°μ λ λ³μμ νμ€νΈμ°¨μ κ³±μΌλ‘ λλμ΄ κ³μ°
βΈ κ³μ°μ: 곡λΆμ° 0.6μ΄κ³ Xμ νμ€νΈμ°¨κ° 2, Yμ νμ€νΈμ°¨κ° 3μΌλ νΌμ΄μ¨ μκ΄κ³μλ μΌλ§μΈκ°?
0.6 / (2 * 3) = 0.1
- λ³μ κ°μ μλμ κ΄κ³λ§μ λ°μ
- μ€μΌμΌμ΄ λ€λ₯Έ λ³μλ€μ λΉκ΅ν λ μ¬μ©