Machine Learning :특성교차, 정규화:단순성 1. 특성교차 | 시작하기에 앞서 선형문제: 여러 변수에 따라 항목을 구분하도록 선을 긋는 것 (ex: 스팸 or 스팸x) 그림1. 선형문제파란색 점은 병든나무 주황색 점은 건강한 나무위 예제에서는 병든나무와 건강한 나무를 깔끔하게 구분하는 선을 그릴 수 있음. 이 선을 기준으로 나무의 상태를 적절히 예측 가능 그림2. 하나의 선으로 두 클래스를 구분 할 수 없음. 위 그림에서 볼 수 있듯이, 병든 나무와 건강한 나무를 깔끔하게 구분하는 직선 하나를 그릴 수 없음. 따라서 이 문제는 비선형 문제. 어떤 선을 그려도 나무의 상태 예측 불가! | 교차 곱( 특성교차) 그림 2와 같은 비선형 문제를 해결하려면 특성 교차를 만들어야 함.특성 교차는 두개 ..
Machine Learning:Google MLCC 1주차 (일반화: 과적합의 위험, 데이터 분할) | 과적합과적합 모델은 학습하는 동안 손실이 적지만 새 데이터를 잘 예측하지 못한다. 현재 샘플에 적합한 모델에서 새 데이터를 잘 예측할 것이라고 신뢰할 수 있는가?필요 이상으로 복잡한 모델을 만들면 과적합이 발생한다. 머신러닝의 근본적인 과제는 데이터 적합도를 유지하는 동시에 최대한 단순화하는 것이다.머신러닝의 목표는 숨겨진 실제 확률 분포에서 추출되는 새 데이터를 잘 예측하는 것이다. 하지만 모델에서는 모든 데이터를 볼 수 없으며 학습 데이터 세트에서만 샘플을 추출할 수 있다.14세기의 수도사이자 철학자인 William of Occam은 과학자는 복잡한 것보다 간단한 공식이나 이론을 선택해야 한다고 생..
Machine Learning -1주차 :손실줄이기 아래 내용은 구글 머신러닝 단기집중과정을 학습하고 발췌한 내용입니다. | 반복방식 머신러닝에서는 반복을 통해 손실을 줄인다.최적의 모델을 가능한 한 가장 효율적으로 찾는 것이 중요하다.그림 1. 반복방식의 모델 학습 위의 그림은 알고리즘이 모델을 학습하는 데 사용하는 반복적인 시행착오 과정을 보여준다.반복전략은 주로 대규모 데이터 세트에 적용하기 용이하여 머신러닝 에서 널리 사용 되고 있다.이 '모델'은 하나 이상의 특성을 입력하여 하나의 예측(y')을 출력한다. 쉬운 이해를 위해, 하나의 특성을 가지고 하나의 예측을 반환하는 모델을 생각해 보자,y′=b+w1x1b와 w1의 초기값은 무엇으로 설정해야 할까? 선형 회귀 문제에서는 초기값은 별로 중요치 않..
Machine Learning -1주차 :(ML소개, ML문제로 표현하기, ML로 전환하기 ) | ML 소개 소프트웨어 엔지니어로서 세가지를 잘할 수 있게 된다.1. 먼저 프로그래밍 시간을 줄일 수 있는 도구를 얻게 된다.( 짧은 시간에 더 안정적인 프로그램을 만들수 있다.)2. 제품을 맞춤 설정하여 특정 집단의 사용자에게 더 잘맞는 제품을 제공 할 수 있다.3. 머신러닝을 사용하면 프로그래머로서 수동으로 할 방법이 없어 보이는 문제를 해결할수 있다. 머신러닝은 문제에 관해 생각하는 방법을 바꾼다.수리과학에서 자연과학으로 초점이 바뀐다. 불확실한 세계를 관찰하고 실험을 하고 논리가 아닌 통계를 사용하여 실험 결과를 분석한다. | ML 문제로 표현하기 (지도) 머신러닝 ML 시스템은 입력을 결합해 이전에 ..