나는 최소한 닉은 안까고 박제했는데 빠꾸없이 닉까고 박제하는 상남자인 너를 본받아서 나도 닉을 까도록하겠다.

1. "저거 스케일링 "하지도 않은" 그래프고, min max도 아니다 ㅋㅋ 내가 머저리라 불리한 그래프 들고온줄알고 신나서 박제하네 ㅋㅋ"
==> 개소리임. 저새끼가 올린 링크 statbomb은 축구 스탯그래프로 유명한 곳인데 정확히 min max 정규화로 그린게 맞음. 아래가 원문임
  • The radar boundaries represent the top and bottom 5% of all statistical production by players in that position across various seasons of data from the top five European leagues: Bundesliga, La Liga, Ligue 1, Premier League and Serie A
  • 너무나도 친절하게 그래프의 경계(바닥/천장)는 5대리그 하위5%, 상위5%를 나타낸다고 설명함 ㅋㅋㅋ
  • min값은 하위 5%, max값은 상위5% 통계값 이라는거임. 이 min max 값을 기준치로 정규화한 다각 그래프임.
  • ==> 스케일링을 했다는 것은 데이터 범위와 값을 본인이 원하는, 혹은 기설정된 값으로 "변환"하는 것을 말한다. 저 수치는 전혀 변환되지 않았고, 끽해야 최대최소 설정값이 있어서 max(input, compensated_max_value), min(input, compensated_min_value)를 한거지. 스케일링이 뭔지도 모르고 그냥 min max 설정하고 그리면 그게 스케일링인줄 아니?
------------------------------------------------------------------------------------------------------------------------------
2. "아 동일한 110.10이랑 동일한 규칙은 맞지 ㅇㅇ 뭔말하는지 이해했음 ㅋㅋ min과 max를 잡은 기준이 다르고 스케일링은 하지 않았지만 어쨌든 min과 max를 기준으로 그래프를 그린건 맞으니까. 근데 아무런 설명도 없이 데이터 석사학위 있다는 사람이 min max를 naive하게 잡고 그걸 지속적으로 대중에게 노출시키는게 맞냐?"
==> 내가 min, max 정규화 맞다고 지적하니깐 갑자기 동일한 규칙은 맞다고 함.
근데 기준이 다르고 스케일링은 하지 않았대 ㅋㅋㅋ 
110.10은 스케일링 한거고 statsbomb은 안했다는거임?  데이터 범주/범위를 뭘 건드리기라도 했음?ㅋㅋ

석사학위는 누가 있는거임? 110.10이 있다함? 

min max를 naive하게 잡았다는데, naive하게 잡은게 대체 뭐임? 러프하게 잡았다는건가?
걍 gol.gg 데이터 기준으로 min max를 잡은건데 뭔 naive가 나와 ㅋㅋㅋㅋ 설명좀
==> 동일한 규칙을 적용했다는 뜻은 축에 min과 max를 확실하게 표현하고 그 안에서만 값을 표현했다는 점에서 동일한 규칙을 적용했다는 뜻으로 "같은" min max 스케일링을 적용한게 전혀 아니라고 설명한것. 스케일링이 데이터 범주를 건드리는 줄 아는 너한테 뭘 더 설명할 힘이 없다.
naive가 무슨뜻이냐고? 굳이 좀 이해하기 쉽게 바꿔보자면 "곧이곧대로", "아무런 의심없이" 정도로 생각하면 될 것이다. outlier가 존재할거라는 의심같은거 하지 않고 곧이곧대로 전체 dataset의 min max를 축의 한계값으로 설정한 부분이 naive하단거다. naive를 러프한것과 헷갈리는데 뭘 더 말하냐 내가..

------------------------------------------------------------------------------------------------------------------------------
3. "내가 말하고 싶은건 naive assumption을 사용한 전자(110.10)의 경우와 outlier를 고려해 heuritsic(or intuitive) aproach를 적용한 후자가 최종적으로 min max사이로 표현되는 차트를 만들었지만 근본이 다르고, 니 말대로면 사실 후자의 경우는 사실 숫자를 지멋대로 (input stat이 기설정한 maximum을 벗어나는 경우 truncation함) 바꿨는데 저것도 조작 아니냐? ㅋㅋ"
==> 이거 대체 뭔 개소린지 아시는분 설명좀??
naive assumption이 나이브 베이즈 분류기준을 말하는거? 
뭔 개소리야 각 항목 데이터가 종속관계도 아닌데 나이브 베이즈가 왜나와?? 진짜 궁금.

heuristic(저새끼 스펠링도 틀리게씀) 접근을 적용한게 후자라는데
휴리스틱 접근이란 --> 인공지능이 학습할때 쓴느 방식으로 경험과 시행착오를 통해 배우는거 말함 ㅋㅋㅋ
110.10, statsbomb 그래프 둘다 휴리스틱이랑은 관계 1도없음. 걍 아는단어 존나 지껄인거임
애초에 데이터 기반으로 min max 정규화는 경험/시행착오랑 관계가 없음
==> naive assumption은 위에 첨언한 것과 같이 설명하자면 "아무런 의심을 하지 않은 추정"이다. 뭐 다른 major에서는 이런 표현 쓰는지 안쓰는지 잘 모르겠는데, 이쪽에선 많이 쓴다. 니가 무슨 뜻인지 이해를 못해서 naive assumption을 구글링해서 naive bayes classifier를 찾아왔다는 것에 감탄한다.

휴리스틱 오타난건 미안하다. 쓰다보면 거 오타좀 날수도있지 스펠링 틀렸다고 꼽을 주노 ㅋㅋ
인공지능 모델링과정에서 휴리스틱하다고 하는 것은 진짜 장담하는데 100명중에 99명은 시행착오라고 생각 안한다 친구야. 내가 AI전공자인데 뭘 아는 단어를 지껄이는 거라고 나한테 훈계를 하니? 니가 원하면 인공지능 대학원 재학중인거 인증도 해줄수있다.

------------------------------------------------------------------------------------------------------------------------------
4. "min max 사이에서 표현한다는 규칙(정규화 말하는거 아님)이 동일한 건 맞는데 그 근본이 전혀 다르다. dataset을 확인하고 outlier의 존재를 파악해서 저런 data truncation을 110.10이 했냐? 규칙이 똑같다고 저 둘이 동일선상에 올려질 시각화가 전혀 아닌것같은데 ㅋㅋ
그리고 min max normalization의 엄밀한 definition 상에서 MAX(모든 데이터), MIN(모든 데이터)이지 저렇게 min max를 outlier 없애겠다고 임의조정(5%라는 숫자는 제작자가 맘대로 정한 것이니, 분석은 했겠지만)하는게 아님."
==> data set 확인을 어떻게 했다고 말한게 있음?
오히려 110.10은 gol.gg 데이타 가져온걸 항목별로 다 설명하고 있는데
statsbomb은 어디 통계 가져온건지도 모름 ㅋㅋㅋㅋ
==> 데이터셋을 확인했을 거라는 추측인데, 굳이 시키지도 않은 보정을 한걸 보면 최소 한번정도는 차트를 그려봤는데 너무 이상하게 그려져서 그랬을 거라는 내 추측이었음. 아님말고긴 하다 이건 ㅋㅋ 말하진 않았는데 암묵적으로 그랬을 거라는거지. 그리고 statsbomb도 보니까 축별로 사람들이 모를만한건 다 설명해놨더라. passing%같은 뻔한거 빼고. 통계는 뭐 니가 유명한 스포츠스탯그래프 그리는 사이트라고 말하는걸 보니 잘 아나본데 어디서 가져왔겄지 ㅋㅋ

outlier의 존재를 파악했다? 
그래프의 모든 항목값을 상위5% 하위5% min max로 퉁쳐서 잡은게 outlier 파악한거임? 
게다가 110.10 그래프는 gol.gg데이터인데 롤 인게임 데이터는 이상치가 거의없음..
분당cs가 200이상으로 튄다든지 그런 경우가 있음?
dpm이 갑자기 한놈이 5000이상 찍을수 있음? 불가능함 ㅋㅋㅋ
==> Outlier가 존재했거나 존재할지도 모르니 보정해준거임 ㅇㅇ 근데 굳이 한걸 보면 나는 이상치가 있음을 확인하고 해준거라고 생각했을뿐임. 롤인게임 데이터는 이상치가 없다는건 니 뇌피셜일 뿐이고... 이렇게 주장하고 싶으면 증거를 대면 된다. 롤 인게임 데이터에 이상치가 없다는 증거를...

data truncation --> 뭔 개소리인지 또 모르겠음ㅋㅋㅋ 걍 아는단어 씨부림
data truncation은 데이터 값 날렸다는건데 아마도 이상치를 제거했다 라는걸 표현하고 싶었고
걍 유식하게 쿼리로 자주쓰는 truncation 단어로 쳐말한듯 
==> 쿼리로 자주쓰는 truncation 단어? 난 이게 뭔 뜻인지 모르겠다. 인공지능쪽에서 trunctation은 보통 vector를 자를때 많이 표현한다. 내가 data trunctation이라고 표현한건 max값을 넘어간 데이터를 그냥 말 그대로 "잘라서" 표현했기 때문에 썼을 뿐이고 아는단어 씨부린다고 하면 할 말 없다. 니가 아는 분야가 아니라서 왜 저런 단어를 사용하는지 모르는것까지 지적하고 싶진않다.

min max normalization의 엄밀한 definition 상에서 ==> I'm 신뢰에요 화법 시작
==> 정규화 != Scaling이기 때문에 normalization이라고 한거고, 나는 이쪽 단어 말할때 한글보다 영어가 편해서 영어 쓴다. 한글로 쓸 일이 없는(과제할때 외부인들이랑 얘기하는거 빼면) 단어라 ㅋㅋ 그냥 영단어 쓰면 전청조 화법이네 라고 하는건 니가 그냥 식견이 짧다는 것밖에 해석을 못하겠다.

outlier 없애겠다고 5% 임의조정하는게 아님==> 너 지금 110.10이랑 다르게 statsbomb은 지 좃대로 이상치 제거 했다고 까는거임? ㅋㅋㅋ 대체 너 누구편임?
==> 이상치를 좆대로 제거한다는게 무슨뜻이냐??;; 이상치라고 판단되면 제거하거나 weighted 해주는게 맞는건데 그게 왜 좆대로가 되는지 잘 이해를 못하겠음. 

------------------------------------------------------------------------------------------------------------------------------
5. "엄밀한 정의로는 min max 정규화(정규화는 실제로 안했음)가 아니라고 위에 설명을 써놨는데 못알아쳐듣네; data cleansing이 존재하는데, raw data analysis를 진짜 잘못알고있나본데 data analysis이후 cleansing, validation과정이 있냐 없냐에 따라 해당 raw data가 가지고 있는 진짜 의미나 pattern을 읽을 수 있냐 없냐가 달려있음. 니 말대로 naive한 min max scaling은 outlier에 영향을 많이 받아서 raw data에 존재하는 bias나 outlier를 제대로 제거하지 못한다. 이게 오히려 나는 불공정이라고 생각하는데? raw data에 가깝다고(preprocessing or postprocessing을 1~2과정 정도만 거침) 다 좋은게 아니라니까? ㅋㅋ"
==> min max 정규화 한거 맞고, 안했다는 설명 없음. 대체 어디에 정규화가 아니라는 설명이 있음?
==> 정규화는 말 그대로 숫자를 변경한거다. 이건 뭐 정의에 대한 인식 차이라 정규화를 한것과 "다름은 없다"이지만 엄밀히 따지만 숫자를 변경하지 않아서 정규화를 진행한 것은 아니다. 굳이 설명하자면 숫자를 안건드렸기 때문이야.

data cleansing ==> 아는 단어 씨부리기 또나오는거 같은데
datat cleansing은 걍 데이터 정제 작업으로  자료로 쓰기전에 오염된 데이터나 이상치 있는지 확인하는 작업이라고 보면됨. 
데 statsbomb은 데이터 원천이 어딘지도 안밝히고 있고,
110.10은 gol.gg 데이터를 쓰고 있어서 아주 정직하고 정확하고 오염되지 않은 데이터를 쓰고있음 ㅋㅋㅋㅋ
==> data cleansing은 오염된 데이터(오염이라는 한글표현보다 일반적으로 contaminated라고 쓰긴하는데 뭐 뜻은 같으니까 번역하자면 오염이 맞긴하다)를 확인하고 그 오염을 "제거"하는 거지 확인만 하는 작업이 아니다. 뭐 어디서 주워들었거나 검색해서 찾은 것 같은데, 이건 롤에서 클린즈(정화)가 나한테 걸린 CC기를 확인하는 스펠이라고 하는거랑 다를게 없다.
그리고 gol.gg데이터가 오염되지 않았다는 증거 또한 없다. 저걸 raw data라고 볼 수 있냐는 또 따져봐야 될 문제지만 아무런 가공없이 게임 로그로 기록된걸 그대로 갖다놓은거면 좋든 실든 오염이 존재한다고 보는게 맞고, 이걸 존재하지 않는다고 보는게 일반적으로 사용하는 "naive assumption"이 되는거다.

raw data analysis를 진짜 잘못알고 있나본데 ==> raw data analysis를 왜함? 
영어로 쓰면 있어보임? 전청조냐?  애초에 stat그래프를 그리는데 데이터 수치만 있음되는걸
분석을 왜함? 분석해서 뭐가 달라짐? 
solokill이 한명은 5번이고 한명은 3번이면 그걸 분석을 어떻게 한다는거임? 
솔로킬의 원인이라도 파악하게? ㅋㅋㅋㅋㅋㅋㅋ 존나 웃긴놈이네 ㅋㅋ
==> 단순히 데이터 수치를 그리기만 할거면 DA가 필요가 없지.. 근데 단순히 데이터 수치만 그려놓은건 아무런 의미가 없는데 그런 의미를 분석하고 파악하는게 DA다. 인포그래픽 개선이나 수정에 꼭 필요한 단계이고, 아무런 의미 없이 그냥 쭉 그려만 놓고 확인하는걸 EDA라고 하는데 이건 니가 확인해라. 설명하기 귀찮다. 인포그래픽의 가장 큰 목적 중 하나가 DA라는 것만 알아둬라. 왜하냐는 멍청한 소리 하지말고.

data analysis이후 cleansing, validation과정이 있냐 없냐에 따라 해당 raw data가 가지고 있는 진짜 의미나 pattern을 읽을 수 있냐 없냐가 달려있음.  ==> 데이터 검증은 statsbomb이 안하고 있다니깐 
110.10은 gol.gg데이터 그대로 쓰는데 뭘 검증하고 정제하라는거야 자꾸 ㅋㅋㅋㅋ 
그리고 시각화 그래프는 데이터 수치를 표현해서 비교하고자 하는 목적이지
raw data의 패턴을 왜 찾아? 데이터를 기반으로 뭘 예측이라도 하게? 마케팅에 사용하게? ㅋㅋㅋㅋ
==> 데이터 검증은 해당 데이터가 더이상 이상치(니가 말하는 오염)가 있는지 없는지 확인하는 단계라고 간략하게 설명할 수 있다. 좀 다르긴한데 쨌든..
그래! 이해를 했구나.. 데이터 수치를 표현해서 비교하고자 하는게 바로 인포그래픽의 또다른 목표이다. 근데 내가 꾸준히 지적하는건 EDA과정에서나 쓸법한 아무런 정제와 검증도 되지 않은 데이터를 마치 "해당 차트의 범위가 선수의 역량"인 것처럼 오인할 가능성이 존재하는 상태로 시각화해 지속적으로 대중에게 노출시킨 그 "악질 행위"를 규탄하는 거다. 니가 자꾸 데이터 안건드렸으니 조작아님 이라고 하는거랑 좀 다른얘기라서 이건 몇번 설명했으니 그냥 넘어간다.

------------------------------------------------------------------------------------------------------------------------------
6. "한 번 더 정리해서 설명해주자면,
내가 첨부해준 이미지 상 차트가 min max 사이에서 만들어진 차트는 "맞다". 근데 저게 110.10이 한 min max scaling이랑 같냐고 물어보면 그건 "아니다". 전혀 다른 methodology고 DA도 어느정도 들어가 있어 나름 납득 가능한 min max값 설정이라는 단계가 존재하기 때문에 그냥 멍청하게 아몰랑 그냥 다 넣어로 만들어진 차트랑은 근본부터가 다르다는 의미임. 내가 진짜 얼마나 머저리로 보였으면 내가 친절하게 나한테 불리한 증거를 굳이 링크까지 남겨가면서 너한테 줬다고 보여진거냐? ㅋㅋ"
전혀다른 methodology ==> ? 걍 min max 정규화인데 뭐가다름?
==> 방법론은 같은 뿌리에서 나왔어도 변형을 하면 변형을 한대로 다른거다. min max 선정에서 분명한 차이가 존재하는데 이걸 그냥 같은거라고 생각한다면 그렇게 믿어라. 안말린다.

DA ==> 이게 뭐임 data analysis의 약자임? 
statsbomb도 슈팅, 패싱, 논페널티골  이런 스탯을 그대로 가져온건데 어디에 DA가 있다는거임? ㅋㅋㅋ
==> 뭐 쟤네가 min max 값을 하위, 상위 5%의 평균(평균이든 뭐든 쨋든)치로 제한한 이유가 있을텐데 나는 그 이유를 DA라고 생각했을 뿐임.  뭐 진실 여부는 없지만 쓸데없이 추가 작업을 한 이유가 그걸로 밖에는 설명이 안돼서 그냥 그렇다고 생각하는거임. 증거대보라면 못댐.

납득가능한 min max 값 설정이라는 단계 ==> statsbomb에 그런게 있음? 
무슨기준으로 모든 데이터의 상하한을 5%로 짜치기 한건지에대한 설명 1도없음. 
그걸 심지어 지도 언급했음. 근데 갑자기 납득가능하대 ㅋㅋㅋㅋㅇ
==> 납득가능한이란 표현은 "보정을 하긴 했으니" 최소한의 성의를 표현한 것임. 저거 나는 납득못하겠는데? 하면 납득 안해도된다. 대체로 저런 추가 작업을 거치는 이유는 DA(차트 그려보고 그냥 눈으로 대충 보기좋게 숫자를 재설정해도 DA를 했다고 볼 수 있다)를 하지 않고서는 쓸데없는 짓밖에 안되는거라 진행을 했을거라는 합리적인 가설을 말한 것 뿐임 ㅋㅋ 아니라고 하면 할 말은없음.

브라이어야!
대학 휴학하고 외국살다와서 영어 원문도 거침없이 읽어나가는 너가 naive와 rough를 비슷한 뜻이라고 생각하는 것도 이해해줄 수 있다. 근데 DA를 왜하는지, DA가 뭔지도 모르는 너가 왜 자꾸 나한테 데이터 엔지니어링에 대해 가르치려고 드는건지 도무지 알 수가 없다. 전공자가 아니면 그냥 꺼무위키 그이상 그이하도 아닐 지식으로 왜케 꺼드럭대는건지 모르겠다.

내 인증필요하면 말해라.  ㄹㅇㅇㄹㅇㄹㄹㅇㄹㅇㄹ