본문 바로가기

전체 글

(11)
Activated Sludge Process Control iframe>
도서) 빅데이터를 지탱하는 기술 - 챕터 1 요약 챕터 1. -'빅데이터의 기초' 지식 은 도입 부분으로 빅데이터 기술이 태어난 역사적 배경부터 시작해서 기본적인 용어들을 정리 -빅데이터와 대비하여 이전부터 존재하는 '스몰 데이터 기술'에 대해 설명 -간단한 파이썬 스크립트에 의한 데이터 처리와 데이터 디스커버리를 다뤄 이에 대한 개념을 이해 1-1. 빅데이터 정착 1) 분산 시스템에 의한 데이터 처리의 고속화 i) Hadoop은 '다수의 컴퓨터에서 대량의 데이터를 처리하기' 위한 시스템 - 수천 대 단위의 컴퓨터를 관리하기위한 프레임워크 ii) NoSQL 데이터 베이스 a) 키 밸류 스토어 b) 도큐먼트 스토어(JSON) c) 와이드 칼럼 스토어 iii) Hadoop과 NoSQL 데이터베이스의 조합 (현실적인 비용으로 대규모 데이터 처리 실현) - N..
Bayes Theorem 베이즈 정리란 무엇일까? 우선 린 경영에 대하여 짚고 넘어가보자. 린 경영은 불필요한 요소(비효율적인 요소)들을 제거하여 효율을 향상시키고자하는 경영방식으로 불리운다. TMI는 일본 도요타 공장의 경영기법을 미국이 미국방식으로 변경하였고, 이러한 방법은 베이즈 정리의 이론과 비슷하다고 본다고 한다. BUT! 내가 이해한 바로는 베이즈 정리는 불가능한 것을 제거하여 사전확률에서 사후확률로 업데이트 해주는 것이라고 하지만..조금 다른방식으로도 이해 해볼수 있지 않을까? 불필요한 요소들을 제거하거나 혹은 우리가 알고자하는 중요한 정보에 초점을 맞추는 것(그러므로 불필요한 부분들을 제거해준다라는 의미) 로 이해해볼수도 있지 않을까? 그렇게 함으로써 직관적으로 생각하게 되는(주관적인 생각) 것과 실제 결과가 달라..
F 검정 ---------------------------------------------------------------------------------------------------------------------- 큰 수의 법칙 ( Law of large numbers ) sample 데이터의 수가 커질 수록, sample의 통계치는 점점 모집단의 모수와 같아진다.
Confidence Interval StatQuest 에서 Retrieving 한 material 입니다. 신뢰구간에서 구간이 좁을 수록 정확도가 높다 라는 말은 통용 될 수 있을까? 실예로 90%의 Confidence Interval 은 95%의 신뢰구간보다 너비가 적고 신뢰도(맞을 확률) 이 떨어진다. 하지만! 정확도는 높아진다!? 여기서 말하고자하는 값이 recall, precision 및 accuracy와 가이 metrics(지표) 머신러닝이나 딥러닝 모델의 예측 값을 지표를 가지고 비교 할 때 적용해볼 수 있을 것이다. 정확도와 정밀도의 차이. 신뢰구간에서의 신뢰도로서 모수가 포함 될 확률이 높아지기 위해서는 구간의 너비가 넓어지는게 유리. 100% > 95 > 90 하지만 정확도는 높다라고 표현할 수 없을 것. 구간이 좁을 수록..
코드스테이츠에서 주는 특별한 기회 <class lunch_club(me, people)> [5/11 런치클럽]에 참석할 수 있는 기회를 주신 혜준님께 다시한번 감사의 말씀을 드리고싶습니다. 덕분에 좋은 인연들을 만날 수 있었습니다! 코스를 수강중이시거나 수료하신분들이 바쁘신 와중에도 후기글을 보러 와주셔서 감사드립니다. 코스로 인해 혹은 일로 인하여 이렇게 바쁜 와중에도 런치클럽을 참여해볼 수 있을까? 라는 의문이 드실 수 있을 것 같습니다. 그렇지만 식사시간 한시간의 투자는 좋은 인연들을 만나볼 수 있는 기회가 되지 않을까 조심스럽게 생각이 됩니다. 코드스테이츠 코스 중에 발견한 또 하나의 코너이자 이벤트로 생각되는 런치클럽! 현재 코드스테이츠 수업을 수강하고 계시거나 졸업하신 멋진 학우님들 그리고 현직에서 일하고 계신 선배님과의 만남을 가질 수 있었습니다! 메타버스의 시대! 개더타운에서 ..
섹션 2 브리핑 (섹션1 톺아보기 포함) 섹션 2에 대해 적기 전, 섹션 1에 대해 간단한 생각을 적어보겠다. 일단 휘황찬란한 소설을 쓰기에 앞서서... 지금 공부하고 있는 것이 무엇인지, 어느정도의 이해도와 어떤 방향의 시각이 존재하고 필요한지를 알아보고, 그것이 무엇인지 대하여 조금 더 명확하게 하기위해서 이 글을 적음을 다시한번 확인한다. [섹션 1.] n111-eda -eda란 데이터의 전처리를 말한다. 이는 data cleaning, data mining 등을 할 수 있음을 의미한다. n112-feature-engineering -new feature를 domain knowledge 를 활용하여 만들어낸다. 혹은 기존 feature를 변경해 볼 수 있다. n113-data-manipulation -literaly, data를 조정한다...
컴퓨타 공부를 하며... 통계, 코딩 뭐 하나 쉬운게 없지만 계속 하다보면 나아지지않을까 생각하며 오늘도... import...