certificate and license

ADsP 1과목 독학용 핵심 정리

sTricky 2020. 7. 27. 17:29

ADsP 1과목 독학용 핵심 정리





데이터분석 준전문가 자격증 (ADsP) 합격을 위한 정리를 시작합니다.

요점 파악을 위해 핵심 포인트를 위주로 정리 하겠습니다.


※DATA EDU의 데이터 분석 준전문가 책을 바탕으로 본인의 해석과 내용 선정이 되어 있음을 미리 알려드립니다.



★ 데이터와 정보

1. 데이터 유형

데이터의 유형은 정성적 데이터와 정량적 데이터로 나눌 수 있습니다.


정성적 데이터는 저장하거나 검색, 분석하기 어려운 언어 및 데이터의 집합을 이야기 합니다. 예를 들어서 "~는 잘생겼다", "회사의 인지도가 상승하였다" 와 같은 문자 형태를 띄고 있는 데이터를 의미 합니다.




정량적 데이터는 우리가 보기에 한눈에 데이터의 수치를 파악하기 쉬운 데이터를 말 합니다. 숫자로 구성된 수치나 도형 기호등으로 표현되어 있는 데이터를 말합니다. 예를 들어 데이터의 용량, 나이, 연차, 직급, 주가등을 말합니다.




2. 지식경영의 핵심 이슈

암묵지란 학습이나 주변에서의 경험을 통해서 한 개인이 가지고 있지만 겉으로는 드러나지 않아 알기 힘든 지식을 이야기 합니다. 자동차를 운전하는 방법이랄지, 어떤 프로그래밍 언어를 잘 다루는것들을 말합니다. 사회적으로 그 중요성이 높지만 공유하기 어려운 지식을 이야기 합니다. 공통화 되어 있으며, 내면화 된 상호작용을 합니다.


형식지는 문저나 PC에 저장된 자료들, 매뉴얼 화 되어 있는 자료등을 이야기 합니다. 문제집 및 영상자료, Database 자료 등을 이야기 하며 전달 및 공유하기 쉬운 특징이 있습니다. 표출화 되어 있고 연결화 된 상호작용을 이야기 합니다.




3. DIKW 피라미드




지혜 - 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어를 말합니다.

지식 - 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물을 말합니다.

정보 - 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 위미를 부여한 데이터를 말합니다.

데이터 - 존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미 합니다.




★ 데이터베이스 정의와 특징


1. 데이터베이스의 정의

데이터베이스란 오늘날 여러 사람들에 의해 공유되어 사용될 목적으로 통합하여 관리되는 데이터 집합을 말합니다.

최대한 자료들의 중복을 업애기 위해 자료를 구조화 하여 저장하여 자료 검색과 갱신의 효율을 높인것을 말합니다.


정형데이터를 관리하던 1차적인 개념에서 빅데이터의 출현으로 인하여 문자나 기호는 물론이고, 음성, 영상등의 다수의 콘텐츠를 체계적으로 수집 축적하는 정보의 집합체로 발전하고 있습니다.



2. 데이터베이스의 특징

데이터베이스내 데이터는 크게 4가지 특징을 가지고 있습니다.


동일한 데이터를 배제하는 통합된 데이터.

그리고 컴퓨터가 접근 할 수 있는 각종 디스크 및 자기 테이프 등에 저장 되어 컴퓨터 기술을 바탕으로 하는 데이터베이스를 의미하는 저장된 데이터.

여러 사람이 각기 다른 목적으로 데이터를 공동으로 사용 한다는것을 의미하는 공용 데이터.

데이터의 삽입 이나 삭제, 갱신등의 작업으로 항상 변화 하면서도 현 시점 가장 정확한 데이터를 유지하고 있는 변화되는 데이터.


이렇게 4가지 데이터베이스의 특징이 있습니다.


3. 빅데이터의 정의

빅데이터는 우선 관점에 따라 정의가 달라질 수 있는데, 양(Volume), 다양성(Variety), 속도(Velocity)로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의가 있으며, 데이터 자체뿐 아니라 처리, 분석 기술적 변화까지 포함되는 중간 점위의 정의가 있습니다. 마지막으로 인재, 조직 변화까지 포함한 넓은 관점에서의 빅데이터에 대한 정의가 있습니다.


4. 출현 배경과 변화

산업계 

고객들의 데이터의 저장을 통해 데이터내 숨어있는 가치를 발굴 한 것

학계

거대 데이터를 다루는 학문 분야가 늘어나며, 필요한 기술 및 통계 도구의 발전 

기술발전 

저장 기술 증대 및 인터넷, 클라우드, 모바일등의 보금으로 인한 발달 


5. 빅데이터에가 만들어내는 본질적인 변화

1) 사전처리 -> 사후처리

필요한 정보만 수집하고 필요하지 않은 데이터를 버리는 시스템에서 최대한 모든 데이터를 모아 다양한 방식으로 데이터내 숨은 정보를 찾음.

2) 표본조사 -> 전수조사

기술발전에 따라 데이터 수집 비용 및 데이터 처리비용의 감소로 표본만 조사하던 기존 방식에서 모든 데이터를 활용하여 전수조사 할 수 있는 역량이 생김.

3) 질 -> 양

데이터가 계속 추가 되면 양질의 정보가 오류 정보 보다 많아 진다는것을 확용하여 전체적으로 더욱 좋은 결과를 만들어 낼 수 있다는 추론을 바탕에둔 변화가 생김.

4) 인과관계 -> 상관관계

상관관계를 통해 특정 현상에서 어떤 일이 벌어질 가능성을 포착하고, 이에 상응하는 행동을 하도록 추천되는 일이 점점 늘어남. 인과관계보다 상관관계 분석으로 미래를 예측 할 수 있는 가능성이 높아짐.



★ 빅데이터의 가치와 영향


1. 빅데이터의 가치

빅데이터의 가치는 산정하기 매우 어렵습니다.

데이터를 활용하는 방식에서 특정 데이터를 언제, 어디서, 누가 활용할지 모르고, 재사용 및 재조합이 수시로 일어나기 때문 입니다.

또한 빅데이터는 기존에 있던 어떤 가치가 아니라 새로운 가치를 창출해 내는 것 이기 때문에 이 가치에 대한 산정이 어렵습니다.

마지막으로 현재는 가치 없는 데이터 이지만, 추후 새로운 분석 기법의 등장으로 인하여 해당 데이터의 가치는 변할 수 있기 때문에 현시점에서 가치를 산정 한다는것이 매우 어렵습니다.


2. 빅데이터의 영향

빅데이터는 다양한 분야에서 많은 영향을 끼치고 있습니다.


기업 - 기업에서는 빅데이터를 이용하여 소비자의 행동을 분석하고, 시장 변동을 예측해 새로운 비즈니스 모델을 생성하거나 신사업을 만들어 냅니다.

정부 - 날씨부터 인구, 각종 통계 및 법제 데이터등을 수집하여 사회 변화 및 관련 정보에 관한 내용을 추출해 냅니다.

개인 - 빅데이터를 활용하여 서비스 하는 기업들이 늘어남으로 인하여 정치인 및 대중 스타들의 경우에도 자신의 인지도 향상에 빅데이터를 활용 할 수 있습니다.


이러한 것들을 생활 전반의 스마트화 라고 할 수 있습니다.


3. 빅데이터로 인한 위기

사생활 침해 - 개인정보가 포함되어 있는 데이터를 순수한 목적 이외에 활용 할 경우 사생활 침해 및 사회, 경제적 위협이 될 수 있습니다. 예를 들자면 개인이 여행 중이라는 내용을 SNS에 공유하자, 그 사람의 집에 강도가 침입한 사례를 들 수 있습니다.


책임 원칙 훼손 - 빅데이터의 기본 분석과 예측기술의 발달로 인하여 분석 대상이 되는 사람들이 이 예측 알고리즘의 희생양이 될 수 있습니다. 예를들어 잠재적인 범죄자 취급을 받을 수 있는 경우가 생길 수 있습니다.


데이터의 오용 - 빅데이터의 예측 능력은 높은 정확도를 가질 수 있지만, 반대로 항상 옳을수는 없습니다. 잘못된 정보로 개인이나 사회가 큰 피해에 직면 할 수 있습니다.


이러한 내용들을 빅데이터 활용을 하는 주체가 제공자에게 동의를 구할 것이 아니라 스스로 책임을 지게 하는 "동의에서 책임으로" 의 변화가 필요하고, 어떤 의도를 볼 것이 아니라 "결과 기반의 책임 원칙 고수"를 하는 최소한의 장치를 마련 할 필요가 있습니다.


또한 "알고리즘에 대한 접근권"을 제공 하여 알고리즘의 부당함을 반증 할 수 있는 방법을 명시해 공개 할 필요가 있습니다.


4. 빅데이터 활용의 3요소

빅데이터 활용의 3요소는 데이터, 기술, 인력 이 됩니다.


여기서 데이터란 특정한 목적이 없더라도 저장 되는 모든 데이터를 지칭하는 말 입니다. 빅데이터 분야에서 데이터는 곧 가치를 말합니다.

기술은 대용량의 저장된 데이터를 빠르게 처리하며, 알고리즘 진화와 함께 스스로 학습 하고 처리하는 인공지능 기술을 말 합니다.


인력은 빅데이터 처리를 하기위하여 데이터 사이언티스트와 알고리즈미스트의 역할을 하는 사람을 이야기 합니다. 빅데이터시대 다각적 분석을 통한 인사이트 도출이 중요해지고 있습니다.



이터 사이언티스트란 빅데이터에 대한 이론적 지식 외에도 숙련된 분석 기술을 바탕으로 저장된 데이터를 활용하여 유의미한 가치를 창출 해 낼수 있는 사람을 뜻 합니다. 빅데이터의 다각적 분석을 통하여 인사이트를 도출하고 이를 조직의 전략 방향제시에 활용할 술 아는 기획자를 말합니다. 그리고 알고리즈미스트는 데이터 사이언티스트가 한 일로 인하여 부당 피해가 발생하는것을 막는 역할을 하는 전문 인력을 말 합니다. 코딩 해석과 빅데이터 알고리즘 분석을 이용하여 부당 피해를 입은 사람을 구제 합니다.





★ 빅데이터 분석과 전략 인사이트


1. 빅데이터 회의론의 원인

빅데이터라는 말은 마치 만병통치약처럼 IT업계에서 화두가 되고 있습니다. 그래서 인지 벌써부터 빅데이터에 대한 회의론도 많이 대두 되고 있습니다. 도입만 하면 모든것이 한번에 해소 될 것만 같던 고객관계관리(CRM)이 있었죠. 거액을 투자하여 하드웨어와 솔루션을 도입 했지만 어떻게 활용하고 어떤 가치를 생산 해내어야 하는지 모른체 끝나 버리고 말았습니다.


각 사이트들에서도 우수고객, 이탈예측, 구매패턴 분석등 굳이 빅데이터가 필요 없는 경우에도 마치 이런것이 빅데이터 인냥 국내 업체들은 과대 포장을 하고 있습니다.


단순하게 빅데이터라는 워딩에 포커스를 두지 말고 데이터 분석을 통해 가치를 생산 해내는것에 집중 할 필요가 있습니다.


2. 일차원적인 분석 vs 전략도출 위한 가치기반 분석


아래 사진과 같은 산업별 일차원적인 분석 애플리케이션들이 있습니다.



일차원적인 분석은 해당 산업, 부서별로 일정부분 상당한 효과를 얻지만, 일차원적인 분석만으로는 향후 환경 변화 및 큰 변화에 제대로 대응 하기 어렵습니다. 특히 급변하는 이시대에 새로운 기회를 포착하기 어려운 한계를 가지고 있습니다.


이럴때, 적략도출 가치기반 분석을 통해서 사업에 중요한 기회를 발굴하고 주요 경영진의 지원을 이끌어 낼 수 있습니다.

우선 일차원적인 분석을 통해서 분석 경험과 기술을 습득하고, 데이터의 활용 범위를 더 넓고 전략적으로 변화 시킬 필요가 있습니다. 마지막은 결국 전략적 인사이트를 주는 가치기반 분석단계로 나아가야 합니다.



★ 전략 인사이트 도출을 위한 필요 역량


1. 데이터 사이언스의 의미와 역할

데이터 사이언스는 데이터 공학 및 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식과 어떤 분야의 전문지식을 총망라한 종합 학문 입니다.


데이터를 이용하여 의미있는 정보를 추출 해내는 학문으로써 정형 및 비정형을 가리지 않고 모든 매체를 통해서 생성 되고 수집되는 다양한 유형의 데이터를 분석 대상으로 하여 이를 효과적으로 구현하고 전달 하는 과정까지 포함하는 포괄적 개념을 뜻 합니다.



2. 데이터 사이언티스트의 역할

데이터 사이언티스트는 수많은 데이터안에서 소스를 찾고 복잡하고 불완전한 데이터들을 서로 연결하고 구조화 합니다.

또한 데이터 사이언티스트들은 강력한 호기심을 무기로 드러난 문제의 이면을 분석하고, 질문을 찾고 검증 가능한 가설을 세우는 능력을 가져야 합니다.


마지막으로 데이터 사이언티스트는 스토리텔링과 커뮤니케이션, 장의력, 열정, 직관력, 비판적 시각과 글쓰기와 대화능력등을 갖추어야 합니다.



3. 과학과 인문의 교차로

데이터 사이언티스트에겐 분석기술도 중요하지만 앞서 이야기한 스토리텔링과 커뮤니케이션, 장의력, 열정, 직관력, 비판적 시각과 글쓰기와 대화능력등으로 대표되는 인문학적 요소를 갖추는것이 중요 합니다.




4. 전략적 통찰력과 인문학의 부활

통찰력 있는 분석은 직관과 전략, 경영 프레임 워크 경험을 혼합하여야 발휘 될 수 있습니다. 또한 회사 뿐 아니라 업계 전반에 대한 높은 수준의 이해가 필요하고, 넓은 시야로 전체를 바라 볼 수 있어야 합니다.


이미 우리 사회는 단순한 세계화에서 복잡한 세계화로 변화 화면서 다양성이 대두 되며, 관계와 연결, 창조성의 중요도가 올라가고 있습니다. 전 세계적으로도 비즈니스의 중심이 특정 제품의 생산에서 서비스로 이동하고 있으며, 공급자 중심의 기술 경쟁에서 무형자산의 경쟁으로의 변화로 시장창조가 되고 있음을 항상 염두해 두고 있어야 합니다. 이는 곧 인문학의 열풍으로 이어지고 있습니다.




여기까지 우선 1과목 <데이터의 이해>에 관련해서 정리를 해보았습니다.


감사합니다.








by.sTricky