본문 바로가기
Project/소소하게~

[빅데이터, 4차 산업혁명의 언어] 완벽한 분석이 선도하는 미래

by sonpang 2021. 10. 23.
반응형

1. 빅데이터란?

세계 경제 포럼은 2012년 떠오르는 10대 기술 중 그 첫 번째를 빅 데이터 기술로 선정했으며 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 빅 데이터를 선정하는 등 최근 세계는 빅 데이터를 주목하고 있다.

 

대부분의 빅 데이터 분석 기술과 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 해당된다. 소셜 미디어등 비정형 데이터의 증가로 인해 분석기법들 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 분석, 군집분석 등이 주목 받고 있다.

텍스트 마이닝: 비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반하여 유용한 정보를 추출, 가공
오피니언 마이닝: 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별
소셜 네트워크 분석: 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정
군집 분석: 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 발굴

 

2. 빅데이터 분석 성공을 위한 조건

과거를 토대로 미래를 예측하거나 설계할 수 있다는 옛말이 있다. 나는 미래를 예측할 수 있는 가장 성공가능성이 높은 도구로 빅데이터를 꼽고 싶다. 하지만 도구가 있더라도 사용법을 제대로 알아야 하는 법. 이 글을 쓴 가장 큰 이유이다. 앞으로 제시할 ‘빅데이터 분석 성공을 위한 조건’ 내용은 직접 R&E와 자율탐구를 하며 절실하게 체감하며 느꼈던 것들을 토대로 한 것이다. 간략하게 앞서 말한 연구들이 빅데이터와 어떠한 연관이 있는지 소개하자면 아래와 같다. 연구의 과정은 분자동력학 시뮬레이션으로 얻은 결과를 수학, 물리적 계산을 통해 원하는 상수를 도출해내는 것이었다. 1개의 시뮬레이션 결과만 하여도 20GB가 넘을 정도로 방대한 양이었고 전부 원자의 좌표였다. MATLAB으로 처리하기 위해 coding 하면서 상당히 어려움을 겪었고 데이터의 보간, 근사처리 알고리즘은 더욱 까다로운 조건들을 요하였다. 하지만 이렇게 노력을 하고도 ‘과연 이 결과가 맞는 걸까?’라는 의구심은 직접계산을 하지 않았기에 생각될 수밖에 없었다. 따라서 빅데이터 처리에 필요한 조건들을 제시하고자 한다.

 

가. 빅데이터 분석 도구를 신중하게 선택하자.

빅데이터 분석에 거의 예외 없이 적용되는 기본 기능이 있다. 예를 들면 데이터 변환과 스토리지 아키텍처 관련 기능이다. 그런데 빅데이터 분석에는 여러 가지 틈새 기능도 있다. 기술 전략과 실질적으로 관련된 틈새 기능에 맞는 분석도구를 선택해야 한다. 이러한 틈새 기능으로는 프로세스 마이닝(process mining), 예측 분석, 실시간 솔루션, 인공지능, 비즈니스 인텔리전스(BI) 대시보드 등을 들 수 있다.

예를 들면, 비정형 데이터 분석에는 인공지능을 활용하는 분석 등 인지 빅데이터 제품을 선택하는 것이 좋다. 방대한 분량의 데이터를 컴파일하려면 복잡하기 때문이다. 반면, 정형화되고 표준화된 데이터에는 인지 도구를 사용하지 않는 것이 좋다.

또한 선택된 분석도구는 적정 데이터를 항상 이용 가능해야 하고 결과를 충분히 이해 할 수 있어야 할 것이다. 개선 사항을 처리하기 위해서이다. 실제로 dcd라는 확장자명을 가진 data file을 분석하기 위한 readdcd code를 제공받았으나 code를 설정한 좌표계에 맞게 재설정하는 과정이 있었다. 이처럼 code의 개선을 직접 할 수 있는 환경들이 제공되어야 연구 활동에 도움이 된다.

 

나. 사용하기 쉬운 도구인지 확인하자.

빅데이터와 고급 분석은 복잡하다. 하지만 데이터 발견은 물론 분석과 시각화에 사용할 수 있도록 제공되는 도구는 단순하면서도 효과적이어야 한다. 무엇보다도, 프로그래머급 도구를 일반 사용자에게 제공되는 것은 금물이다. 내가 과연 기본적인 coding실력만 갖춘 상태에서는 분석도구의 기법들을 파악하기 어렵기 때문이다.

 

다. 프로젝트에 요구되는 데이터를 일치한지 확인하자.

빅데이터 분석 활동이 실패하는 또 다른 이유는 사실 존재하지 않는 문제를 찾아서 해결하려 들기 때문이다. 따라서, 해결하려는 요구사항을 적정 분석 문제로 표현해 내야 한다고 정보서비스 제공업체 익스피리언(Experian)의 글로벌 데이터 연구소 최고 과학자 샨지 슝은 강조했다. 분석 경험이 풍부한 주제 전문가들과 데이터 과학자들이 함께 문제를 정의하게 하는 것이다.

 

라. 데이터 레이크를 구축하고 대역폭을 넓히자.

빅(big)이라는 단어에서 알 수 있듯이 빅데이터는 그 양이 엄청나다. 과거에는 그렇게 많은 양의 데이터를 정리하고 분석하는 것은 고사하고 보관할 수 있는 기업도 거의 없었다. 그러나 오늘날에는 클라우드에서는 물론 사내 시스템을 통해서 고성능 스토리지 기술과 대규모 병렬 처리 기능이 널리 이용되고 있다. 그러나, 스토리지 자체로는 부족하다. 방대한 이종 데이터 모음의 스토리지와 매핑을 가능하게 해 주어야 한다. 그러한 저장소는 데이터 레이크(호수, data lake)라고 불리곤 한다. 실제 호수에는 여러 개의 물길이 흘러 들어가고 다양한 종의 식물과 물고기 등의 동물들이 살고 있다. 데이터 레이크에는 여러 개의 데이터원이 흘러 들어가고 여러 종류의 데이터가 들어 있다. 데이터 수집 방식에 대해 생각해서 특성을 의미 있는 방식으로 확장해야 한다. 데이터 흡수, 색인 작업, 정규화를 제대로 계획한 빅데이터 전략을 갖고 데이터 레이크를 만들어야 한다. 모든 data에 적용가능한 정규화과정은 꼭 필요하다. 모든 data에 적용이 불가능하다면 일일이 오류를 분석해야 되기 때문이다.

마찬가지로, 대역폭을 충분히 갖추는 것이 중요하다. 대역폭이 부족하면 다양한 출처의 데이터가 데이터 레이크와 사용자를 향해 움직이는 속도가 충분히 빠르지 않기 때문에 데이터가 쓸모 없어지게 된다. 방대한 데이터 자원 보유라는 약속을 지키기 위해서는 초당 입출입 작업 횟수(IOPS)가 수백 만 번 가능한 빠른 디스크가 필요할 뿐 아니라 데이터가 생성되는 대로 쉽게 접근할 수 있는 상호 연결 노드 및 처리 엔진도 필요하다. 대역폭은 나의 연구와는 관련성이 없으나 어떠한 연구를 하는지에 따라 중요할 것 같아 글에 실게 되었다.

 

마. 빅데이터의 보안은 중요하다.

빅데이터의 단점은 시스템을 관리하고 안전하게 보호하기가 훨씬 더 복잡해진 것이다. 관련 데이터 양이 방대하고 대부분의 빅데이터 분석 시스템은 임무 수행에 필수적인 점을 감안할 때, 시스템과 데이터를 보호할 수 있는 적절한 예방조치를 취하지 않는 것은 대규모의 문제를 일으키는 것이다. 보안 조치에는 데이터 암호화(가능하다면 언제든지), ID 및 접근 관리, 네트워크 보안 등 기본 엔터프라이즈 도구를 배포하는 것이 포함되어야 한다. 데이터의 적절한 접근 및 사용에 대한 정책 시행과 훈련 역시 포함되어야 한다. 첨단산업, 국가기밀, 개인정보는 빅데이터 처리에 있어 중요하게 고려해야 할 조건이다.

 

 

3. 오늘날 가장 가치 있는 자원 데이터

빅데이터는 여러 분야에서 활용되어 왔고, 실제로 성공사례가 많다. 아마존닷컴의 추천 상품 표시 / 구글 및 페이스북의 맞춤형 광고, MLB (메이저 리그 베이스볼)의 머니볼 이론 및 데이터 야구(머니볼 이론이란 경기 데이터를 철저하게 분석해 오직 데이터를 기반으로 적재적소에 선수들을 배치해 승률을 높인다는 게임 이론), 2014년 FIFA 월드컵 독일 우승은 그 좋은 예시이다.

 

진로희망이 전산물리학자인 나로서도 빅데이터는 매우 의미가 크다. 환원주의로 설명하기 힘든 복잡계의 분석은 빅데이터의 처리가 있어야만 가능하기 때문이다. 빅데이터는 새롭고 강력한 도구이다. 실제로 연구활동을 하며 느꼈고, 언론과 최신 논문을 보면 통계학(데이터 마이닝이란 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술로, 수집되는 ‘빅 데이터’를 보완하고 마케팅, 시청률조사, 경영 등으로부터 체계화돼 분류, 예측, 연관분석 등의 데이터 마이닝을 거쳐 통계학적으로 결과를 도출해 내고 있다.), 생물정보학(최근 생물학에서 DNA, RNA, 단백질 서열 및 유전자들의 발현과 조절에 대한 데이터의 양이 급격히 증가했고 이에 따라 이 빅 데이터를 활용한 생명의 이해에 관한 논의가 진행되고 있다.)을 엿볼 수 있다.

 

빅데이터를 다루기 위해서는 다양한 조건들의 입체적 고려가 필요하다는 것이 이글의 주장이며 아래의 말로 마무리 하고자 한다.

 

“오늘날 가장 가치있는 자원은 더 이상 석유가 아니다. 데이터다.”

-광주 디자인비엔날레 관람-

 

 

Refernece

1. 빅데이터 분석 플랫폼 BigO 소개 http://www.saltlux.com/bigdata/bigO.do

2. 행정안전부 공공 빅데이터 우수사례집 http://www.mois.go.kr/frt/bbs/type001/commonSelectBoardArticle.do?bbsId=BBSMSTR_000000000015&nttId=61876

3. 디지털 유니버스 보고서 : 빅데이터, 더욱 길어진 디지털 그림자, 이머징 마켓의 놀라운 성장 https://www.emc.com/about/news/press/2012/20121211-01.htm

4. 빅 데이터 및 다양한 데이터 처리 위한 MATLAB의 인터페이스 환경 및 새로운 기능 https://kr.mathworks.com/videos/matlab-new-features-and-interface-for-big-data-analytics-104247.html

반응형

'Project > 소소하게~' 카테고리의 다른 글

SEM 사진전2 [주사전자현미경]  (0) 2021.10.23
SEM 사진전1 [주사전자현미경]  (0) 2021.10.23
전산물리  (0) 2021.10.23
The Industrial Revolution of the SKY  (0) 2021.10.23
Finding the root of an equation  (0) 2021.10.22

댓글