“사이즈가 커서 빅데이터 아닌가요?”
“데이터요? 한글과 PDF 자료로 드려도 되나요?”
“이번에 공연을 영상으로 제작했어요. 열심히 데이터 쌓고 있어요.”

이것은 실생활에서 흔히 나누는 대화이다. 당연히 헷갈릴 수 있는 내용이다. 질문에 대한 답을 하자면 컴퓨터에 저장되어 있다고 모두 데이터라 할 수 없고, 사이즈가 크다는 이유만으로 빅데이터라고 할 수 없다. 빅데이터 분야에서 일하고 있다 보면 설문조사 의뢰를 종종 받는다. 그럼 어디서부터 설명해야 할지 잠시 고민하게 된다.

거창한 이론적인 개념 말고, 몇 가지 사례를 들어 이야기하고자 한다. 적은 양의 데이터라도 패턴을 읽을 수 있거나 인사이트를 얻을 수 있다면 빅데이터라고 할 수 있다. 단순히 데이터를 수량에 따라 데이터와 빅데이터로 구분할 수 없다. 지도 데이터의 경우, 대량의 데이트세트(dataset, 관련 정보를 모아놓은 데이터 파일)이지만 그 안에서 특별한 의미를 직접적으로 얻을 수 없다면 빅데이터라고 보기 힘들다. 다만 그 데이터 위에 금융, 기후, 교통 등의 다른 데이터를 레이어(layer, 층/겹/단계) 형식으로 덮어서 인사이트를 볼 수 있게 만든다면 빅데이터로 볼 수 있다.

가끔 10년 치 뉴스 기사를 스크랩해서 파일로 가지고 있다고 이야기하면서 본인은 빅데이터를 가지고 있다고 하는 경우가 있는데, 그건 ‘콘텐츠’를 가지고 있는 것이다. 만약 그 콘텐츠가 정형화(일정한 형식, 구조)된 내용으로 정리해둔 자료가 아니라면 쓸 수 없는 가비지(garbage, 쓰레기)라고 본다. 문서 파일인 한글이나 PDF를 데이터로 활용하기 위해선 OCR(광학문자인식)을 통해 텍스트를 추출한 후, 가비지 정제 등 전처리 과정이 필수적이다. 기계는 ‘남성’과 ‘남자’를 다른 데이터로 인식하고, 번호 ‘13’도 칼럼(column, 엑셀의 row 값) 정의에 따라 각각 숫자와 문자로 다르게 인식한다. 참고로 이러한 전처리 과정은 생각보다 시간과 손이 많이 가는 작업이다.

문화예술계 종사자들이 현장에서 빅데이터 구축을 준비한다면, 가장 먼저 해야 할 일은 최대한 모든 자료를 데이터화하는 것이다. 외부 데이터를 활용할 생각보다는 내부 데이터부터 정리하여 분석해야 한다. 그래야 외부 데이터를 만났을 때 비로소 원하는 데이터 분석이 가능할 수 있다. 데이터는 모든 빅데이터의 기반이다. 맛있는 요리(빅데이터)를 만들기 위한 신선한 재료(데이터)와 같다. 하지만 현실은 남의 요리(외부 데이터)와 값비싼 요리 장비(인프라 구축)에만 관심을 쏟고 있다. 한글이나 PDF뿐 아니라 이미지, 동영상과 같은 콘텐츠들도 속성값들을 뽑아내 메타데이터(제목, 상영시간, 제작단체, 연출, 출연진, 줄거리 등) 형식으로 정리하면 좋다. 엑셀로 정리한 자료를 전처리 후 CSV(기계가 인식하는 엑셀 정도로 이해하자)로 변환하면 그것이 빅데이터로 가는 시작이다. 그리고 인공지능(AI)으로 넘어가면 우리가 하고 싶은 ‘예측’과 ‘추천’이 가능해진다. 그러기 위해서는 나와 우리 단체의 데이터부터 준비해야 한다.

문화 데이터를 활용해 서비스하는 빅데이터 플랫폼

① 예술인 인물 관계망 서비스, ‘링크드 재즈(Linked Jazz)’

‘링크드 재즈(Linked Jazz)’는 여러 아카이브 사이트의 재즈 뮤지션 동영상 인터뷰 50여 개에서 텍스트를 타이핑하고, 언급된 인물들을 추출하여 서로의 관계 정보를 지식 그래프(Knowledge Graph)로 시각화한 서비스다. 이것은 시맨틱 웹(Semantic Web) 기술 중 LOD(Linked Open Data)를 활용한 것으로, 의미 관계망 빅데이터를 처리하기에 적절하다. A는 B의 선생님이고, C는 B와 형제이며, C는 A와 함께 공연했다는 관계를 데이터로 보여줄 수 있다. 그리고 LOD의 가장 큰 장점은, 일일이 예술인 정보를 찾을 필요 없이 디비피디아(DBpedia, 위키피디아 정보를 데이터화)와 같은 외부 인물정보를 링크로 연계(인터링킹, InterLinking)하여 서비스할 수 있다는 것이다. 이러한 서비스는 인터뷰 동영상 콘텐츠를 데이터화 하는 데서부터 시작한다.

➀ 재즈 뮤지션 인터뷰 영상 ➀ 재즈 뮤지션 인터뷰 영상 ➁ 재즈 뮤지션 인터뷰를 문서화 ➁ 재즈 뮤지션 인터뷰를 문서화
➂ 구술채록에서 뮤지션간 관계 추출 ➂ 구술채록에서 뮤지션간 관계 추출 ➃ 커뮤니티 네트워크 시각화(전체화면) ➃ 커뮤니티 네트워크 시각화(전체화면)
➄ 개별 뮤지션 정보, 이미지, 비디오 제공 ➄ 개별 뮤지션 정보, 이미지, 비디오 제공 ➅ 선택한 뮤지션들의 다자간 네트워크 확인 ➅ 선택한 뮤지션들의 다자간 네트워크 확인
링크드재즈의 작업 프로세스
출처: ①,②-Fillius Jazz Archive, ③∼⑥- 링크드 재즈 홈페이지 화면 캡쳐

② 문화 빅데이터 플랫폼, ‘빅데이터 마켓C(BigData MarketC)’

국내 문화 빅데이터 플랫폼 사례 국내 문화 빅데이터 플랫폼 사례
출처: BigData MarketC 홈페이지 화면 캡처

해외 데이터 플랫폼과 같은 사례가 국내에도 있다. 과학기술정보통신부에서는 16개 분야의 빅데이터 플랫폼(센터에서 받은 데이터를 모으고 융복합 가공)과 150여 개의 빅데이터 센터(데이터 수집, 공급)를 선정하여 16,885건의 데이터를 통합 데이터 지도 사이트에 개방하고 있다. 빅데이터 플랫폼 중 하나인 ‘문화’ 부분은 1개의 플랫폼(한국문화정보원)과 11개의 센터(국립중앙도서관, 한국문화예술위원회, 국민체육진흥공단, 한국청소년활동진흥원, 부산정보산업진흥원, 야놀자, 레드테이블, 레드타이, 데이터마케팅코리아, 12cm, TNMS)로 구성되어 있다. 문화예술, 체육, 관광, 한류, 미디어 등 다양한 데이터를 수집하고 가공하여 개방하고 있다.

빅데이터 마켓C에서 추출한 분석자료 빅데이터 마켓C에서 추출한 분석자료
출처: 필자 제공

문화 빅데이터 플랫폼 마켓C(MarketC)에서는 다양한 혁신 서비스를 제공한다. ‘문화역세권’은 문화공간 데이터를 기반으로 내 주변 문화시설, 비대면 문화생활 장소 등을 추천해주는 서비스다. 지역을 중심으로 공공문화시설, 어르신 이용 가능 시설, 지역별 축제 장소 등 공간 정보를 제공한다. 그리고 ‘지역문화생활 SOC’는 문화생활 특성과 소비 패턴을 분석하여 지도 위에 시각화해준다. 위 그림은 ‘연령별 문화소비분석’의 지역별 결과로 2020년 부산광역시 30대 기준 예시이다. 이처럼 지역별 문화소비 비교가 가능하며, 이를 통해 홍보마케팅 타깃 설정에 도움을 받을 수 있다.

데이터를 참고할 수 있는 사이트

네이버 데이터랩 검색어 트렌드

네이버 통합 검색에서 특정 검색어가 얼마나 많이 검색되었는지 확인할 수 있다. 검색어는 시대의 트렌드를 살펴볼 수 있다는 점에서 유의미하다. 기간(월간, 주간, 일간), 기기(모바일, PC), 성별(여성, 남성), 연령(11단계)을 설정해 조회 가능하며, 가장 높은 기준을 100으로 한 상대 수치 그래프로 시각화하여 제공된다. 해당 수치는 엑셀 파일로도 무료 다운로드할 수 있다. 코로나19 상황이 장기화하면서 공연과 전시도 비대면으로 기획되어 ‘비대면’과 ‘언택트’, ‘온택트’라는 키워드가 뜨고 있다. 아래 그림은 비대면, 언택트, 온택트, 온라인 키워드로 공연과 전시를 검색한 수치이다. 작품을 홍보, 마케팅하며 사용하는 단어 하나의 차이로 작품이 검색될 기회가 급격히 감소할 수 있다. 특히, 사람들은 전시를 찾을 때, 언택트 전시라는 단어로는 거의 검색하지 않는다. 이처럼 빅데이터로 구축한 검색량 데이터를 참고하면 홍보, 마케팅에 활용할 수 있다.

네이버 검색어 트렌드 사례 네이버 검색어 트렌드 사례
네이버 검색어 트렌드 사례
출처: 네이버 데이터랩

공공데이터 포털의 문예연감

문예연감 공연 편람(2007~2018년) 문예연감 공연 편람(2007~2018년)
출처: 공공데이터 포털

한국문화예술위원회는 1976년부터 매년 전국의 문화예술 활동 현황을 분야별(문학, 시각예술, 공연예술 등)로 수집, 정리하여 자료로 발간, 공개하고 있다. 책자는 PDF로, 편람은 엑셀 자료로 공개했지만 수년에 한 번씩 속성 기준이 바뀌어서 하나의 데이터로 통계를 낼 수 없었다. 또한, 데이터양이 많아 사람이 일일이 정제할 수 있는 사이즈가 아니었는데 최근 2007년부터 2018년까지 표준화해 정제된 문예연감 데이터 24만 건이 공공데이터 포털에 무료로 공개되었다. 특히 문화예술 분야를 연구하는 연구자들에게는 희소식이다. 이제 특정 문화예술 공간에서 올려지는 작품 목록을 검색할 수 있고, 초연은 언제 어디서 올려졌는지 확인할 수 있게 되었다. 지역을 구분해 그 지역에서 어떤 공연이나 전시가 올려지고 있는지 알 수 있다. 한편, 이와 같은 문화예술 분야 데이터를 활용한 기획 아이디어 공모전 ‘예술데이터가 바꾸는 세상 해커톤’이 2020년 11월에 진행된 바 있다.

빅데이터 플랫폼 통합데이터지도

대한민국 빅데이터 플랫폼 데이터 검색창 대한민국 빅데이터 플랫폼 데이터 검색창
출처: 통합데이터지도 홈페이지

과학기술정보통신부는 문화, 통신, 유통, 헬스케어, 교통, 환경, 금융, 중소기업, 지역경제, 라이프로그 등 16개 분야의 빅데이터 플랫폼을 구축하고 데이터를 유·무료로 공개하고 있다. 문화예술 분야 종사자라도 다른 분야의 데이터를 함께 참고하거나 연습실, 홍보·마케팅 등 장소를 선택할 때 도움이 된다.

통신 빅데이터 플랫폼 유동인구 데이터 사례 통신 빅데이터 플랫폼 유동인구 데이터 사례
출처: kt잘나가게 홈페이지

통신 빅데이터 플랫폼의 ‘kt잘나가게’ 서비스는 전국 모든 지역 상권 정보를 무료로 공개하는 플랫폼이다. 공연장이나 전시장 인근의 유동 인구를 알고 싶을 때, 옥외 광고판이나 오프라인 프로모션을 계획할 때 등 유동 인구 데이터를 참고하면 좋다.

금융 빅데이터 플랫폼의 상권분석 데이터 사례 금융 빅데이터 플랫폼의 상권분석 데이터 사례
출처: 대박날지도 홈페이지

금융 빅데이터 플랫폼 ‘대박날지도’는 비씨카드의 빅데이터를 기반으로 상권의 다양한 정보를 제공하는 서비스이다. 1단계 업종과 2단계 지역, 3단계 분석 기준(창업 성공지수, 안정성, 시장성, 성장성)을 선택하면 지도 위에 색으로 추천 지역을 보여준다. 위 지도는 ‘공예품/기념품’ 숍을 ‘서울시 종로구’에 오픈한다는 가정하에 ‘성장성’이 높은 지역으로 추천받은 경우이다. 그리고 주변에 문화예술공간(극장, 전시)을 주요 시설 포인트로 선택하였는데, 지하철이나 버스정류장도 확인할 수 있다. 엑셀로 된 데이터보다는 이와 같은 시각화된 데이터를 보는 것이 수월하다.

예산과 인력이 없어 고민이라면

위와 같은 데이터 구축 사례를 살펴보면서, 우리 단체는 데이터를 만들 인력이 없어서 또는 예산이 없어서 어렵겠다고 생각하는 분들이 분명 있을 것이다. 그래서 정부에서는 이러한 데이터 구축을 위한 다양한 인력 및 예산 지원 사업을 마련하고 있다. 연일 매스컴에서 이야기하는 ‘한국판 뉴딜’의 데이터 댐 사업이다. 많은 지원 사업들이 있지만, 대표적인 사례만 소개하겠다.

① 고용노동부 ‘청년 디지털 일자리 사업’
데이터를 구축할 ‘인력’이 없을 경우, 고용노동부 ‘청년 디지털 일자리 사업’은 IT 활용 가능 직무에 청년을 채용한 기업에 최대 6개월간 인건비를 지원한다. 원칙적으로 5인 이상 중소·중견기업이 대상이지만, 문화콘텐츠산업의 경우는 1∼4인 기업도 지원할 수 있다. 기업당 최대 30명까지(근로자 수가 5명이면 지원 한도는 5명까지) 콘텐츠 기획형, 빅데이터 활용형, 기록물 정보화형 유형으로 나눠 1인당 180만 원까지 인건비를 지원한다.

② 과학기술정보부 ‘데이터 바우처 지원사업’
민간단체(기업)인데 데이터를 구축할 ‘예산’이 없다면 과학기술정보통신부 ‘데이터 바우처 지원사업’을 고려할 수 있다. 데이터 활용을 통해 비즈니스 혁신 및 신규 제품·서비스 개발 등이 필요한 기업에 바우처 형식의 데이터 구매·가공 서비스를 지원하는 사업이다. 중소기업, 소상공인, 1인 창조기업, 예비창업자 등이 대상이다. 외부에서 데이터를 구매하는 경우에는 최대 1천 8백만 원, 내외부의 데이터를 가공하는 경우 일반가공은 최대 4천5백만 원, AI가공은 최대 7천만 원을 지원받을 수 있다.

③ 행정안전부 ‘공공데이터 기업매칭 지원사업’( 공지사항에서 ‘기업매칭’으로 검색)
공공기관인데 데이터 구축할 ‘예산’이 없다면, 행정안전부에서 공공데이터 구축·가공 기술이 필요한 공공기관에 데이터 전문기업을 매칭하고 예산을 지원해 공공데이터 개방을 추진하는 사업에 주목할 만하다. 과제당 2억 원으로 한 기관에서 여러 과제를 지원할 수 있으며, 해당 사업으로 구축된 데이터는 공공데이터 포털에 개방된다.

문화 데이터는 사람들의 라이프 스타일을 담고 있어서 타 분야 데이터와의 만남이 설레고 기대되는 분야이다. 하지만 문화예술계 종사자들은 빅데이터에 관한 관심에 비해 참여는 소극적이다. 문화 빅데이터 서비스 사례들을 살펴보면, 문화 콘텐츠 기획이 주도권을 잡고 있어야 진정한 색과 힘을 발휘할 수 있다. 단지 기술은 도울 뿐이다. 앞으로 데이터 관련 사업에 관심을 가지고 적극적으로 참여하는 문화예술계 종사자들이 많아져 많은 정보와 사례들이 공유되길 바란다.

  • 임영숙
  • 필자소개

    임영숙은 대학에서 수학과 전산학을 전공하였고 현재 문화콘텐츠 전공 공학박사다. 단지 공연이 좋아 문화예술계 주변을 기웃거리다 2001년 국립발레단 공식 동호회 초대회장을 맡았다. 평소 해보고 싶었던 예술인과의 만남, 공연 리뷰 모임 등을 만들며 놀았는데 200명이던 회원이 1년 사이 2,000명으로 늘어났다. 이후 세종문화회관 인턴을 시작으로 서울국제공연예술제(SPAF), 유니버설발레단, 정동극장, 국립아시아문화전당(ACC), 국립현대무용단을 거치며 17년을 공연계에서 보냈다. 예술경영지원센터 빅데이터 교육을 듣다가 확신이 생겨 무식용감하게 빅데이터 분야로 이직했다. 과학기술정보통신부 문화 빅데이터 플랫폼 및 센터 구축사업에 참여하였고, 온라인미디어 예술활동 지원사업 통합사이트 ISP(정보화전략계획)를 수립하였다. 현재 재직하고 있는 ㈜리스트는 빅데이터, 인공지능, 지식그래프 분야의 데이터 기반 전문 기술기업이다. 앞으로 문화예술계 동료, 선배, 후배들과 함께 빅데이터 지식정보를 나누고 싶다.

  • 페이스북 바로가기
  • 트위터 바로가기
  • URL 복사하기
정보공유라이센스 2.0