callingj
500+ Views

빅데이터 승리의 과학

***** 11.13.수 /갠생_ㄴ

1.변화와 혁신의 토대, 빅~
_데이터분석이 정확함/ 현실에 맞게 변화된 전략을 쓴것
_변화된건: SNS 발달, 스마트폰, 무선인터넷 서비스
ㄴ SNS가 발달해서 데이터 수집이 더 수월해지지 않았나
_많은 ㅅ은 SNS를 선거에 사용에 집중한 반면,
>> IT기반 기술 : 클라우드 컴퓨팅, 빅데이터의 등장에 초점
_클라우드 컴퓨팅: 대량의 정보를 분석하기에 적합했고, 이는 각 자원봉사자들의 현장에 정보들이 전해졌고, 그로서 개개인의 유권자들을 접촉할때 용의하게 작용했다
_빅~은 과학기술중에서도 가장주목받음(탈세 줄이기, 번역 등)
_빅 특징
1. 규모( 하루에 방대한 데이터:주어진: 쏟아져 나온다)
2. 다양성(기존에는 설계된 자료에 따라 맞춤? 정보를 수집했다)면, 비구조적인데, 무관한 데이터
들을 결합하고 분석하는데 있다.
3. 속도- 실시간으로 정보를 분석해야한다. 정보는 저장-> 흐름으로 바뀜(내부 저장만을 의미x)

_빅~ 은 어떤 전략으로, 누가 , 어떻게 분석하고 활용하느냐에 따라 보석이 캐어진다.
(it기술< 어떤 데이터냐 < 분석(어떤정보를 얻는가) < 새로운 가치창출
_소비자=유권자/ 그룹단위의 타겟이 아니고, 마이크로 타겟이다
기존의 무차별적이고, 대량, 비싼 광고나 타겟팅이 아니고 유의미한 타겟을 의미한다
++ 클라우드 펀딩 추가 공부
++운영체제, 서버, 데이터베이스(2강에잘나옴)

*****11.17.금

2.유권자데이터베이스 구축과정
_catalyst 촉매제: 데이터베이스 구축(정치적 목적 외에 상업적인 용도로도 사용된다)
가입조건은 가지고 있는 정보를 제공하고, 후에 그 정보 외에 정보가 추가된 자료를 공급받는 것
_정치적(보트빌더) 유권자등록 + 소비자 데이터 + 자원봉사자(할머니들이 아날로그적 방식으로)


3.빅데이터 선거를 위한 IT인프라 개발과 운영
_CTO(chief technology officer)를 고용. 기업 내 기술적 의사결정의 전 과정을 책임짐
_외뿔고래: 데이터의 연동(이메일이나 모든 정보의 통합)
.많은 양의 데이터를 통합 및 분석하고, 많은 애플리케이션, 다운이 되면 안된다는 조건
.아마존 AWS 웹서비스를 이용, IT자원을 외부에서도 이용하도록 한다
(예 내 은행잔고 조회를 카카오를 통해서 확인할 수도 있게 하는 시스템)
.API(애플리케이션 프로그래밍 인터페이스:매개체 사이, 경계에서 통신이 접속되게 하는:)
운영체제와 응용프로그램 사이에서 통신에 사용되는 언어 및 메세지(예 아이폰 앱은 애플은 외부의 누구나 만들어서 앱스토에서 판매하게 했다 / 기존은 그 기업내에서 앱을 만듬 )

59
데이터는 다른 데이터와 조합할때 더 강력해지며 자유롭게 키우고 늘릴수있다
ㄴ 미국에서도 한 회사 내에서조차 정보가 곧, 경쟁에서 중요한 부분이기에 공유하기를
꺼려하는 현상이있었다. 이와관련해서 책을 읽는 각각의 정보를 어떻게 소통하고 취합 분석해서 하나로 이어나갈것인지는 매우 중요한 부분이 아닐수없다 :미국은 개인정보보호와 관련되어서 꺼려했던 부분도 있다고 한다 :

96
_개발운영그룹은 훈련(게임데이)을 통해 실패를 미리 여러번 경험을 해보며 매뉴얼을 완성
_그들은 팀 내에서 '화력증강자'로 자신들이 무엇을 해야하는지 알고 있었고, 책임지려는 의지 또한 강했다. 해본적 있지?에 어떻게 하지?가 아니라, 전에 이렇게 했었지(전략)가 있었다
_그러나 그들조차도 사실은 무슨일이 있을지 예측할 수는 없었다
_정치와 관련이 크게 없는 기술팀과의 융합을 위해 좌석배치 진행
>> 결론은 사람이다. 그 사람이 어떤 생각과 목표로 해나가는지...

_파일시스템: 저장 및 꺼내쓰는 방식을 규정하는...
_하둡: 빨리 복구하게 한다 / 맵리듀스: a,b,c 의 기록 및 파악을 담당한다


*****11.20. 월

4.빅데이터 분석[의미있는 정보를 도출: 주어진 것에서 캐내는]과 마이크로타겟팅
_정보의 연결, 팀 내 모든 사람들간의 공유
ㄴ. 이러한 프로그램이 잘 돌아가기 위해서는 프로그램 사용에 대한 교육 및 그것을 사람들의
철저한 정보 입력(훈련)과 열정일것이다
ㄴ. 우리는 결국 이러한 D를 사용할수 있는 위치에 있지는 않다. 그런 사람들이 훗날 모인다면 방향
을 제시해주고, 전체적으로 이끌어가는 눈이 필요할 것이다. 우리의 위치는 어디에 있고, 어디를
향해 갈수 있는가.
_기존의 방식이긴 하지만 필요하기도 한 분석
1. 얼마나 00을 선호하는가(65프로 이상 지지한다면 유력한 지역)
2. 변동률은 얼마나되는가 3. 실제 투표할 확률은 => 이 2가지는 높을 수록 선거운동이 필요함

120
_기존의 방식은 경험과 직감에 많이 의존했다 그러나 앞으로는 과학적인 것이 더 필요하다
_왜냐면 감, 경험은 효과가 있는지에 대해 알수 없다. 그러나 숫자, 데이터는 분명하게 보여준다.
_분석/ 실험이 중요한 시대 (예측모델링, 데이터 마이닝, 분석, 연결, 조직활동가, 통계등..)
_유권자 예측 모델링 기법 132~
.군집분석(30대, 여성, 1인가구..등), 라이프스타일..
.연관성분석(장바구니분석: a음식을 선호하면 00을 지지할 확률이 높다) 지지도, 신뢰도, 향상도
.회기분석
_데이터 베이스의 통합(유권자 관계 관리 시스템)
>> 1사람 1사람의 고유한 그자체로의 접근(마이크로 타겟팅: 쓸데없는 홍보 낭비등 막음)



*****11.26. 일
5.행동과학과 실험주의(마음을 움직이는 메세지)
_단지 성향만을 파악하기 위한 데이터과학이 아니라 어떻게 ‘마음’을 얻는가 였다
_몇명의 추측 < (대중들의 선택) 실험이 중요하다(대중이 좋아하는 메시지를 사용함)
_데이터를 통해서 문제를 해결하는 방법
_여론조사: 샘플을 추출한 사람 중에 투표할 가능성이 높음을 가려내는 목적
_마이크로 타겟
.비적극적인 사람의 참여유도이며 샘플만이 아닌 전체를 분석한다. 어떤사람이 어디에 관심이 있는지 윤곽을 알아냄
.행위를 예측가능하다는 것, 유권층은 안정적(변동이 크지 않다/ 여론조사는 변동이 큰것으로 나타나기도 함)임을 보여줌
.유권자를 찾아내서 특정지역에 특정시간대에 관고를 한다(케이블 사업자와 협력)
_text마이닝: 사람들의 특징에 따라 다양한 메일을 보냄
_마이크로 리스닝
_AB 테스트: 직감으로는 알수 었는 test의 중요성을 보여준다(2-3가지를 보여주고 많은 선택)
_분석가 연구소
p. 204 경험과 직감=> 실제 선택을 통한 가설을 검증[실험주의]
ㄴ경력직을 뽑는 이유도 경험과 직갑 때문인 것인데, 사실 시스템이나 기술적 측면에서 개발이 잘 되면 초보, 경력이 중요하지 않을 것이다. 그러나 그것은 기술로 대체 된다면, 인간의 고유한 능력을 빼앗기는 것이 되기도 하는 것일까?
p. 210 행동하겠금 만드는
. 구체적인 계획
. 사회적 규범: 누구누구는 벌써 다 했다
=>> 빅데이터는 주어진것에서 어떤 보석을 캐내는가? 그리고 캐낸것으로 어떻게 행동으로 이어지게 할 것인가를 다루는 것.


6.모두를 위한 데이터 ‘자원봉사자들’
_3가지를 지킴
. 사람을 사람으로(마이크로 타게팅)
. 온, 오프라인을 위해 존재함
. 스마트폰 극대화
_도구: 네셔널필드(내부), 대시보드(데이터 선순화 사이클/ 움직이게함), 고든
p.249 뿌리캠프: 전당대회 수준으로 각 주제별로 자유 토론(경험의 교류와 논의)
선거결과로 배운것을 정리해서 공유함



*****11.

7.빅데이터 전략을 사용하지 못한 공화당
_롬니: 외부, 지인, 신입등에 기능등을 맡김
오바마: 롬니보다 빨리 시작했음에도 불구하고, 늦었다는 생각(경쟁자는 만만치 않다)으로
외부보다는 내부적으로 강화하게 되었다


8.빅데이터 전략에서 배워야 할것들
p.268 모든 조직은 특정한 목적을 실현하기 위해서 그에 동의하는 인들이 모여서 만든것이다
_사람의 마음을 얻고자 하는 모든 단체에게 빅데이터는 필요하다
_조직의 문화로 자리잡아야만 한다. 리더가 이미 전체에게 '모든 활동은 데이터를 통해서 하겠다'를
구성원 전체에 알리고, 데이터 분석에 의한 의사결정들을 해나가야 한다.
_데이터 리더십: 분석결과로 나온 수치의 의미를 알고 이를 어떻게 전략에 응용할지 알아야한다
(분석가를 알맞게 배치한다거나)
p.270 데이터 분석+경험: 두개가 더해지면 결과에 대한 판단이 더 좋은결과로 나타난다
인간의 경험은 데이터와 달리, 초기 모델 설계 및 가설등을 세울 때 유리하다.
_리더는 조직내 사람들이 데이터를 내줄수 있게 그 데이터가 본인들에게 혜택으로 돌아감을 명확히 제시하면서 설득하여 데이터가 통합되도록 노력해야한다
_데이터 선순환 생태계
.외부데이터 수집 -정제,가공,분석 -핵심정보 -원활한 커뉴니로 전달- 각부분이 효율적으로 일
=> 시스템을 갖추어 다시 정보수집의 선순환으로 이어짐
p.273 규모가 작더라도 자체조사해서(핵심정보) 담은 데이터 베이스가 있어야만 - 예측가능한 모델을 만들고 - 더 큰 빅데이터를 통합해 데이터를 풍부하게 할수 있음 - 예측모델을 더 정교히 할수 있다(예를 들면 보험회사의 정보수집방법)
_역시 직접대면이 효과적이다
_마이크로 타게팅의 6단계
.전략수립(다시투표하도록/ 새유궞자발국/경합주에 초점//목표를 숫자로 제시)
.시스템구축(전략 실현을 위한 조직적 체계/ 기술,기능적으로 무엇이 필요한지 볼것)
> 실시간 정보저장 및 분석이 가능해야한다=> 외뿔고래
.데이터 수집(데이터베이스통합/ 수많은 데이터 정제)
.타깃설정
.테스트(AB기법등..대중이 선택한 메세지 선택)
.반복/공유(성과등을 실시간 활용->이것은 적극적인 참여를 이끌어낸다/ 선거로 얻은 교훈 공유)
p.285 민주주의에서 정ㅇ치로부터 자유로울수 있는 권리=> 정치에 참여하는 권리만큼 중요
____ 정리
1.왜 빅데이터를 읽었는가
_일단 4차는 적절한 사례가 없었는데, 이것은 사례를 통해서 어떻게 시스템이 굴러가는지를 볼수 있었다
_4차시대는 기존의 패러다임과는 다른시대임을 볼수 있다. 예를 들면 선수의 역량등을 보고 뽑기보다 그것을 수치화해서 확률적으로 뽑는것과 같이 다른시대이다.(머니볼)
_결국 사람이다: 데이터는 주워진 것에서 보석을 캐내는 것이다
그렇다면 데이터를 어떻게 분석(범주화)할것인지가 사람에 의해서 결정되어져야 한다.
_우리는 기술이 있지는 않지만, 한팀을 이루었을때 방향과 통찰력의 역할을 해야한다.
_데이터 분석의 결과에도 우리의 경험이 적용되면, 그것을 어떻게 적용할것인지는 사람이 결정하는것으로 매우 중요한 부분이
0 Likes
1 Share
Comment
Suggested
Recent