1、如何制作和传播数据新闻第二章数据新闻的类型 第一节一、“大数据新闻”与“小数据新闻”根据支撑报道的数据的性质来划分,数据新闻可以划分为“大数据新闻”和“小数据新闻”两种类型,而这两类数据新闻的差别就在于两类报道中所处理的数据对象是隶属于“大数据”的范畴还是“小数据”的样本。大部分专家赞同大数据(big data)有如下三个基本特征:(1)海量数据海量数据(volume):相比传统数据或小数据,大数据拥有庞大的数据量。到底多少数量级的数据才能被称为大数据呢?关于这一点业内尚无统一说法,一般认为10TB100TB是成为大数据的门槛。(2)类型多样类型多样(variety):相比传统数据多以文本数据
2、作为主要类型,大数据的类型更为多元化,其包含了网络日志、图像数据、文件数据和各种复杂的记录信息。(3)高速高速处理处理(velocity):数据量的增长速度很快,需要处理的速度和响应的时间越来越快。一、“大数据新闻”与“小数据新闻”小数据小数据大数据大数据目标解释特定的问题或是针对特定的目标考虑的是一个整体的目标,目标可能是灵活的,并非具体的存储位置存储于某一机构、某台电脑或某个单独的文件通常遍布于整个电子空间数据结构与内容高度结构化的数据,数据域被限制在一个单一的学科或分支学科内,以统一的格式记录包含各种非结构化数据,这些资源的主题可能跨越多个学科,或是与其他大数据资源存在相关关系数据准备数
3、据使用者为自己的使用目的所准备涵盖许多人的数据准备,准备数据的人未必是最终使用数据的人数据生命周期较短常被永久性地存储衡量可以通过标准的方法来解析和读取需要不同的协议来解读可重现性通常可以重现基本不可行成本成本和代价有限项目如果失败,代价高昂自省通过数据在电子表格和数据库中的行和列来定位可通过一种称之为“自省”的技术来实现分析一次性全部参与到分析通过分布式的方式进行分析小数据与大数据十个方面的区别大数据新闻作品典范:卫报如何报道英国骚乱?解读骚乱的报道历经了两个研究阶段。第一个阶段的成果发表于2011年12月,集中在探寻骚乱产生的原因上,报道团队先后采访了六大城市中270位骚乱参与者。值得一提
4、的是这一阶段中的另一项重要内容,报道团队对260万条与骚乱相关的Twitter数据进行了统计分析。详细报道见:https:/ 自我采集数据型的数据新闻是那些由报道者直接通过深度访谈、问卷调查、田野调查等社会科学研究方法获取第一手资料,并将这些资料量化为数据后进行处理,最后制作成的新闻报道。此类报道中的数据是报道者收集的原始数据,是真正意义上的第一手材料。在实践中,此类报道一般先由报道者设立清晰的报道目标,即一些需要通过调查了解的实际情况,分析原因或提出解决之道,然后报道者根据设定的目标确定调查范围和调查对象,再针对调查对象展开研究,收集数据。报道者对数据进行分析就是为了解决报道目标中设立的一些
5、具体问题。此类报道具有两个优点:一是媒体采用自己采集的数据报道可以增强报道的原创性和独家性,避免和其他媒体出现题材撞车现象;二是自我采集的数据相比已有的数据而言,其从最初的采集筹备到实施的过程都处于清晰的报道目标的指引之下,因而数据的纯度较高,可被利用的价值更大,这可以减少数据过滤的难度。卫报对英国骚乱的报道就属于自我采集数据型,媒体和科研机构合作耗时一年多,通过各种调查方法采集到关于骚乱的第一手材料,并将之进行分析解读后公之于众,其根据扎实的数据而提出的关于骚乱的观点打破了一些人的成见,引发了全社会的广泛关注,媒体也因此获得美誉。二、自我采集数据型和现有数据再利用型 现有数据再利用型的数据新
6、闻指报道者收集其他企业、科研机构、媒体或个人发表的与报道主题相关的数据分析报告或新闻报道,按照自我的报道意图对其中的数据进行新闻价值的再挖掘,将已有数据按照报道的叙事逻辑进行分析重组后制作成的数据新闻。这种数据新闻的优点是可以依据公开的丰富的数据资源,避免数据采集过程中可能遭遇的问题与麻烦,减少不必要的成本支出,它特别适合一些中小型媒体或是初步尝试数据新闻实践的媒体,可避免过度投入的风险。现有数据再利用型的数据新闻作品六十五年国人婚恋观变迁 2014年是中华人民共和国成立六十五周年,网易“数读”栏目于9月26日推出了六十五年国人婚恋观变迁史的报道。该报道选题从小处着眼,通过透视婚恋观念的变化,
7、以具体的数据展现人们从单一到多元、从压抑到自由的观念变化,从而折射出六十五年来中国社会的巨变。该报道以可视化信息图表的方式呈现,将信息图表设置为若干个色块,每一个色块代表着婚恋观的一个部分。具体包括择偶条件、最受欢迎、性行为态度、平均婚龄、离婚率、再婚占结婚总数比例等六个部分。(相关报道见网页:http:/ Search for Malaysia Airlines Flight 370),以强大的数据挖掘、分析和整合能力对该航班可能的飞行路线、搜寻范围做了解析和预测,并用可视化的方式将这次事件中大众普遍关心的技术问题以直观的形式呈现出来。失联搜救中的统计数据分析|统计之都(中国统计学门户网站,
8、免费统计学服务平台)http:/cos.name/2014/04/search.rescue.plane.statistical.data.analysis/三、以事件为选题的数据新闻与以话题为选题的数据新闻以话题为选题的数据新闻是指将报道选题聚焦于某类新闻话题,围绕此话题收集数据,并对之进行解读和呈现的数据报道。这类数据新闻的选题不与客观发生的新闻事件绑定,因而就有了更广阔的创意空间。编辑记者可以根据最新发生的事件做出选题的推理和联想,或是根据一些潜在的社会现象和问题做出思考,或是在已有的公开数据材料中找出具有新闻价值的部分,并以此为话题进行数据报道,甚至还可以是编辑记者自身或读者对某个话题
9、感兴趣而收集数据做报道。从这个角度看,以话题为选题的数据新闻没有很强的时效要求,其关键在于编辑记者寻找到的话题能吸引用户的关注,且用数据来解读该话题比其他报道方式更具有优势。这类新闻便于媒体用于一些具有个性化的选题报道中,媒体可据此来推出一些独家报道,从而与其他媒体之间形成差异化竞争,并逐步在用户心中产生数据新闻品牌效应。前面提及的傻瓜的艺术品拍卖市场就属于此类数据新闻,该报道选题并没有针对某一特定的新闻事件,而是从艺术品拍卖行业这一对普通用户而言略显神秘的领域入手,以一则小数据新闻对该领域进行条分缕析、细致入微的解读,令人深感选题之巧妙。案例:NPR如何报道美国和墨西哥的边境地带?2014年
10、4月,美国国家公共电台(NPR)网站推出了一则和调查报道中心(The Center for Investigative Reporting)合作完成的数据报道,工作人员用时两周,途经3 900多公里的美墨边境,不仅用镜头,也用数据向我们呈现了一个真实的边境。点击进入这个名为边境(borderland)的报道,你会看到页面上用显著的标题告诉读者:“边界线不仅仅是一条线,它是一个场所。”在关于报道的简短描述中,编者指出:“你在阅读报道,边境也处于忙碌中。”这段文字下方是五个处于变动中的数据,会伴随读者阅读时间的增加而不断增长。这五个数据与边境生活密切相关,分别是:有多少辆车合法通过边境,有多少行人
11、合法来往于边境,有所少人因为非法穿越边境而被拘,有多少磅大麻被警方搜获,有多少盎司的可卡因被警方搜获。只要停留几分钟,读者就会惊异地发现这些数据变动之快,让人不得不感叹边境之忙和边境之乱。http:/apps.npr.org/borderland/#_/introduction从制作到传播数据新闻的操作环节 第二节 一则数据新闻的产生需要经历制作和传播这两个关键环节。在制作阶段,发现、收集、整理和分析数据是核心内容;而在传播阶段,则需要运用可视化,并整合大众媒体和社交媒体两种传播渠道。一、制作:以采集、整理和分析数据为核心业界知名的数据记者米尔科劳伦兹绘制了示意图展示数据新闻的制作过程(见图)
12、。在他看来,制作数据新闻首先应该对原始数据进行清理,过滤掉冗余的数据,留下具有新闻价值的数据;然后将之进行可视化处理,使抽象的数据更为浅显易懂;最后则是以新闻故事的方式报道,使公众能够阅读和接受。对于公众而言,原始数据是没有多少价值的,但是通过清理、可视化和新闻故事的包装,其价值逐步提升,并最终成为对公众有意义的数据报道。卫报制作数据新闻的步骤(1)发现和获取数据。卫报获取数据的来源多样:当数据团队察觉到重要的新闻事件时,记者编辑就会到互联网上搜索相关的数据;同时,记者编辑还经常关注包括Office for National Statistics和World Bank等政府数据库和公共数据源,
13、以从数据中找到潜在的待挖掘的故事。(2)整理和清洗数据。获取数据后记者编辑要对数据进行初步的分析,识别数据的用途,看其能否与其他数据源相互关联,能否展示在某个时段内的变化趋势。在分析的基础上将数据做出分类整理,通过谷歌 Refine和DataWrangler等工具对数据做初步处理,清除一些无用信息,将有用数据、参照数据和关联使用的其他数据录入电子数据表,为进一步分析数据做准备。(3)分析数据。分析数据是讲故事的主要部分,分析结果能帮助大众理解故事和数据。这个环节将运用运算方法找出数据中是否存在有价值的新闻,并对整个分析过程做细致完全的检查。(4)呈现数据。将数据报道用文字报道、发表原始数据、发
14、布信息图表、可视化等方式呈现出来。在实际运用中,数据团队经常采用Google Fusion Tables、Google Maps API、CartoDB、Google Spreadsheets、DataWrapper和Tableau等数据可视化工具。二、传播:整合多种媒体传播平台 对数据新闻传播环节描述较为全面和细致的是互联网专家保罗布拉德肖,在他绘制的数据新闻操作架构图中明确标示了“制作”和“传播”两个不同的环节。在这幅名为“数据新闻的倒金字塔结构”(The Inverted Pyramid of Data Journalism)的图中,左边的倒金字塔标注了类似劳伦兹所绘的制作流程,包含了“
15、编辑”、“清理”、“情境”、“综合”等步骤,通过这些环节逐步生产出一则数据新闻。与劳伦兹不同的是,布拉德肖的图形中特别强调了“传播”的环节,为此他专门写了一篇博文详细说明这一环节。二、传播:整合多种媒体传播平台布拉德肖认为数据新闻的传播有六种途径:(1)可视化传播(visualisation)。可视化是传播数据新闻最快、最高效的途径。它的缺陷是人们一般不愿花费时间细读信息图,因而虽然传播有效,但用户参与度差。运用可视化传播需要可视化作品提供消息来源的链接,并确保用户点击链接后能看到可视化图表所包含内容之外更为丰富的信息材料。(2)叙事传播(narration)。虽然传统的叙事方式在数据新闻传播
16、领域所用范围已经很狭小,但用心写作的新闻故事依然能够吸引用户。采用这种方法进行传播时要注意增添报道的意义,让用户感受到与数据相关的联系。(3)社交传播(social communication)。除了可视化信息图表能在社交媒体快速传播外,数据本身也适合社交媒体的传播。一些媒体尝试通过社交媒体终端进行传播,如ProPublica的APP终端可为用户提供基于其在Facebook属性的个性化产品;还有一些媒体在制作数据新闻时就引入用户的参与,采用众筹的方式在社交媒体获取用户给予的数据,当此类新闻传播时,用户也会基于之前的参与而更加积极地在社交媒体分享报道。二、传播:整合多种媒体传播平台(4)人性化传
17、播(humanise)。这里所谓的“人性化传播”主要指两点:第一要增加基于计算机制作的动画表格的使用频率,布拉德肖认为这种动画新闻可以减少人们获取数据报道的压力,使报道以更加形象的方式解读数据。第二要增加采访个人受数据影响的案例,让庞大的数据故事对个人的影响以典型的个体案例的形式呈现出来,而不要让数据湮没于总体数据概述这种宏大叙事中。(5)个性化传播(personalise)。互联网时代为个性化传播提供了多种方式:一是互联网为新闻报道的传播提供了诸多交互方式,数据报道可以采用这些交互方式,当用户输入不同的关注要素时,报道可提供基于用户关注细节的差异化内容。二是提供基于地理特征的个性化内容。用户
18、通过选择自己所处的地理信息(如邮政编码、地区代码等),可以找到与所处地域相关的针对性报道。三是提供完全基于用户兴趣的内容,网站通过测试用户的兴趣推送其感兴趣的内容。四是通过和第三方站点(多为影响广泛的社交媒体,如Facebook、Twitter等)合作,通过它们提供的用户属性描述和地理定位,在不同的媒体终端提供迎合用户喜好和所处地域的新闻。个性化传播的数据新闻案例:英国赤字克星:你来选择预算削减英国赤字克星:你来选择预算削减报道中第二版块的网页截图2010年,由于税收政策不能做大幅度提升的调整,英国政府面临严重的财政赤字问题,需要从20132014年度的财政预算中削减大约370亿英镑。英国政坛
19、的三个主要政党都不愿意公开表态自己准备如何削减公共支出的细节,为此,英国金融时报发布了一则数据新闻,在税收标准不变的前提下,请用户通过请用户通过网站设计的交互方式选择如何削减预算,帮助英国政府官员做决策网站设计的交互方式选择如何削减预算,帮助英国政府官员做决策。这个数据新闻作品的个性化传播体现在其设计的交互性上:首先,用户需要选择自己的政治倾向,一共有四个可选项,分别是工党、保守党、自由民主党和无党派人士。这个设计结合了不同党派对预算削减总额的计划,当选择不同党派时,其削减的总目标有所区别。其次,当用户选择了自己政治倾向后,页面就会随之进入第二个版块(见图214),出现一张预算削减的详细表单,
20、用户需要在表单提供的具体的公共支出选项中选择自己认为需要削减的部分预算,并使得选择的总额符合该党计划的削减总额。最后,这个报道设计的第三个板块(见图215)既具有个性化传播的特征,也富有人性化,在“谁受到影响”(Who Is Affected)中,用户还可以看到自己的选择使英国社会中哪些具体群体受到相应的影响,这些影响是正面的还是负面的,以及影响的程度如何等。二、传播:整合多种媒体传播平台(6)应用化传播(utilise)。这是数据新闻传播中最复杂的方法,因为它要求为报道提供某种数据工具,使数据更具实用价值。常见的数据工具包括计算器和基于GPS定位的地理数据工具。应用化传播总是和个性化传播相交
21、叉,但是应用化传播更关注数据的实用性,而不一定专注内容的个性化。应用化传播也常和可视化传播等其他传播方法一同出现。案例:2014年11月27日上午,北京市发改委正式发布北京公共交通价格调整最终方案,提高了北京地铁的出行价格。新方案于12月28日起开始实施。这意味着北京地铁告别了2007年以来一直延续的全程2元的廉价时代,起步价和里程价都做了相应的调整。该政策刚一出台,就吸引了大量的关注,因为地铁已经成为北京上班族的一项重要的交通工具,地铁调价将影响许多上班族的出行,公众急需知道地铁提价后自己的日常生活支出受到了怎样的影响。为了解答这一问题,一些网站及时推出了相关报道,以在线计算器的网页应用方式
22、为用户提供地铁涨价后用户出行如何受影响的数据报道,其中又以百度和搜狗的报道在互联网上传播最广。应用化传播的数据新闻案例:北京地铁涨价的数据报道 百度报道北京地铁涨价时设计的在线计算器的页面截图 百度秉持了简洁的设计风格,百度的设计不仅可在电脑PC端登录使用,也可在移动终端传播。该设计首先映入眼帘的是报道标题“地铁涨价你的交通费涨多少”,以题压图的方式呈现,下面是可选择的地铁“起始站”与“终点站”,在点击相应选项时页面会自动跳转到可选择的地铁线路和相应的站点,这给用户带来了更为便利的操作体验。当用户开始选择站点时,网页的圆形图中将以插画幻灯的形式呈现整个北京地铁价格调整的历史变迁。有趣的是,当用
23、户选择“开始计算”后,显示的计算结果并不仅限于呈现单程票价,还将这一票价与之前2元时代的出行费用进行对比,将一年出行多花的钱也展示出来,并且用折合的方式以用户熟悉的生活用品支出做类比,如图中把每年多花的钱折合成购买进口奶粉花费的钱,使数据的实用性大增,迅速拉近了报道和用户之间的距离。组建团队数据新闻的人才需求 第三节 一个数据可视化团队应该包含这样8种角色:决策人、数据科学家、记者、计算机科学家、设计师、认知科学家、谈判专家、项目经理。数据可视化(visualizing data)网站博主安迪柯克一、团队决策人/负责人团队决策人/负责人承担整个数据新闻产品的内容设计和制作的整个数据新闻产品的内
24、容设计和制作的决策和管理,协调与进度控制决策和管理,协调与进度控制,是一个数据新闻团队的领导者。他们应该善于进行流程管理,做好不同角色成员之间的沟通和协调,并激发出成员的创造力。一个优秀的团队决策人首先应该是一个好的数据记者/编辑。2013年5月,曾创建英国卫报网站的西蒙罗杰斯转投Twitter旗下,成为该公司的一名数据编辑,这成为当时新闻界的一大新闻。这与罗杰斯在卫报的杰出表现不无关系,早在2005年其担任该报新闻编辑之时,就致力于沟通编辑部门和信息图制作部门,将新闻可视化。2009年,在总编的鼓励下,罗杰斯创办了卫报的“数据博客”,并开设“数据商店”。他秉持“开放新闻”的理念,发起众包新闻
25、和向受众开放海量的报道原始数据。“数据博客”将数据进行分析并可视化,关于维基解密和英国骚乱的数据报道使这家报纸成为数据新闻界的佼佼者。西蒙罗杰斯编著的事实是神圣的一书封面二、数据记者/编辑 一个好的记者应该具有新闻敏感性,善于调查采访,研究事实的真相,能写作和报道故事,引导公众参与。数据记者/编辑的职责与一般记者/编辑相似,他们承担确定新闻选题,从新闻的视角分析和编辑数据的工作。他们应该善于发现数据中有新闻价值的元素善于发现数据中有新闻价值的元素,拥有很好的传播沟通能力,懂得如何将数据中隐含的信息挖掘出来,从用户的视角赋予数据以故事情节从用户的视角赋予数据以故事情节,使之成为具有吸引力的报道。
26、“在线新闻博客”的保罗布拉德肖认为数据记者应该有以下四项技能:第一,寻找数据的能力寻找数据的能力。拥有专业知识,掌握计算机辅助报道的基本技能,并懂一些运用MySQL或Python获取数据的技能。第二,处理数据的能力处理数据的能力。了解和数据处理相关的专业术语、背景和相关知识,会统计学,能熟练使用电子数据表。第三,数据可视化的能力数据可视化的能力。布拉德肖认为可视化设计和编程的工作过去由专业人士承担,但现在越来越多的记者/编辑开始掌握这些技能,这说明记者/编辑们逐渐意识到这项能力的重要性,也说明编程和可视化并不像我们想象的那么困难。第四,混搭数据的能力混搭数据的能力。运用ManyEyes或Yah
27、oo!Pipes之类的工具对数据进行融合分析和呈现。三、数据技术人员 这类人员又被称为“数据科学家”、“数据挖掘员”或“数据分析师”。他们承担数据收集、挖掘、清理、统计、分析阶段的技术工作。这类技术人员一般不需要具有新闻专业知识一般不需要具有新闻专业知识,而应该掌握数学、统计学、信息科学等相关专业知识掌握数学、统计学、信息科学等相关专业知识。数据科学家有着计算机科学、工程学、商学、数学、信息系统管理、统计学等自然科学、人文科学、社会科学多种学科背景。数据科学家主要投入与数据相关的工作,包括筛选和组织数据、挖掘数据模式、视觉化描述数据、动态地(交互式)地处理数据、用数据讲故事、用高级算法解决分析
28、问题、挖掘文本和进行语法分析等。四、可视化设计师 可视化设计师有时也被称为信息设计师或视觉设计师。他们负责整个数据新闻产品最终的呈现形态和传播平台的构建。他们是报道和用户之间沟通的桥梁,完成一则数据报道最后的雕琢工作。可视化设计师应该了解数据记者的报道需求,并掌握认知科学知识,了解用户喜欢怎样的信息呈现方式。他们同时还能以美观、充实、新颖、高效的方式对报道形态进行精雕细琢,在赋予报道传播效力的同时赋予其一定的艺术表现力。“可视化设计师和传统的UI设计师、平面设计师、交互设计师有些区别。作为可视化设计师首先要学会首先要学会分析数据,具有一定的数学统计思想分析数据,具有一定的数学统计思想,因为你在
29、对数据可视化的时候需要了解你所设计的图形图表,或者是更大的展示系统是基于什么数据结构体现的。没有清晰地理解数据结构和数据关系,你是无法设计出正确的可视化系统的。你还需要有交互设计的理论还需要有交互设计的理论,这样可以正确引导你用各种交互手段来把数据结构化到视觉框架层面,整理出用户正确理解和分析数据的逻辑。还需要一些视觉设计方法还需要一些视觉设计方法,帮助你用很美观的视觉语言来展示数据。这里的视觉设计比传统平面设计更严谨,在视觉设计的时候,应用的对比、平衡、韵律等设计手段都要符合数据结构和数据关系。还要了解程序知识还要了解程序知识,编程思想可以很好地帮你建立结构化的逻辑思想,有利于你前期理解数据
30、和可视化设计。另外还可以利用程序生成设计的方法来做可视化设计。所以我认为一个优秀的可视化设计师需要同时具备数据分析、交互设计、视觉设计和程序开发的知识。这也是我一直以来寻求的目标和方向。”财新传媒“数据新闻与可视化实验室”设计师任远数据可视化设计师大卫麦克坎德莱斯作品集信息之美本章小结 本章介绍了数据新闻的类型,制作和传播数据新闻中的步骤与关键环节,如何组建媒体的数据新闻团队。对数据新闻类型的区分有利于我们了解数据新闻报道中存在哪些不同情形,不同类型的数据新闻在实践操作中具有不同的特点。数据新闻的制作与传播有别于传统新闻报道的流程,其以对数据的处理为核心,尤其需要关注传播中的六种要素。对于大型
31、媒体而言,建立一支完整的数据新闻团队显然更有利于此项业务的开展,但这并不意味着中小型媒体就无法投入数据报道,文中也介绍了相应的解决方案。本章学习与思考1.请你结合实例谈谈你对大数据应用的理解。2.你怎样区分“大数据新闻”和“小数据新闻”的差别?3.如果一个媒体将本媒体曾经的报道数字化,并建立相应的数据库,那么当它使用这个数据库的已有数据进行数据报道时,这种数据新闻应该属于哪类数据新闻呢?4.找一家媒体的数据新闻栏目,看看哪种类型的数据新闻在该栏目中占据主体?为什么?5.找一个数据新闻案例,通过采访深入了解数据新闻的制作流程。6.在布拉德肖提出的数据新闻传播的六种方法中,你认为哪种方法最为重要?为什么?