案例:We are what we steal #121
Fridatayyy
started this conversation in
Show and tell
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
一、简介
1、所属机构
该作品来自于新南威尔士州图书馆的DX实验室。DX实验室是一个从2015年到2021年中期的项目。该实验室现已关闭,但这个网站和大多数实验都被保留下来,以供参考。该实验室建立并支持设计思维、实验和技术研究的新方式。通过数字实验,为探索图书馆的藏品、数据集和服务提供有创意、有吸引力的新方法。使用现有的和新兴的技术来建立现场和在线的体验。
2、获奖背景
该作品入围2022年information is beautiful award。(2022年颁奖还没开始)
该作品所属的DX实验室获奖经历和作品较为丰富:
Bronze Best website- International Design Communication Awards 2018.
Finalist- Museums and the Web GLAMi award in the Exhibition Media or Experience: Non-Immersive category for #NewSelfWales
Winner MAPDA Multimedia for #NewSelfWales
Best in Show, MAPDA for #NewSelfWales
Winner Museums and Galleries NSW IMAGinE Award- Engagement Programs Large organisations for #NewSelfWales
Winner Best in Heritage IMAGINES 2020 for #NewSelfWales
Winner VALA award for Crisis Response 2020
(最佳网站铜奖-2018年国际设计交流奖。
入围-博物馆和网络GLAMi奖的展览媒体或体验。#NewSelfWales的非沉浸式类别
凭借#NewSelfWales获得MAPDA多媒体奖
凭借#NewSelfWales获得MAPDA最佳展示奖
荣获新南威尔士州博物馆和美术馆IMAGinE奖--#NewSelfWales的大型机构参与项目奖
荣获#NewSelfWales 2020最佳遗产IMAGINES奖
2020年危机应对奖 "获得VALA奖)
相关的信息可以在他们的网站中找到:https://dxlab.sl.nsw.gov.au/about/
3、数据来源
该作品数据来自于新南威尔士州图书馆收藏的《新南威尔士州警察公报》和《每周犯罪记录》(1860-1900)。该公报最初被称为 "犯罪报告等,供警方参考",从1860年开始每两周出版一次,每周一和周四出版一次(图书馆似乎拥有的最早的数字化期刊是1860年6月4日星期一的第45期)。以《新南威尔士警察公报》和《每周犯罪记录》为标题的第一期报纸于1862年3月5日星期三出版,此后大致每周出版一次。
该公报公布了一系列与新南威尔士州警察部队有关的信息,如晋升、被开除的警察、被释放的囚犯、逃兵、更正和对以前问题的更新,以及其他政府公报的偶尔补充。但是,大部分内容是关于所犯的罪行以及随后对(被指控的)犯罪者的描述。是一份典型的犯罪记录将遵循类似的格式,并指出发生了什么,大概的时间和日期(如果知道),地点,以及是否有奖励。
4、作品主要内容
该作品分析并研究了从1860年开始到1900年结束的《新南威尔士州警察公报》和《每周犯罪记录》中的近2000万字,将其中的词汇分为people、place、thing三种类型,分别用粉、绿、蓝三种颜色代表。统计并分析了特定词汇第一次出现的年份、特定词汇出现的频率、不同词汇之间的相关性、词汇与年代之间的相关性等。
5、目的
制作方认为,犯罪是对其发生的时期和社会的反映。发生的事情、涉及的物品和人员、地点、如何记录--甚至是否记录--都告诉我们一些关于当时的价值观、态度和权力结构。制作方试图通过分析这40年间犯罪记录中的词汇,看这期间新南威尔士州的人、地方和事物如何变化。例如,什么物品的价值足够高(而且在当时存在),以便被盗?人们的穿着是什么样的?包括那些犯下(被指控的)罪行的人。以及被盗的衣物是怎样的?人们住在哪里?使用的是什么材料?使用的是什么交通工具?由此可以大概推测该州40年内时尚的变化、新技术、新的运输方式、新城镇的建立、财富的增加,包括种族主义的现象。值得注意的是,这并不是一篇关于法律和秩序的文章,因为它对犯罪本身并不感兴趣,而是专注于数据的汇总,以及在记录过程中记录了什么。
二、数据与可视化分析
(1)数据收集与处理:
1、来源:新南威尔士州图书馆收藏的1860年~1900年间《新南威尔士州警察公报》和《每周犯罪记录》。
2、收集方式:通过光学字符识别(OCR)建立数据库
OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
它的优点是能达到影像资料的储存量减少、识别出的文字可再使用及分析;相较于键盘输入能节省人力与时间。
3、数据分类:词或短语被分为人(粉色)、地方(绿色)和事物(紫色)。除了少数例外,这些词或短语不会根据上下文进行任何区分,只关注这个特定的词或短语在某一年出现的事实。
例如,不论“巴拿马帽”出现是因为它被偷了,还是因为它是嫌疑人戴着的。提到巴拿马帽的事实表明,a)它在当时是存在的,b)有足够的价值,要么被戴,要么被偷。对地方也采取了同样的方法:无论犯罪是否发生在杜波,或该人最初来自杜波,或该人最终在杜波被判刑,都不重要,重要的是 "杜波 "出现在某年的公报上。
4、数据处理方法
4.1从Trove下载公报数据
4.2.清理数据(去掉html标记、换行符、制表符、双空格、多余字符等)
4.3.每年计算单词数(只计算空格),以计算每年的词汇率
4.4.使用正则表达式计算单词或短语每年出现的次数。对于某些术语,还将包括复数形式和/或带有连字符的变体和/或不区分大小写的搜索。
4.5.计算该词每年出现的次数,并根据该年的单词数计算出比率。
(2)有可能造成数据或结论失真的因素:
1、由于光学字符识别这一方式自身的缺陷,数据来源的原始文件本身是旧的,在原始转换中容易识别错误('G'误为'C','f'为't','3'为'8'等,反过来也是如此)。故在影像输入前需对影像进行处理、提取文字特征、比对识别、并且最后要经过人工校正将认错的文字更正,才能将结果输出。
2、由于拼写变化而导致的数据异常。在四十年间,拼写会发生变化,所使用的词或短语也会发生变化,地名也会发生变化,所以这里显示的所有内容都应该谨慎对待(提及次数较少的内容更应该谨慎对待)。
3、原始文件记录者(即当时的警署工作人员)的记录偏好不同,部分词或短语可能不被关注和描述
4、同音异义词的存在,特别是关于地方的部分。例如,文本中的“Albert”指的可以是一个叫Albert的人,或一个叫阿尔伯特的小镇,或皇家阿尔伯特酒店,或阿尔伯特连锁店。显然,有方法可以根据具体情况消除歧义,或使用某种形式的词性标记器对每次出现的情况进行分类,但最终作者还是决定按原样处理文本。
注:对于以上造成失真的因素,作者基本没有进行处理。因为作者认为如果不完全准确地排除重复和补充(例如如果处理了一些常见的OCR错误,但遗漏了其他错误,那么这将不正确地对术语进行加权),可能会无意中引入更多的偏见,还不如按原样使用整个语料库。
(3)数据呈现形式:
1、最常出现的是有关一个词或短语在历年文件里出现的次数的变化趋势图(曲线统计图),并会标注出现次数最高的年份及其出现的次数。为了更好地看到随时间变化的情况(即能使得术语出现最多的年份具有最大的高度),各独立图表间的比例是相对的。
2、是上一种形式的叠加,将2个或以上的词或短语的出现次数变化趋势图放在同一张图里比较,例如:马对自行车,胡须对胡子等。
3、根据分类建立了一个查阅工具:可以选择一个类别,查看这个类别下所有词或短语在这段时间内出现次数变化趋势图,其中各个图表的比例相对于第一项进行缩放,第一项为在这段时间内出现次数最高的词或短语。
4、 地图。在地点方面,作者通过公报列出了新南威尔士州所有地方的名单,以了解其中提到的内容,然后再次通过公报列出该名单,以获得计数。文章选择用简单地图的方式呈现公报中提到的地方次数的变化。通过移动滑块改变时间,可以看到每年公报中提到的城镇的数量和其所在的位置。字体越黑,提到的概率就越高。可以看到随着人口的增长和在新地区定居增多,越来越多的城镇被提及。
(4)可视化分析:
1、色彩。文章网页以大篇的米白色为底色,文字与图片以黑白灰为主,只有图表方面会根据所涉及的词语的类别分为人(粉色)、地方(绿色)和事物(紫色)。简洁明了,干净清晰。
形式:文章每个页面都会摘出几段原始文件中的完整语句,将其中受到分析的词或短语以色块标显出来,并在一旁附上该词或短语的出现次数变化趋势图,可以帮助读者理解该作品的可视化思路。每个页面的顶部或底部会出现黑白绘制的物品图表,点击该图标会跳转到记录有该词或短语的原文,并可以查看原始文件的影印资料。通过对原始文件记录的溯源和记录,一定程度上可以帮助我们发现该词或短语出现这
三、主要内容

在introduction部分,作者对文章的主要内容和数据来源进行介绍后,用简明的案例介绍了团队获得的数据的用处。
这张图对比了公报的文字字数和新南威尔士州人口数的在三十年间的变化,其中穿插了不同年份的某些出现次数最多的词语或第一次出现的词语。从图中可看出,虽然总体来说三十年间公报的字数和新南威尔士州的总人口都在稳定增加,但是增加比例不同,因此公报字数难以代表总人口的变化。

这张图对不同词语的词频进行了统计,并提供一个交互的界面,让读者能够选择两个不同的词语在不同的年份出现的频数进行对比,有一个直观的感受。比如这一图中我们选择了cigars和cigarettes,可以看出,总体而言,新南威尔士州的人民对香烟的称谓以cigars为主。文章还提到了其它可以进行对比的词语,如coffee和tea等,一定程度能够反映出当时人民的生活习惯。

(有许多词语可以选择)
之后呈现的几张图片,都是通过照片的实例来体现不同的词语元素以及出现的频率。比如第一图,照片中出现了黑帽子(black hat),作者即在照片旁标注出这一词语在几十年中出现的频数变化。这篇文章还有一个做的非常有意思的点就是,在每个词语下面都有提到有多少次“mention”,点击这行灰色小字可以直接跳转到新南威尔士图书馆的网页,然后会显示所有出现这个词的相关文章和图片,让读者能够更多地了解新南威尔士州关于该词汇不同时期的历史和故事。
在introduction部分之后,作者把呈现的内容划分为people、places、things,每部分呈现的逻辑类似,所以我们以people部分为重点对呈现的内容进行介绍。

这一部分的开篇,作者花了比较大的篇幅说明了设置选择“people”这一子类别的原因——因为在有嫌犯大头照之前的时代,报纸必须尽可能准确地描述嫌疑人,因此在报纸描述中会涉及年龄、身高、身材、头发颜色、眼睛颜色、穿着等等描写。同时,作者团队还发现,当时的性别歧视仍较严重,因而报纸涉及较多的也是对男性外貌特征的描写。
但是,作者也强调说,虽然能从数据库中推断出各种各样的东西,但如果不查看其他数据源和信息就很难确认所推断得到的内容是否完全正确。但作者认为他们使用的数据库的样本量较大大(一共有超过两千万字),涉及的时间较长,因此还是能够对当时人们的一般性特征有较为准确的反映。
这一图通过摘取当时公报的某一篇文章的内容,展现了当时对犯罪嫌疑人描述所涉及的词语,比如shallow complexion(面色蜡黄)在总的数据库中一共出现了3595次,moustache(胡子)出现了24870次等等。

这一图是通过照片更加清晰地呈现当时使用的形容性词语,比如goatee(山羊胡)等等。

之后,作者花了较大的篇幅对当时公报的文字涉及的种族歧视进行了描述。
作者提到,在公报中,出现了如blackfellow' (32), 'the blacks' (49), 'Chinaman' (2,023)这些带有冒犯性的词语,这一定程度上体现了当时的官员所持的种族主义态度。
同时,作者还结合了可视化图表强调了当时的澳大利亚人对土著人民采取的种族主义态度。作者使用了公报对当时谋杀案报道的例子。在这些报道中,嫌犯是土著人而受害者是非土著人的案件几乎是嫌犯是非土著人而受害者是土著人的案件的两倍,而当时的土著人在新南威尔士州人口中仅占1.4%,因此,我们可以通过词汇的整理,推测公报在报道谋杀案件中进行了筛选,有意识地对嫌疑人是土著人的案件多加报道。
下文的这张图表中,作者又创造了一个可以交互的界面。我们可以自由地选择查看公报中对人物不同特征(比如面部、牙齿、头发、胡子等等)的描写出现的频数。

这一图是对一些外貌描写的具体呈现,同样,点击每个词语下方的灰色小字就能跳转查看所有涉及该词语的相关报道。

这一张图关注了性别问题,作者为我们提供了“woman”和“man”,“female”和“male”等等几对表示不同性别的词语在公报中出现的频次的对比。比如,现在图中体现的是“woman”和“man”的对比,在四十年间宫保提及man的频率达到了90%,足以在一定程度体现当时存在的性别歧视现象。
之后的这些图片和introduction部分一样,通过照片的实例来体现不同的词语元素以及出现的频率。这些照片也是有据可考的,点击“view in collection”,可以查看照片的来源。
在后面的“places”和“things”部分,文章呈现的逻辑都比较相似,通过图表和图片等给出了代表地点和事物的词语在不同年份出现的频率变化,我们就不再赘述。
比较有趣的一点是,在“places”部分中,作者设计了一个图表呈现不同年份城镇名字被提及的数量。通过拖动从1860年到1900年的时间轴,我们可以发现被提及的城镇数不断增加,其中悉尼市中出现的城镇最为密集。
以上大概就是这篇作品呈现的主要内容。
四、意义和不足:
(1)意义
1、这项数字实验,通过研究公报记录的罪行,研究1860年至1900年新州的一些变化。在这项研究中,犯罪是对其发生的时期和社会的反映。从这个角度思考来说,案发事件、所涉及的物品和人员、地点、如何记录甚至是否记录这些行迹都是当时社会背景的反映。
2、这项研究重点是对数据的汇总,以及在记录过程中的附加品:时尚的变化、新技术、新的运输方式、新城镇的建立、财富的增加,所有这些都被记录在公报中。甚至连同当时的种族主义,也作为报告所发生的犯罪的副产品被记录下来。从这项研究可以看出,从另一个视角而言,犯罪也可以成为是社会变革的代表,从犯罪活动中也能窥探到很多变迁。
3、这篇数据新闻将公报和犯罪记录中的词汇分为people、place、thing三种类型,通过统计并分析了特定词汇第一次出现的年份、频率、相关性等等;从而在一定程度上揭示了当时的价值观、态度和权力结构。为我们研究特定时代和特定地区打开了新思路。
(2)不足:
1.没有很强的新闻性。缺少新闻由头,更多的是聚焦于长时间段的数据收集比对,没有一定的特定事件用以连接。
2.简单化统计,没有详尽叙述。只是统计了某年公报中某些词和短语出现的次数,所以它显然是对这段时间内实际发生的事情的一个巨大的过度简化。
3.错别字与文本校对。在四十年间,拼写会发生变化,所使用的术语也会发生变化,地名也会发生变化,所以这里显示的所有内容都应该谨慎对待。
4.分类有限,未全面诠释梗概。在这篇文章中,这些术语被粗略地分为people(粉色)、place(绿色)和thing(紫色),但这绝不是全面的,此外,为了更好地看到随时间变化的情况,大多数图表都是相对的并按比例排列。
Beta Was this translation helpful? Give feedback.
All reactions