与天堂文件泄露背后的数据专家骨干见面

日期:2018-06-06 浏览:31

上周末,世界各地的媒体发表了以《天堂报》为基础的报道,该报收集了1300多万份泄密文件,详述了世界上最富有的人是如何把钱存放在海外避税天堂的。

广告德国一家主要报纸suddeutsche Zeitung首次获得这些文件后,国际调查记者联合会与380名记者一起分析了这些文件,其中至少有95个组织分布在全球各地。迄今为止,有关报道揭露了苹果等跨国公司利用离岸账户寻求减税,以及商务部长威尔伯罗斯( Wilbur Ross )对与俄罗斯总统弗拉基米尔·普京( Vladimir Putin )有关联的公司的详细投资,预计未来几周还会有更多报道。

但是,尽管世界各地的记者分析了国际法律公司Appleby、信托业公司Asiaciti和19个司法管辖区的公司注册处提供的资料,但将原始泄露的文件转换为可搜索、可用和安全的数据库的大部分技术工作是由ICIJ的骨干团队完成的。ICIJs首席技术官Pierre Romera说,大约有9到10名开发人员、分析师和产品经理在项目的技术方面工作了大约14个月。

「我们是一个非常非常小的团队。」

当然,ICIJ并不是第一次处理大规模的文件倾卸: 2015年泄露的巴拿马著名文件包含了类似数量的材料,ICIJ也处理过小规模的海上泄漏。多年来,ICIJs团队开发了数字工具和程序来理解如此庞大的文档网络所能讲述的故事。他们在需要时构建了自己的软件,其中一些可以在GitHub上获得,并学会了利用开源Apache Solr搜索引擎和Neo4J连接的数据分析平台等工具。

「大部分时间,我们会根据需要使用现有的工具来改善自己。」

ICIJ用泄露的文档讲述的每一个故事基本上都包括一个交互式网络图,它是用Neo4J和可视化工具linkurius构建的。这让读者看到故事中的公司和个人是如何相互联系的。Romera说,图表数据库对于那些希望揭露故事的记者和那些努力核实这些故事的调查人员也很有用。

为了保护财团的消息来源,他不能太详细地介绍天堂文件是如何收到的,但资料包括电子邮件、电子表格和大量PDF文件。

「PDFs是最大的挑战之一,因为其中有些只是没有文字的影像。」

这意味着,在将文件加载到任何类型的搜索引擎中之前,必须使用光学字符识别软件进行处理,该软件可以将文字和数字图像转换为计算机能够理解的实际数据。Romera说,ICIJ已经建立了一个名为Extract的开源工具,用于有效地从这些类型的文件转储中提取有用的数据,并对这一回合进行了一些改进,以处理一些新的文档格式。

电子邮件也对分析提出了自己的挑战,因为文件中有太多重复的数据。早期的邮件在回复和转发中被再现,同一邮件可以是多个包含在数据仓库中:一个用于发送者,一个用于接收者。

「如果我们不删除资料库的重复资料,文件总数将会大得多。」

然后,这些数据可以被加载到图形数据库中,Neo4J CEO Emil Eifrem说,这个工具在整个新闻业变得越来越普遍,大概是因为概述社交和商业网络的数据集变得更加普遍。Eifrem说,ICIJs成功地利用Neo4J来分析巴拿马的文件,这有助于引起其他从事类似金融数据工作的组织的兴趣,例如世界各地的银行和税务机构。

广告在新闻方面,该公司将Buzzfeed、《卫报》和《纽约时报》视为用户,为新闻机构提供培训和支持,最近还在ICIJ赞助了一个互联数据研究金。

Neo4J的最新版本包括对数据可视化的更多支持,而不需要开发人员或外部工具、用于从其他常见数据库加载信息的软件以及有助于在数据中发现有趣模式的算法。

「丛集演算法对于寻找例如交易丛集非常有趣。」Romera说,ICIJ计划在未来几周发布更多的故事和数据,天堂报可能在未来一段时间内继续产生影响。前总理纳瓦兹谢里夫巴基斯坦其余地区继续面临巴拿马报纸揭露的腐败指控。

鉴于这么多有权势的人牵涉到很大的风险,ICIJ及其合作伙伴组织自然强调数字安全: Romera说,ICIJ帮助合作伙伴安装安全软件,并建立安全的计算环境,在此环境中,他们可以分析数据而不会泄露自己的信息。

Romeras团队经常会遇到钓鱼电子邮件的危害,他说,有些甚至针对电子邮件地址没有广为传播的新员工。Romera说,该小组对自己的网络登录使用双因素身份验证,并采取其他安全措施,包括仔细验证收到的泄露数据。

广告「你永远不应该信任你的资料」,他说。“你必须检查一切。“