摘要:时至今日,科学技术的发展能够处理大量不同来源的结构化和非结构化数据。这些技术常常被称作大数据,其开启了新的研究和应用领域,也将会对当今社会逐渐产生影响力。本文评价了应用在食品安全领域的大数据及其潜在发展趋势。在世界的各个地方,各国政府激励源于公共资助研究项目的互联网大数据发表。对于企业利益相关者如何处理食品安全和提出问题,这项政策迎来了新的发展机遇,这在以前是根本无法实现的。由于大数据新的发展,应用手机作为食品安全检测设备和利用社交媒体为食品安全问题预警也将成为可能。
一、引言
在全球化进程的影响下,社会企业产生大量的数据,这些数据包括商业,政府,健康保健和各研究学科,比如天然科学、生命科学、工程学、人类学和社会科学。这些大数据越来越可利用化,可以被用来开拓视野,提高决策,并且提高产品和服务的质量。但是,大数据的聚集和加速产生,需要相关数据的有效收集、储存和处理来战胜挑战。大数据的应用趋于多元化,比如来源于亚马逊网站的推荐系统,可以实时预测流感的爆发。另外还有一些文章研究了大数据潜在的应用。
“大数据”一词很少应用在食品安全相关领域,主要是因为食品安全数据和信息过于分散,主要集中于食品、健康和农业企业。食品安全领域大数据的应用需要内部操作标准的建立和实施,以及保密性保护。传统食品安全数据,例如全国调控数据,数量相对有限,虽然在区域之间不能达到和谐,但是具有很好的结构化。为了考察大数据方法如何能够有利于食品安全,本文作者分析了食品安全工具的应用,发展于不同阶段的大数据研究(例如数据收集、数据储存和转移、数据分析和数据可视化)。此外,作者分析了某些大数据在食品安全中是否以及如何扮演重要的作用,同时提供了一些范例来探讨未来的发展和机会。
二、大数据的定义
关于大数据的的定义有很多种。世界卫生组织使用的定义是:新兴应用的快速收集的、复杂的数据,这些数据以不可定量的兆字节,拍字节,甚至泽字节的储存形式存在。Gartner教授在2012年描述了对于大数据的数据管理挑战,具有三维特性:大数据具有高容量、高速和高多样性信息组,同时需要新的处理形式来提高决策,发掘观点和过程优化。欧委会于2014年发布了相似的定义:3V,即容量、速度和多样性。大数据指以高速产生的大量的不同字节的数据,其具有大量不同的字节来源。处理今天的大量和实时的数据组需要新的工具和方法,例如强有力的处理器、软件和运算法则。2015年,De Mauro教授提出大家一致同意的定义:大数据代表具有高容量,高速和多样性三大特性的信息组,同时需要通过特殊的技术和分析方法来使其转换为价值所在。
三、食品安全中大数据应用
最近世界卫生组织提出采用大数据方法来支持食品安全中面临的决策问题,产生了一个食品安全平台“FOSCOLLAB”,对来源于不同的学科进行整合。在这个平台中,来源于多个企业中的结构化和非结构化数据,例如农业、食品、公共卫生和经济指数被整合,通过专用设施,能够被使用者所应用。
(一)食品安全的数据收集
通过包含和产生食品安全有效信息,来区别不同类型来源,例如(在线)数据库、互联网、组学分析、手机和社交媒体。
1. 在线数据库
为了监测食品中有害成分的数据,产生了许多数据库。世界卫生组织于2015年发布的全球环境监测系统数据库包含数以万计的全球监测数据入口。考虑到其入口相对数量多,因此数据以一种逻辑化方式所结构化,并且容易获取。关于化学试剂性质信息,微生物生长条件和天气报告,在食品安全研究中占有重要地位。也可以使用模型来预测某些有害成分的存在,比如小麦中的真菌毒素。这些天气状况报告包含许多高速产生的数据,这些数据被收集在农业和供应链。不仅结构化数据库会收集食品安全事件,而且也可以通过国际食品安全权威机构的网站和媒体报道来查看。而后者的数据来源是非结构化的,并且分散在网络中,很难获取。一个相似的例子是食品污染物突发事件的登记(通过疾控中心)。这些事件也可以在网络和社交媒体中找到。
2. 互联网
因为互联网包含大量的信息来源,可以通过开发互联网来辅助风险经理人和风险技术顾问应对食品安全问题。开发网络信息采集系统用于在互联网上查询与食品安全相关的论文报告。这种系统的一个典型例子是MedISys,它属于欧委会联合研究中心开发的欧洲媒体监测系统。
3. 在线功能基因组学数据目录
“组学”一词覆盖许多学科,包括基因组学(研究核苷酸变异对基因的影响)、转录组学(mRNA表达)、代谢组学(代谢物水平)和蛋白组学(多肽和蛋白质水平)。为化学安全所开发的基于毒理基因组学的预测实验的主要方法,尤其是为了达到鉴定危险物的目的,包含大规模的基因组学数据库,这些数据库采集于细胞或动物的有毒物质的暴露。毒理基因组学的目的是阐明有毒物质表达的分子机制和分子表达类型(比如分子生物标记),同时能够使用“基于动物”和体外(细胞)模型来预测体外和体内毒性。
4. 手机
使用手机变得越来越广泛,新的应用快速发展,包括食品安全和健康相关的应用。报道显示联合使用智能手机和便携式设备可以监测(1)水质中汞污染,(2)啤酒中赭曲霉毒素A污染,(3)食品中多种过敏原污染,以及(4)水质和食品中微生物(大肠杆菌)污染。在手机上收集得到的数据不仅可以通过无线连接个人计算机,而且能够转移到数据云或其他数据中心。
(二)数据储存和转移
通常来讲,通过数据管理系统能够达到数据储存,例如MySQL, Oracle和PostgreSQL。但是,这些系统不足以用来支持大数据处理。对于大数据而言,需要由比传统系统所能提供的更快的速度、更好的机动性和可实现性。因此,下一代数据库会发展非关联的,开放源模式和水平可伸缩性,也就是NoSQL。这些系统很好例子有MongoDB, Cassandra和HBase等等。
(三)数据分析
在NoSQL中,随着数据储存和转移到处理单元之后,接下来就是数据分析。使用最广泛的大数据分析方法分为以下两大类:(1)推荐系统;(2)机器学习。
(四)可视化
不同的可视化工具用来分析和总结大数据,这些工具有利有弊。最常见的是R和Cicos. R,这是一种通过使用在数据中的开放源程序语言,来可视化和分析数据的工具,并提供图功能和网络图功能。Circos允许在循环布局中可视化数据,同时开发目标物和位置之间的关系。该软件成为了可视化染色体的标准。对于商业可视化软件而言,不需要编程技能,IBM公司开发的在线可视化处理工具 Many Eyes和Tableau都是很好的选择。
四、食品安全大数据实例
(一)农业链和食品供应链
在农业链,大数据可以通过有关环境因素的链接信息来预测病原体或污染物存在。例如,通过监测田间作物条件,可以达到在进入食品链之前,鉴定黄曲霉毒素污染增加的面积。在另一研究中,研究者以欧洲西北部的小麦为对象,通过使用大量的模型和数据库(包括天气数据),开发出定量模型,从而预测小麦真菌毒素的污染。
(二)突发事件和来源鉴定
在食品安全性突发事件产生过程中,大量的样品被收集和分析,产生大量的数据和信息,这些数据和信息被用来鉴定突发事件的来源。快速筛选病原体基因技术(全集因序列和下代序列)的发展,导致专一基因信息的收集和病原株或亚型的出现。例如,2011年,在德国发生的病原体“肠出血性大肠杆菌”事件,在不同面积,细菌存在的信息被收集到。健康个体的家能够用来筛选庇护病原体,通过监测每个家庭来筛选二级感染。在初级阶段,这些监测信息帮助检测问题,允许及时地提供防护性措施,最终阻止突发事件的发生。