​摘   要

物联网对我们的生活已经产生了巨大的影响,它体现在经济、商业众多方面。网络中的节点通常是资源受限的,因此成为了网络攻击的重要目标之一。人们通常利用传统的加密方法来解决物联网网络中的安全隐私问题,然而物联网节点的特性使得现有的方法无法支撑起整个物联网网络的架构,这种现象在一定程度上是由于资源受限以及物联网设备产生的大量实时数据所导致的。机器学习和深度学习能够在物联网设备和网络中提供智能的解决方法,因此能够被用来处理众多的物联网安全问题。本文系统地回顾了物联网网络的安全需求、攻击向量和当前的安全解决方案,基于现有的解决方案,讨论了基于机器学习和深度学习的物联网安全未来的研究方向。

一、背     景

物联网是一个通过有线或无线通信技术进行通信的互联和分布式网络嵌入式系统,或者也可以说成物理对象或事物的网络,具有不俗的计算、存储以及通信能力,通常用于嵌入电子设备(如传感器和执行器)、软件和网络连接,物联网能够使这些对象之间收集、处理和交换数据。物联网所衍生出的产品包括我们日常生活中常用的的智能家居设备,比如智能灯泡、智能适配器、智能电表,更复杂的设备如射频识别设备、心跳探测器等等。物联网的遍及带来了新的挑战,比如这些设备的管理以及数据量、存储、通信、计算、安全和隐私等,而物联网技术商业化的基石是安全的保障以及消费者满意度。物联网设备产生的数据量是巨大的,大量的数据可以用于行为的预测和评估。此外,物联网生成的数据也为当前的数据处理技术创造了另一个方向。因此,为了利用物联网产生的数据的价值,我们需要新的技术。在这种情况下,机器学习被认为是物联网设备中提供嵌入式计算最合适的计算方法之一,可以帮助机器和智能设备从生成的数据中推断出有价值的理论。机器学习已经被用于分类、回归和密度估计等任务,逐渐扩大到各个领域[1]。

二、当前挑战

安全和隐私是物联网服务应用商业实现的两个主要因素。当前的互联网是最容易受到网络攻击的场所之一,从简单的黑客攻击到企业层面的安全漏洞,这些漏洞对医疗保健和商业等不同行业都产生了巨大的影响,物联网设备及其操作环境的限制,给应用程序和设备的安全性带来了挑战。到目前为止,物联网领域的安全和隐私问题已经从通信安全、数据安全、隐私、架构安全、身份管理、恶意软件分析等不同的角度进行了广泛的研究[2]。

为了成功实现万物物联网,分析安全和隐私问题的根源至关重要。准确来说物联网这个术语已经被从现有技术中抛弃,因此我们有必要知道物联网的安全挑战是新的挑战还是从旧技术继承。费尔南德斯等人关注了物联网和传统设备所面临的安全问题的异同以及隐私问题,争论主要软件、硬件、网络和应用程序。传统IT领域的安全问题与物联网的安全问题之间有着基本的相似之处,然而,物联网关注的主要问题是资源限制,这降低了物联网中已有的复杂安全解决方案的适应性。此外,解决物联网的安全和隐私问题需要进行跨层设计以及优化算法,例如,由于计算能力上的限制,物联网设备可能需要新型的优化加密和其他算法来应对安全和隐私。

三、机器学习的应用

机器学习的传统方法被广泛用于物联网的各个方面(如应用程序、服务、架构、协议、数据聚合、资源分配、集群),以及安全性问题,但物联网是一种大规模部署、提倡智能、健壮和可靠的技术,ML和DL是物联网中很有前景的应用。此外,ML和DL应用在物联网中能够更好地利用所生成的数据,使物联网系统能够做出最正确的决策。考虑到我们在现实场景之间的实时交互以及智能设备和物理环境之间的实时交互,DL也可以用于物联网设备,用以执行复杂的传感和识别任务,以实现新的应用程序和服务。一些与物联网安全相关的实际应用如下:

法医用的人脸识别:姿势、灯光、遮挡(眼镜、胡须)、化妆、发型等;

安全加密的字符识别:不同的手写风格;

恶意代码识别:识别应用程序和软件中的恶意代码。

分布式拒绝服务检测:通过行为分析检测对基础设施的DDoS攻击[3];

机器学习有众多的方法,这里就不一一介绍,相关机器学习方法的图谱如图1所示:

图1 机器学习方法

四、机器学习在物联网安全的应用

监督学习算法与标记数据一起工作,并在物联网中用于频谱传感、信道估计、自适应滤波、安全和定位问题,拥有两种不同类型的方法,在监督机器学习下的分类用于预测和可用数据集的建模,回归法则用于预测连续的数值变量。而SVM、朴素贝叶斯、随机森林、决策树是很少被使用的分类算法。SVM使用一种称为内核的机制,该机制用于查找两个独立类的两点之间的差异,支持向量机能够建模非线性决策边界。然而SVM本质上是内存密集型的,很难决定合适的内核,并且对大型数据集变得难以建模。由于现实世界中所有的输入特征相互独立,使得随机森林算法成为建模现实世界问题的理想模型,随机森林算法更容易实现,并且能够自适应可用数据集的大小。与SVM和NB等其他监督算法相比,该算法需要更长的训练时间,但它的精度更高,预测的时间更短[4]。

RL通过利用不同的阶段来学习,并发展主体和环境之间的回报和行动机制。这种行为回报的关系对于解决各种物联网问题非常有用,因为它不需要大量的训练数据集。然而,这种方式需要具有状态转换函数的基础,它的计算很简单,但需要大量的时间来收敛到一个稳定的状态,这种缓慢的收敛性和对状态转换函数或最优策略的基础是在物联网动态环境中使用RL算法的关键挑战。

DL依赖于强函数逼近、评估和学习能力,从而为物联网领域的各方面问题包括安全与隐私问题提供了更有效的解决方案。物联网设备由于其资源限制,可能无法运行复杂的计算任务,如通信、分析和预测等等,因此,与传统的理论和技术相比,基于DL的算法具有更好的性能,此外,DNN可以很好地定位和定义任何类型(文本、图像、音频)的低维表示。DRL及其变体用于异构物联网网络中的认证和DDoS检测,通常情况下主要用于安全和隐私的DRL算法有:深度确定性策略梯度、连续DQN、优先级体验重放、深度SARSA等等[5]。

五、机器学习在物联网安全应用中的局限性

物联网流量通常具有其容量、多样性、速度可变和不确定性等特点。大多数传统的ML方法在本质上并不能够高效地管理物联网数据,因此需要进行大量的修改。此外,物联网数据中存在固有的不确定性,我们很难消除这些内在的不可预测性。下面,我们将讨论在物联网中使用ML的一些常见限制。

首先是处理能力。机器学习算法本质上具有一些复杂性问题,如内存、计算量和样本复杂性,此外,传统的ML方法缺乏可伸缩性,仅限于低维问题。物联网设备体积小,通常有能量限制,处理能力有限。因此,直接应用传统的ML方法并不适用于在资源受限的环境中[6]。

其次是数据的管理和分析。无线数据可以从不同的来源生成,包括网络信息系统、传感和通信设备。数据是物联网系统的关键,必须进行有效的分析才能从数据中获得有价值的信息,然而大规模数据管理是一个严峻的挑战。在物联网网络中生成的数据在本质上是不同的,它们的类型、格式和语义都不同,因此表现出来的语法和语义具有异质性。语法异构性是指数据类型、文件格式、编码方案和数据模型的多样性,而语义异质性是指在数据含义上的差异,这种异构性导致了高效和统一泛化的问题,特别是在大数据的情况下。

六、总结与展望

物联网的安全和隐私至关重要,在物联网的商业化中发挥着关键作用。传统的安全和隐私解决方案存在着许多与物联网动态特性相关的问题。DL和DRL技术可以用来使物联网设备适应其动态环境,这些方法可以支持自适应学习,也可以通过学习和处理来自周围环境的统计信息来优化系统的整体性能。这些方法本质上是分布式的,不需要设备和控制器之间的集中通信,然而,ML和DL算法所需的数据集仍然稀缺,因此基于ML和DL的安全解决方案的效率提高仍然是一项艰巨的任务。在本文中,我们从安全和隐私的角度考虑了ML和DL在物联网中的作用,为后续的发展提供了理论支撑。

Loading

作者 aibbs