位置:首页 > 安全分类 > WEB安全

基于大数据的安防体系建设研究和实践

  • 2022-02-18 11:00:48
简介 摘 要:随着大数据、人工智能和云计算等信息技术的发展,安全防护形势也越来越严峻,IT 架构和服务模式不断发生变化,传统的安防体系面临着诸多问题。在继承传统的安全防护

摘 要:

随着大数据、人工智能和云计算等信息技术的发展,安全防护形势也越来越严峻,IT 架构和服务模式不断发生变化,传统的安防体系面临着诸多问题。在继承传统的安全防护体系的基础上,提出了将大数据相关技术融入到安防体系中,并从数据接入层面、数据融合分析层面、数据服务层面出发,通过大数据等技术手段构建了安全数据中台,完善了安全防护技术体系。实践证明,该体系在结构上能够有效弥补传统安全防护架构的不足。

内容目录:

1 安防体系设计思路

2 安防体系架构

2.1 安全大数据平台架构

2.2 安防体系数据架构

2.2.1 数据采集层

2.2.2 数据计算层

2.2.3 数据服务层

2.2.4 数据应用层

3 数据安全中台实践

3.1 安全数据治理平台

3.2 安全大数据湖

3.3 安全数据分析平台

3.4 安全数据服务共享平台

3.4.1 资源目录与元数据管理

3.4.2 数据使用

3.4.3 数据服务管理

3.4.4 服务控制

3.4.5 调度管理

3.4.6 运行监控

3.4.7 统一运维维护

3.4.8 数据统计分析与展示

4 结 语

传统的安防体系实现了终端、网络设备、安防设备和应用系统的统一纳管,但随着云计算、大数据等新技术的发展,IT 架构和服务模式不断发生变化,传统的安防体系如今面临着诸多问题:核心软硬件基础设施中存在多种安全漏洞,网络设备预制后门也层出不穷;安防设备呈现“孤岛化”,各自为战;各类安全告警事件,数据量大、误报率高;各类攻击日益工具化、自动化、组织化,等等。传统网络安全防护体系以被动响应为主,缺乏对抗能力和相互关联的分析能力,导致安全预判能力不足。此外,传统的安防体系的安全防护重点大多集中在修补漏洞和加固安全基础设施,但这种纯粹的静态防御措施无法阻止黑客的蓄意攻击,更无法阻止漫无目的的随机性攻击。

在此背景下,本文提出了一种基于大数据的安全防护体系建设思路。在具体实践的过程中,先通过数据采集、汇聚、清洗、转换、加工、存储、治理等流程,利用大数据的技术手段与方法,构建安全数据中台,包括安全数据中台和安全资源中台。然后,通过数据挖掘与融合关联分析,来实时感知网络安全运行状况和安全态势,预测可能要发生的攻击,监测和发现正在发生的攻击,一旦发现攻击就自动响应,协同分布在网络中的网络安全设备和软件对攻击进行处置,支撑应急响应指挥。

1安防体系设计思路

近年来,业界已经提出了多种大数据安防体系建设思路,但目前,仍然处于不断地丰富和完善的阶段。研究发现,大部分安防体系设计思路主要围绕以下 4 点展开:(1)安全资源:安全策略的执行主体,对接信息通信技术(Information and Communications Technology,ICT)环境资源并提供策略执行的结果信息反馈。(2)安全资源管控系统:决策指令(安全策略)的执行传达者,通过对安全资源的能力调度及策略下发,实现“风险可控”。(3)安全信息感知系统:接收安全资源的数据,提供决策依据和决策执行的反馈信息,实现“风险可知”。(4)安全运营决策系统:基于安全信息,通过安全运行进行安全决策,实现组织安全目标“风险可管”。

针对大数据安防体系设计思路分析,何健等人提出了构建适用于大数据环境的、立体动态的多层次安全防护体系;刘晓军等人 从剖析大数据通用技术架构入手,总结了数据处理的相关流程,分析和对比了数据中台并总结了其适用范围和优缺点,最后聚焦多级架构模式下数据安全融合技术问题,提出了相应的解决办法;张翠翠等人 提出了基于数据中台的数据安全分级防护方案,给出了数据中台“零信任”安全防护总体架构;赖新等人构建了基于云计算用户层、数据传输层和云计算服务层的数据安全防护体系。经过汇总整理,本文给出了安防体系的参考框架,如图 1 所示。

图 1 安防体系参考框架

由图 1 可以看出,基于大数据的安全防护体系建设理念包括以下几点:(1)智能感知系统:由安防设备、网络设备、物联网(Internet of Things,IoT)设备等构成,采集与网络安全相关的数据和信息,就像人类的眼睛、耳朵、鼻子,源源不断地把脱敏后的安全数据传输到“安全大脑”,由“安全大脑”进行智能的分析和决策。(2)大数据湖:存储网络安全大数据的平台,相当于人的记忆中枢。(3)安全知识体系:包括各种威胁情报、安全资源库、安全分析模型等等,是用于检测、识别、分析、溯源各类网络安全威胁的知识库。(4)智能分析系统:采用人工智能、数据挖掘、可视化计算等一系列分析技术,实现对安全威胁的分析研判和处置。(5)智能学习系统:具备自我学习、自我演进的能力,实现对新的网络安全威胁、攻击方法等的识别功能。(6)人机智能交互辅助决策系统:利用安全专家经验,通过智能人机交互方式,实现对安全威胁检测、分析、溯源等的辅助决策。

2安防体系架构

2.1 安全大数据平台架构

在参考了上述关于安防建设体系的设计思路与建设理念后,结合实践特性,本文有针对性地提出了安全大数据平台的体系架构,如图 2 所示。该体系架构从逻辑层次上划分为安全底座、安全中台、服务总线、安全应用 4 个层次。

图 2 安全大数据平台架构

总体而言,安全大数据平台架构可概括为“一脑双核,四轮驱动”,具体由安全数据中台、安全资源中台、数据治理、安全事件、国家标准和技术协会(National Institute of Standards and Technology,NIST)的网络安全框架(Cyber Security Framework,CSF)、数据驱动 6 个部分组成。其中“一脑双核”是指以安全数据中台和安全资源中台为核心构建的智能感知控制体系:数据中台提供安全数据采集、处理、分析、组织和集成的通道;资源中台则是以数据中台为基础,为各种安全应用提供数据基础服务能力。智能感知控制体系以资产为核心构建,不断流动的安全事件经过安全大脑分析判断之后反馈给安全管控平台,通过策略管控手段作用到资产上,形成了管理与控制的通道。

“四轮驱动”是指以数据治理为手段,以安全事件为中心,以 NIST 的 CSF 为指导,以场景化驱动丰富的安全应用:数据治理是指构建安全事件主数据体系,如资产、病毒、漏洞、行为、威胁情报库、安全资源库等;以安全事件为中心,持续动态检测和响应,在所有感知层收集的数据进入事件中心后,在策略管控下,在安全主数据、威胁库和安全知识库指引下进行实时或离线处理,响应系统会做出各种符合相应场景的响应;以 NIST CSF 框架为指导,构建资源中台,对外提供包括识别、保护、检测、响应、恢复在内的完整的安全能力和功能的输出;以数据驱动丰富的安全应用,通过各类安全应用融合联动,促使安全从原来的被动、割裂走向融合、场景化且能够统一管理。

由此可以看出,安全数据管控能力的集中性,多种应用场景的适应性,以及支撑业务发展的可持续性是该架构的核心思路。

2.2 安防体系数据架构

在本文建立了安全大数据平台后,安全防护问题实质上就演变成了数据问题,如何采集、计算、存储、融合分析数据,直至挖掘出安全威胁是整个安防体系需要考虑的核心问题。如图 3 所示,安全大数据平台的数据架构在设计上与安全大数据平台的体系架构类似,主要由数据采集层、数据计算层、数据服务层和数据应用层 4 部分构成。

图 3 安全大数据平台数据架构

2.2.1 数据采集层

数据采集层利用大数据技术收集网络安全信息 。从业务类型来划分,接入的数据主要包括安防应用系统埋点日志类数据、流量类数据、安全资源类数据、安全知识情报类数据和安全告警类数据等。数据抽取工具和自定义程序实现对数据库、文本文件、流数据的接入。通过构建数据引接系统,支持多源异构数据接入,引入 Kafka 数据高速传输组件,能够实现流量削峰,建立高效数据传输通道,最大化数据吞吐率,实现数据高速采集传输,减少数据时延,满足对实时性要求更高的应用场景。

2.2.2 数据计算层

对于安全数据分析场景,数据处理需要实现流批一体化。从数据处理实时性来看,对一些时延性要求不高的业务场景,一般采用批处理方式,而对于实时处理要求比较高的业务场景,较多采用流式处理引擎,其处理过程为:数据同步工具从业务系统库实时增量同步数据到 Kafka;数据通过 Kafka传输,经过消费同步到安全数据平台的数据湖中;另外数据经过实时计算引擎 Flink 处理后,直接推送到前端数据应用中,进行数据可视化展示。流式计算的具体处理流程如图 4 所示。

图 4 流式计算处理过程

本层引入离线和实时数仓。数据仓库设计采用分层的设计,这样设计的原因是对于海量安全数据,需要对数据进行组织规划,使其具有清晰的数据结构,方便数据有秩序地流转,并且在数据开发过程中,能够减少重复开发,统一数据口径。

2.2.3 数据服务层

经过数据计算后,主要输出的数据服务能力包括数据资源目录服务、主数据服务、数据标准、数据共享服务、数据质量服务、数据血缘分析服务和元数据管理服务。每一类数据服务都由一组服务接口组成。

2.2.4 数据应用层

通过数据服务层打通各类安全数据与安全应用的通道,实现无缝衔接,以数据驱动安全业务发展。

3数据安全中台实践

3.1 安全数据治理平台

早期安全应用系统的建设思路是围绕如何将业务 IT 化,而数据只是这个过程中自然而然产生的结果,即IT化的“副产品”。随着数据处理技术(Data Technology,DT)时代的到来,越来越多的企业认识到了数据资产的重要性以及数据驱动业务决策和产品智能两大方面的应用价值,其中数据治理是实现数据效能、数据驱动业务的关键步骤。

数据接入引擎从多个业务源系统收集了很多数据,包括流量、病毒、漏洞等多种数据。分析发现,这些数据种类多,字段名称、字符大小不统一。为了能够充分利用这些数据,需要对这些数据进行治理工作。数据治理是顶层设计、战略规划方面的内容,是数据管理活动的总纲和指导,指明数据管理过程中哪些决策要被制定,以及由谁来负责,更强调组织模式、职责分工和标准规范。数据治理的本质是组织对数据的可用性、完整性和安全性的整体管理。其中,可用性是指数据可用、可信且有质量保证,不会因为分析结果的准确性造成偏差,可以根据数据分析结果做业务决策;完整性指数据需覆盖各类数据应用;安全性指治理和分享过程中安全可控。数据治理的整体方法论是先确定数据应用、数据资产的需求,接着确定需要哪些数据,之后确定从哪种数据源获取数据。在具体实践中,这种构建数据流的过程,能够在很大程度上解决分布在 IT系统里各个不同子系统之间的数据孤岛问题。用一条完整的数据流将不同子系统之间的数据孤岛打通,同时应用于不同的应用场景,这和构建数据仓库的流程很类似,从某种意义上讲,构建数据仓库本身就是一个数据治理的过程。

在实践过程中,发现网络安全数据具有以下特点:(1)数据量大,比如流量数据;(2)数据类型繁多,比如病毒数据、流量数据、漏洞数据等;(3)数据增长速度快,比如各种安防设备、网络设备、安全应用系统每时每刻都在产生与安全相关的日志信息,比如用户会话日志信息、用户操作行为日志等;(4)数据价值密度低,潜在价值高,以流量数据为例,在连续不断的流量会话数据中,可能有价值的数据仅仅就那么几条,但是作为攻击的某种特征,往往就具有很高的价值。

结合数据的特点,在数据仓库模型建设阶段,依靠分布式计算平台作为支撑,以维度建模为核心理念,基于维度数据模型总线架构,构建一致性的维度和事实,从而构造公共数据模型架构体系。数据模型架构如图 5 所示。

图 5 数据模型架构

表数据模型主要分为操作数据(Operational Data Store,ODS)层、公共维度模型(Common Data Model,CDM)层和应用数据(Application Data Store,ADS)层 3 层。其中公共维度模型层包括明细数据(Data Warehouse Detail,DWD)层和数据服务(Data Warehouse Service,DWS)层。在 ODS 层,几乎无处理地将业务源数据同步到数据仓库系统中,根据业务需求及稽核和审计要求保存历史数据、清洗数据,同时对数据进行打标签处理。CDM 层用于存放明细事实数据、维表数据以及公共指标汇总数据,其中明细事实表数据包括事务性事实表、周期性快照事实表和累积快照事实表。明细事实数据、维表数据一般根据 ODS 层数据加工生成,公共指标汇总数据一般根据维表和明细事实数据加工而成。ADS层用于存放数据产品个性化的统计指标数据,根据CDM 层和 ODS 层加工生成。

在大数据环境下,数据治理包含了元数据管理、数据质量管理、主数据管理、数据标准管理和数据安全管理。通过数据治理平台定义大数据平台的数据结构、质量规则和数据标准,实现大数据平台的数据管控和治理。同时,大数据平台的分析结果也可以反哺数据治理平台,形成更多样的可信赖数据服务。

3.2 安全大数据湖

面对数据架构和数据应用建设的全新挑战,随着大数据生态与技术的融合发展,本文引入了安全大数据湖的概念。数据湖这一概念最早于 2010 年 由 James Dixon 在博客中提出。James Dixon 认为,如果将应用层数据比喻为瓶装水,即它是经过净化、过滤、消毒处理后能够直接饮用的,与之相反,数据湖则管理从各类数据源引接汇聚的原生态数据。Gartner 对数据湖的正式定义:除了原始数据,还有各种数据资产的存储实例的集合。

本文结合数据湖概念与网络安全应用项目实践,给出了安全大数据湖存储组件示意图,如图 6所示。

图 6 安全大数据湖存储组件

从数据视角来看,安全大数据湖本质上是一种数据存储策略。从存储形式来看,安全大数据湖有基于 Hadoop 生态的分布式存储环境,同时数据存储方面扩展了 Elasticsearch 集群存储、FastDFS 集群存储、图数据库集群存储和 TiDB 集群存储。它们是分布式数据存储系统,提供海量的数据存储管理能力,支持海量结构化和非结构数据的混合存储。搭配TiDB数据库,实现混合事务和分析处理(Hybrid Transaction and Analytical Process,HTAP)场景下的高性能数据处理。从技术视角来看,安全数据湖架构不能替代现有信息基础架构——安全数据平台架构,相反,它们是现有基础架构的重要补充。安全数据湖是一种现代化的支持数据管理、数据分析、应用创新的基础架构,能够实现新的信息访问和数据处理机制,支持日益复杂、多样化、分布式的工作负载。

3.3 安全数据分析平台

随着网络攻击日益增多,攻击手段也越来越先进、复杂,危害程度也呈上升趋势,行业开始寻求自动化网络安全解决方案。大数据技术、机器学习等人工智能技术的快速发展,推动了网络安全技术的不断升级,现如今已经可以通过 AI 分析进行数据的挖掘和预测。

如图 7 所示,本文给出了网络安全数据挖掘分层示意图,总共包括特征数据层、中间数据层和应用场景层 3 层。

图 7 网络安全数据挖掘分层

在基于收集汇聚安全数据的前提下,对全网数据进行分析,通过定义不同的分析场景建立相应的行为分析规则,如异常分析、流量分析、脆弱性分析等,在中间数据层,结合攻击策略、技术和常 识(Adversarial Tactics,Techniques and Common Knowledge,ATT&CK)知识框架体系、威胁情报知识体系、安全资源知识体系、资产体系等,采用统计、碰撞、关联、预测、机器学习、知识推理等手段将分析模型分别映射到攻击阶段和技战术,从而建立系统内部的 ATT&CK 知识体系。结合 ATT&CK知识体系,对全网数据进行行为分析、脆弱性分析和网络流量分析,将分析结果分别映射于 ATT&CK知识框架中的攻击阶段和技战术,建立系统内部的ATT&CK 知识体系。依据 ATT&CK 知识体系追踪攻击者的活动轨迹,发现攻击者当前所处的攻击阶段,从而进行有效地响应阻断、追溯、行为确认等。同时为展示完整的攻击链提供数据支撑,如攻击者利用钓鱼邮件、水坑等攻击或使用带毒外设让内网主机反向连接,然后攻击者利用持久化或提权等相关技术控制内网终端,进而启动恶意软件扫描内网中其他主机,最后利用相关扫描信息控制目标主机并造成数据泄露。整个 ATT&CK 的攻击链路为初始访问—持久化—权限升级—扫描发现—横向移动—数据渗漏。

以安全事件溯源分析为例,安全事件溯源分析能够基于海量异构数据进行威胁数据采集分析,支持从大量网络安全数据及安全事件中找出存在的关系,并从这些数据中抽取出真正重要的少量数据。借助先进的智能事件关联分析引擎,平台能够实时不间断地对所有范式化后的日志流进行安全事件关联分析。结合全网数据(流量数据、终端数据、脆弱性数据等)及分析结果数据(终端行为数据)对发现的威胁事件进行溯源分析,如追溯病毒的来源、传播途径、感染范围等。外设接入、文件传输、网络连接等行为结合终端病毒日志、网络流量日志、威胁情报检测结果日志等数据进行综合分析并追溯病毒来源及发现疑似病毒传播的行为,如在使用的外设中发现病毒,传输的文件中发现病毒,网络病毒攻击等。同时支持下钻到原始数据来对攻击事件进行分析取证,并对回溯到的攻击源,利用威胁信息进行验证。此外,支持攻击链模型对攻击事件进行溯源分析,通过将产生的安全事件按攻击过程分为信息收集、网络入侵、命令控制、横向渗透、目标达成、痕迹清理等类别,在真实的攻击事件发生后,通过攻击链模型结合人工分析判断,找到真实攻击源。

3.4 安全数据服务共享平台

安全中台承载着整合分享内部所有数据的角色,它将所有的数据整合在一起,并通过权限控制,充分地实现数据共享,从而聚合所有业务部门去探索数据的应用。安全数据服务基于大数据架构提供统一的数据服务能力,是数据对外开放和“纵向贯通”“横向互联”的共享通道。它提供实时接口服务和批量作业服务,从数据定义、服务开发、服务消费、运行监控 4 个方面着手,实现数据资源的闭环管理。数据服务共享平台包括资源目录管理、数据使用、数据服务开发、服务控制、调度管理、运行监控、运行维护和数据分析与信息展现,平台应用架构如图 8 所示。

图 8 数据服务共享平台应用架构

3.4.1 资源目录与元数据管理

资源目录与元数据管理是可交换数据元数据的结构化展现。该应用支持数据库、大数据、Web 服务等多类型数据资源技术元数据的采集和业务元数据的维护能力,支持面向消费者业务视图(比如按主题划分)的创建,提供资源注册、维护和搜索等功能。

3.4.2 数据使用

数据使用应用主要面向消费方,消费者可通过平台申请数据资源及数据管理方审批处理;消费者可通过注册功能自行在平台注册,并可在浏览数据资源后提交资源申请(拉)和订阅(推);消费方可查看所有申请的状态及历史记录,可查看申请的汇总情况。此外,该平台支持单个或批量申请。

3.4.3 数据服务管理

数据服务管理应用主要面向开发人员,支持通过服务发布组件实现数据服务的快速开发,开发完成的 RESTFul 服务自动注册在数据服务共享平台中。开发人员可以在平台中浏览查看开发完成的数据服务消费方。如果消费方需要使用数据服务,则需要在平台中发起申请,审批通过后根据平台中提供的服务信息使用数据。

3.4.4 服务控制

平台提供用户对数据服务过程中的权限控制,包含 IP 白名单、服务状态、调用关系管理等。

3.4.5 调度管理

调度管理是作业运行的指挥中心。可通过调度管理配置任务的调度策略,以及配置任务运行的优先级及触发方式等。

3.4.6 运行监控

运行监控对整个平台运行过程中的状态进行监控,包括物理资源、服务引擎、传输监控、故障告警、消费方等,同时提供查看日志和历史记录的功能。

3.4.7 统一运维维护

为方便平台使用的功能,统一运维维护应用支持资源目录、作业模板、服务接口的导入导出。

3.4.8 数据统计分析与展示

数据统计分析与展示功能能够针对平台作业执行情况、数据交换总量、数据接入态势、数据消费等进行可视化分析和展示。

4结 语

本文提出了基于大数据的安防体系建设思路,并通过大数据等技术手段构建了安全数据中台从而完善了安全防护技术体系。实践证明,该体系在结构上能够有效弥补传统安全防护架构的不足。随着大规模数据采集、数据治理、数据分析、数据服务的发展,以及智能化安全运营的长期深入应用,从安全中台的体系来看,安全威胁识 别(Identification) — 保 护(Protection)—检测(Detection)—响应(Response)这一过程执行将越来越及时,攻击者可利用时间窗口将越来越短。在未来的研究中,可以通过与云终端的联动实现网络安全最大化。

引用本文:余文杰 , 冯中华 , 万抒 . 基于大数据的安防体系建设研究和实践 [J]. 通信技术 ,2021,55(1):106-115.

很赞哦! (119)