(12)发明专利申请
(10)申请公布号 CN 108650229 A(43)申请公布日 2018.10.12
(21)申请号 201810298535.X(22)申请日 2018.04.03
(71)申请人 国家计算机网络与信息安全管理中
心
地址 100000 北京市朝阳区裕民路甲3号 申请人 北京无声信息技术有限公司(72)发明人 孙波 房靖 杜雄杰 姚珊
侯美佳 董建武 李胜男 张泽亚 刘云昊 谢印东 王俊彪 韩兆岩 李硕 冯家玮 (74)专利代理机构 北京超凡志成知识产权代理
事务所(普通合伙) 11371
代理人 金相允(51)Int.Cl.
H04L 29/06(2006.01)
权利要求书2页 说明书10页 附图2页
G06F 21/55(2013.01)
()发明名称
一种网络应用行为解析还原方法及系统(57)摘要
本申请提供了一种网络应用行为解析还原方法及系统,能够提升信息安全审计的安全精度。网络应用行为解析还原方法包括:将过程特性分析网络数据包写入数据仓库;对写入数据仓库的过程特性分析网络数据包进行流还原,得到过程特性分析数据文件;解析得到的过程特性分析数据文件,获取网络应用行为信息流;对获取的网络应用行为信息流进行信息安全审计。
CN 108650229 ACN 108650229 A
权 利 要 求 书
1/2页
1.一种网络应用行为解析还原方法,其特征在于,该方法包括:将过程特性分析网络数据包写入数据仓库;
对写入数据仓库的过程特性分析网络数据包进行流还原,得到过程特性分析数据文件;
解析得到的过程特性分析数据文件,获取网络应用行为信息流;对获取的网络应用行为信息流进行信息安全审计。2.如权利要求1所述的方法,其特征在于,所述将过程特性分析网络数据包写入数据仓库包括:
从暂时存储的集群存储系统中,拷贝一未携带写入标识的过程特性分析网络数据包,将拷贝的过程特性分析网络数据包写入数据仓库;
校验写入数据仓库的过程特性分析网络数据包,若校验正确,在集群存储系统中为该写入数据仓库的过程特性分析网络数据包设置写入标识;
判断集群存储系统中是否还存在有未携带写入标识的过程特性分析网络数据包,如果有,继续拷贝一未携带标识的过程特性分析网络数据包,直至集群存储系统中不存在有未携带写入标识的过程特性分析网络数据包。
3.如权利要求2所述的方法,其特征在于,在所述将拷贝的过程特性分析网络数据包写入数据仓库之前,所述方法还包括:
利用磁盘空间的动态检测技术检测数据仓库存储空间,当检测到数据仓库存储空间不足时,移除数据仓库中创建时间最小的过程特性分析网络数据包。
4.如权利要求2所述的方法,其特征在于,通过多线程并发的方式拷贝所述过程特性分析网络数据包。
5.如权利要求1至4任一项所述的方法,其特征在于,所述对写入数据仓库的过程特性分析网络数据包进行流还原包括:
提取过程特性分析网络数据包中的源IP、目的IP、源端口、目的端口信息,得到四元组;按照应用协议对四元组相同的过程特性分析网络数据包进行还原。6.如权利要求1至4任一项所述的方法,其特征在于,在所述对写入数据仓库的过程特性分析网络数据包进行流还原之后,得到过程特性分析数据文件之前,该方法还包括:
对流还原的过程特性分析网络数据包进行过滤以及去重处理。7.如权利要求6所述的方法,其特征在于,通过特征匹配对所述流还原的过程特性分析网络数据包进行过滤;以及,通过链表维护对过滤得到的流还原的过程特性分析网络数据包进行去重处理。
8.如权利要求1至4任一项所述的方法,其特征在于,所述解析得到的过程特性分析数据文件包括:
依次读取过程特性分析网络数据包文件,调用回调函数为读取的过程特性分析网络数据包文件设置任务标识,将设置任务标识的过程特性分析网络数据包文件添加到静态队列中;
调用多线程对静态队列中的过程特性分析网络数据包文件进行解析。9.如权利要求8所述的方法,其特征在于,所述对静态队列中的过程特性分析网络数据包文件进行解析包括:
2
CN 108650229 A
权 利 要 求 书
2/2页
对过程特性分析网络数据包文件进行协议解析、解密、编解码,以从编解码后得到的信息中,提取网络应用行为信息流。
10.一种网络应用行为解析还原系统,其特征在于,该系统包括:数据仓库模块、流还原模块、解析模块以及安全审计模块,其中,
数据仓库模块,用于将过程特性分析网络数据包写入数据仓库;流还原模块,用于对写入数据仓库的过程特性分析网络数据包进行流还原,得到过程特性分析数据文件;
解析模块,用于解析得到的过程特性分析数据文件,获取网络应用行为信息流;安全审计模块,用于对获取的网络应用行为信息流进行信息安全审计。
3
CN 108650229 A
说 明 书
一种网络应用行为解析还原方法及系统
1/10页
技术领域
[0001]本申请涉及信息安全监测技术领域,具体而言,涉及一种网络应用行为解析还原方法及系统。
背景技术
[0002]随着计算机网络技术的高速发展,上网人数保持快速增长,截止2016年6月,我国网民突破7.1亿大关,互联网普及率达到51.7%,同时,移动互联网塑造的社会生活形态进一步加强,“互联网+”行动计划推动政企服务朝多元化、移动化发展。[0003]但上网人数的持续增长,也给网络安全、网络监管带来了很多问题。例如,隐私信息泄露、网络攻击、卡号被盗刷等,因而,对网络安全、网络信息审计等信息安全的需求也越来越强烈。
[0004]目前的网络安全、网络信息审计,主要基于网络应用行为产生的信息流的采集、分析、识别和用户的行为分析,确定用户的网络应用行为是否安全,其中,网络应用行为产生的信息流为记录网络活动的信息,使得信息安全审计结果的安全精度较低,安全性不高。发明内容
[0005]有鉴于此,本申请的目的在于提供网络应用行为解析还原方法及系统,能够提升信息安全审计的安全精度。[0006]第一方面,本发明提供了网络应用行为解析还原方法,包括:[0007]将过程特性分析网络数据包写入数据仓库;
[0008]对写入数据仓库的过程特性分析网络数据包进行流还原,得到过程特性分析数据文件;
[0009]解析得到的过程特性分析数据文件,获取网络应用行为信息流;[0010]对获取的网络应用行为信息流进行信息安全审计。[0011]结合第一方面,本发明提供了第一方面的第一种可能的实施方式,其中,所述将过程特性分析网络数据包写入数据仓库包括:[0012]从暂时存储的集群存储系统中,拷贝一未携带写入标识的过程特性分析网络数据包,将拷贝的过程特性分析网络数据包写入数据仓库;[0013]校验写入数据仓库的过程特性分析网络数据包,若校验正确,在集群存储系统中为该写入数据仓库的过程特性分析网络数据包设置写入标识;[0014]判断集群存储系统中是否还存在有未携带写入标识的过程特性分析网络数据包,如果有,继续拷贝一未携带标识的过程特性分析网络数据包,直至集群存储系统中不存在有未携带写入标识的过程特性分析网络数据包。[0015]结合第一方面的第一种可能的实施方式,本发明提供了第一方面的第二种可能的实施方式,其中,在所述将拷贝的过程特性分析网络数据包写入数据仓库之前,所述方法还包括:
4
CN 108650229 A[0016]
说 明 书
2/10页
利用磁盘空间的动态检测技术检测数据仓库存储空间,当检测到数据仓库存储空
间不足时,移除数据仓库中创建时间最小的PCAP数据包。[0017]结合第一方面的第一种可能的实施方式,本发明提供了第一方面的第三种可能的实施方式,其中,通过多线程并发的方式拷贝所述PCAP数据包。[0018]结合第一方面、第一方面的第一种可能的实施方式至第三种可能的实施方式中的任一可能的实施方式,本发明提供了第一方面的第四种可能的实施方式,其中,所述对写入数据仓库的过程特性分析网络数据包进行流还原包括:[0019]提取过程特性分析网络数据包中的源IP、目的IP、源端口、目的端口信息,得到四元组;
[0020]按照应用协议对四元组相同的过程特性分析网络数据包进行还原。[0021]结合第一方面、第一方面的第一种可能的实施方式至第三种可能的实施方式中的任一可能的实施方式,本发明提供了第一方面的第五种可能的实施方式,其中,在所述对写入数据仓库的过程特性分析网络数据包进行流还原之后,得到过程特性分析数据文件之前,该方法还包括:
[0022]对流还原的过程特性分析网络数据包进行过滤以及去重处理。[0023]结合第一方面的第五种可能的实施方式,本发明提供了第一方面的第六种可能的实施方式,其中,通过特征匹配对所述流还原的过程特性分析网络数据包进行过滤;以及,通过链表维护对过滤得到的流还原的过程特性分析网络数据包进行去重处理。[0024]结合第一方面、第一方面的第一种可能的实施方式至第三种可能的实施方式中的任一可能的实施方式,本发明提供了第一方面的第七种可能的实施方式,其中,所述解析得到的过程特性分析数据文件包括:[0025]依次读取PCAP数据包文件,调用回调函数为读取的PCAP数据包文件设置任务标识,将设置任务标识的PCAP数据包文件添加到静态队列中;[0026]调用多线程对静态队列中的PCAP数据包文件进行解析。[0027]结合第一方面的第七种可能的实施方式,本发明提供了第一方面的第八种可能的实施方式,其中,所述对静态队列中的PCAP数据包文件进行解析包括:[0028]对PCAP数据包文件进行协议解析、解密、编解码,以从编解码后得到的信息中,提取网络应用行为信息流。[0029]第二方面,本发明提供了网络应用行为解析还原系统,包括:数据仓库模块、流还原模块、解析模块以及安全审计模块,其中,[0030]数据仓库模块,用于将过程特性分析网络数据包写入数据仓库;[0031]流还原模块,用于对写入数据仓库的过程特性分析网络数据包进行流还原,得到过程特性分析数据文件;[0032]解析模块,用于解析得到的过程特性分析数据文件,获取网络应用行为信息流;[0033]安全审计模块,用于对获取的网络应用行为信息流进行信息安全审计。[0034]本申请实施例提供的网络应用行为解析还原方法及系统,网络应用行为解析还原方法包括:将过程特性分析网络数据包写入数据仓库;对写入数据仓库的过程特性分析网络数据包进行流还原,得到过程特性分析数据文件;解析得到的过程特性分析数据文件,获取网络应用行为信息流;分别对获取的网络应用行为信息流进行信息安全审计,这样,增加
5
CN 108650229 A
说 明 书
3/10页
了网络信息审计的维度,能够提升信息安全审计的安全精度。[0035]为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明
[0036]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0037]图1为本申请实施例涉及的网络应用行为解析还原方法流程示意图;[0038]图2为本申请实施例涉及的解析过程特性分析数据文件具体流程示意图;[0039]图3为本申请实施例涉及的网络应用行为解析还原系统结构示意图。
具体实施方式
[0040]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0041]图1为本申请实施例涉及的网络应用行为解析还原方法流程示意图。如图1所示,该流程包括:
[0042]步骤101,将过程特性分析网络数据包写入数据仓库;[0043]本实施例中,过程特性分析网络(PCAP,Process Characterization Analysis Package)数据包是一种数据流格式的数据包,作为一可选实施例,可以利用PCAP抓包库提供的高层次接口抓取网络上的网络数据流,并将抓取的网络数据流转换为PCAP数据包。[0044]本实施例中,抓包的数据来源为用户在网络通信过程中所产生的网络数据流,包括但不限于:网络应用数据(电脑软件、手机APP)通信信息、网站访问和其他通信协议、网络应用账号上线信息(例如,QQ、微博论坛发帖信息)、用户产生的URL、POST信息等。作为一可选实施例,PCAP数据包包括:网络应用行为信息流以及网络应用内容信息流,其中,网络应用行为信息流为记录网络活动行为的信息流,网络应用内容信息流为记录网络活动内容的信息流。
[0045]目前,对于从网络上抓取的过程特性分析网络数据包,默认存放在集群存储系统中,基于集群存储系统存储的短暂性,本实施例中,增设永久性存储的数据仓库作为各PCAP数据包长期存储的媒介。[0046]本实施例中,作为一可选实施例,将过程特性分析网络数据包写入数据仓库包括:[0047]A11,从暂时存储的集群存储系统中,拷贝一未携带写入标识的过程特性分析网络数据包,将拷贝的过程特性分析网络数据包写入数据仓库;
6
CN 108650229 A[0048]
说 明 书
4/10页
本实施例中,作为一可选实施例,通过多线程并发的方式拷贝PCAP数据包。
[0049]本实施例中,作为一可选实施例,在PCAP数据包的传输拷贝过程中,即在所述将拷贝的过程特性分析网络数据包写入数据仓库之前,该方法还包括:[0050]利用磁盘空间的动态检测技术检测数据仓库存储空间,当检测到数据仓库存储空间不足时,移除数据仓库中创建时间最小的PCAP数据包。[0051]本实施例中,数据仓库存储空间不足可以是数据仓库存储空间小于一预先设置的存储阈值,也可以是数据仓库存储空间小于拷贝的过程特性分析网络数据包的大小。创建时间最小的PCAP数据包是指创建时间最久(最早创建)的PCAP数据包,通过移除创建时间最小的PCAP数据包,可以确保拷贝的PCAP数据包被成功保存在数据仓库中。[0052]A12,校验写入数据仓库的过程特性分析网络数据包,若校验正确,在集群存储系统中为该写入数据仓库的过程特性分析网络数据包设置写入标识;[0053]本实施例中,若校验不正确,则在数据仓库中删除该写入的过程特性分析网络数据包,并从集群存储系统中重新拷贝该过程特性分析网络数据包,若重新拷贝的次数超过一预设阈值,则放弃对该过程特性分析网络数据包的拷贝,拷贝其他的过程特性分析网络数据包。
[00]A13,判断集群存储系统中是否还存在有未携带写入标识的过程特性分析网络数据包,如果有,继续拷贝一未携带标识的过程特性分析网络数据包,直至集群存储系统中不存在有未携带写入标识的过程特性分析网络数据包。[0055]本实施例中,通过实时检测集群存储系统中PCAP数据包的变化,与数据仓库中已存储的PCAP数据包进行对比校验,例如,在从集群存储系统中拷贝一PCAP数据包并校验正确后,在集群存储系统中对该PCAP数据包进行标识,以对集群存储系统中已拷贝的PCAP数据包和未拷贝的PCAP数据包进行区分,并通过多线程并发的方式将集群存储系统中的新PCAP数据包拷贝至数据仓库,可以提升PCAP数据包的拷贝效率。当然,实际应用中,也可以在进行多线程并发拷贝时,为待拷贝的PCAP数据包设置顺序标识,以确保集群存储系统中各PCAP数据包有序传输,不重复、不漏包,可以确保小流量读取情况下不丢失数据包,在大流量的读取情况下,数据包的丢失率在万分之一范围内。[0056]本实施例中,作为一可选实施例,数据仓库采用版本为3.2.0、位数为bit的mongodb数据库,mongodb数据库的逻辑结构为一层次结构,包括:文档(Document)、集合(Collection)、数据库(database),其中,数据库包含有一个或多个集合,一集合包含有一个或多个文档,每一过程特性分析网络数据包中的数据是一个文档。[0057]本实施例中,作为一可选实施例,为了保证数据的安全性以及高可用性,同时保证数据灾难恢复时无需停机备份等特性,非关系型mongodb数据库采用主从式部署方式,包括主节点(主数据库)以及从节点(备份数据库),作为一可选实施例,主节点数量为1,从节点数量为一个或多个。在数据解析处理时,从主节点中读取数据,在写入数据(例如,过程特性分析网络数据包)到主节点时,主节点与各从节点进行数据交互或同步,以保障数据的一致性。作为另一可选实施例,当需要存储的数据量较大,且由于多任务多目标的并行处理,对于数据的写操作较为频繁时,如果将主节点设置在一服务器上,可能不能满足数据存储的需求,也可能不足以提供可接受的读写吞吐量,不能满足多线程并发所需的读写吞吐量,因而,本实施例中,采用分布式部署方式,可以将主节点和从节点分别设置在多台服务器上,
7
CN 108650229 A
说 明 书
5/10页
通过在多台服务器上分割存储数据,并可以根据数据的实际存储情况,动态的添加相应节点,从而利用分布式数据库良好的可扩展性,保证数据的存储和读写,使之能够存储和处理更多的数据,数据包的读取速度最快可达到150Mbs。同时,利用分布式数据库多节点的强大计算能力,确保在海量数据的存量情况下,保证秒级的查询速度,查询速度可达到10亿级数据秒级的查询响应速度。[0058]步骤102,对写入数据仓库的过程特性分析网络数据包进行流还原,得到过程特性分析数据文件;
[0059]本实施例中,作为一可选实施例,对写入数据仓库的过程特性分析网络数据包进行流还原包括:
[0060]提取过程特性分析网络数据包中的源IP、目的IP、源端口、目的端口信息,得到四元组;
[0061]按照应用协议对四元组相同的过程特性分析网络数据包进行还原。[0062]本实施例中,由于网络上的一条数据可能被抓包为多个过程特性分析网络数据包,需要将多个过程特性分析网络数据包还原为一条数据,即通过四元组(源IP、目的IP、源端口、目的端口)匹配相同应用协议的信息数据流,例如,将采用HTTP协议的相同四元组的过程特性分析网络数据包进行组合成为一条数据,将采用FTP协议的相同四元组的过程特性分析网络数据包进行组合成为另一条数据等,从而得到所需应用协议的信息数据流。相同四元组是指两个过程特性分析网络数据包中,源IP、目的IP、源端口以及目的端口均相同,其中,源IP可以用于确定用户。[0063]本实施例中,作为一可选实施例,在所述对写入数据仓库的过程特性分析网络数据包进行流还原之后,得到过程特性分析数据文件之前,该方法还包括:[00]对流还原的过程特性分析网络数据包进行过滤以及去重处理。[0065]本实施例中,对进行流还原的过程特性分析网络数据包进行过滤、去重,保留用户对应的应用协议分析所需的过程特性分析网络数据包,由经过过滤以及去重处理的过程特性分析网络数据包组成过程特性分析数据文件。作为一可选实施例,用户的每一应用协议对应一过程特性分析数据文件,过程特性分析数据文件为后缀为.dat的文件。[0066]本实施例中,作为一可选实施例,通过特征匹配对所述流还原的过程特性分析网络数据包进行过滤;以及,通过链表维护对过滤得到的流还原的过程特性分析网络数据包进行去重处理。
[0067]本实施例中,作为一可选实施例,特征匹配包括:字符串匹配、十六进制匹配、正则表达式匹配等。其中,[0068]字符串匹配,通过AC算法,快速精准查找到匹配字符串。[0069]十六进制匹配,用于对数据包中的数据进行十六进制转换后,再利用字符串匹配查找匹配字符串。
[0070]正则表达式,采用POSIX NFA引擎,可对匹配字符串进行回溯,能精确捕获子表达式。
[0071]本实施例中,作为一可选实施例,链表维护采用两级链表,依据过程特性分析网络数据包的源IP组建一级链表,在源IP的链表之下维护四元组(源IP、目的IP、源端口、目的端口)和时间戳,形成二级链表。本实施例中,通过维护一四元组,可以唯一确定一网络数据
8
CN 108650229 A
说 明 书
6/10页
流。在一定时间戳范围内,对具有相同源IP、目的IP、源端口、目的端口的各过程特性分析网络数据包,进行内容分析,对具有相同内容的过程特性分析网络数据包进行去重处理。[0072]步骤103,解析得到的过程特性分析数据文件,获取网络应用行为信息流;[0073]本实施例中,现有在解析PCAP数据包文件时,依次读取各PCAP数据包文件,并针对每一PCAP数据包文件,调用回调函数进行解析,解析完成后再读取下一PCAP数据包文件。因而,回调函数的解析处理效率影响PCAP数据包文件的处理能力。作为一可选实施例,解析得到的过程特性分析数据文件包括:[0074]A21,依次读取PCAP数据包文件,调用回调函数为读取的PCAP数据包文件设置任务标识,将设置任务标识的PCAP数据包文件添加到静态队列中;[0075]本实施例中,通过为PCAP数据包文件设置任务标识(ID),从而可以保证多个任务同时运行。
[0076]本实施例中,作为一可选实施例,在所述依次读取PCAP数据包文件之前,该方法还包括:
[0077]将PCAP数据包文件按照任务进行归类,得到任务PCAP数据包文件。[0078]本实施例中,一个任务中包含有一个或多个用户,每一用户,针对每一应用协议,具有一PCAP数据包文件,通过归类任务,可以实现多任务的并行处理。作为一可选实施例,任务PCAP数据包文件中各PCAP数据包文件按照指定顺序排列,例如,默认按照PCAP数据包文件生成时间进行排序,然后,从任务PCAP数据包文件中依次读取PCAP数据包文件。[0079]A22,调用多线程对静态队列中的PCAP数据包文件进行解析。[0080]本实施例中,回调函数为读取的PCAP数据包文件添加对应的任务标识,并将添加任务标识的PCAP数据包文件添加到静态队列中,在将PCAP数据包文件添加任务标识并添加到静态队列后,回调函数返回并继续为下一PCAP数据包文件添加任务标识,回调函数不需要执行数据包文件的解析流程,进行PCAP数据包文件解析时,通过从静态队列中读取PCAP数据包文件,并调用多线程对PCAP数据包文件进行解析,从而可以提升解析以及数据处理效率。通过前期大数据量的测试,能够到达数据处理效率不低于150Mb/s。这样,从文件读取方式和数据包回调处理效率上进行优化,可以提高回调函数的处理效率,提高读包速率。[0081]本实施例中,作为一可选实施例,对静态队列中的PCAP数据包文件进行解析包括:[0082]对PCAP数据包文件进行协议解析、解密、编解码,以从编解码后得到的信息中,提取网络应用行为信息流。[0083]本实施例中,还可以同时从解析的过程特性分析数据文件获取网络应用内容信息流。作为一可选实施例,对后缀为.dat的文件进行协议解析、解密、编码解码、提取相应协议数据后保存至数据库,并可以删除.dat文件以节省空间。其中,[0084]解密,用于对加密数据进行解密,使不可见数据解密为可见明文。[0085]解码,用于对网络数据包(PCAP数据包文件)特定的编码格式进行解码,如URL解码、Unicode编码等,使不可见数据通过编解码,成为可见字符。[0086]步骤104,对获取的网络应用行为信息流进行信息安全审计。[0087]本实施例中,作为一可选实施例,基于预先存储的多种应用协议的特征库,针对不同应用协议,提取相应应用协议数据(网络应用行为信息流)。作为另一可选实施例,还可以利用数据挖掘方法梳理各用户对应的网络应用行为信息流的关联性,举例来说,通过对网
9
CN 108650229 A
说 明 书
7/10页
络应用行为信息流进行挖掘,挖掘出相同的IP地址、邮箱账号、MAC地址、端口号、网络应用账号、硬件特征标识码等,结合用户的上网时间、上网地点、网络上的虚拟关系等信息,从而在应用使用、上网时间、上网地点、网络活动习惯等度对用户进行分析画像,从而掌握用户使用网络应用的情况。这样,通过智能关联技术,还可以对多种应用协议之间的内容信息进行关联分析,实现多种应用协议协同深度分析。[0088]本实施例中,还可以对获取的网络应用内容信息流进行信息安全审计。[00]本实施例中,基于网络活动的记录以及网络活动中所涉及的信息内容进行审计,从而增加了网络信息审计的维度,可以避免应用协议误判、漏判,从而提升了信息安全审计结果的安全精度。
[0090]本实施例中,作为一可选实施例,在所述得到过程特性分析数据文件之后,解析得到的过程特性分析数据文件之前,该方法还包括:[0091]按照预先设置的用户分类策略,对过程特性分析数据文件进行分类,得到用户过程特性分析数据文件;
[0092]采用分布式方式并行分发用户过程特性分析数据文件。[0093]本实施例中,PCAP数据包由集群存储系统拷贝到数据仓库后,作为一可选实施例,按照预先设置的用户分类策略,对数据仓库中过程特性分析数据文件进行归类,得到用户过程特性分析数据文件,每一用户对应一用户过程特性分析数据文件,然后,再由数据仓库分发到各前置机中进行数据包解析。作为一可选实施例,分发采用客户端/服务器(C/S,Client/Server)模式,利用TCP协议传输分发的用户PCAP数据包文件。作为另一可选实施例,为分发传输的每一用户PCAP数据包文件设置文件标记,以确保用户PCAP数据包文件有序传输。
[0094]本实施例中,作为再一可选实施例,还可以采用负载均衡技术,通过负载检测,动态调整用于解析用户PCAP数据包文件的前置机,使之负载均衡,以确保用户PCAP数据包文件能够被及时传输、解析、处理,以提高前置机的吞吐率。[0095]本实施例中,可以同时支持对多个用户的信息安全监控,对于同一任务,可以包含一个或多个用户。作为一可选实施例,前置机采用轮询的方法进行数据解析,例如,前置机被分配处理100个数据,而该前置机一次能够处理10个数据,这样,通过10次轮询,可以完成100个数据的解析。[0096]本实施例中,通过分布式方式,将不同任务、不同目标的PCAP数据包文件通过并行方式动态分配到不同的前置机中进行处理,这样,采用多任务和多线程的并行处理技术方案,对多个用户PCAP数据包文件进行解析和处理,能够极大提高解析和处理的速度和效率。同时,利用负载均衡技术,保证各前置机的压力均衡,以达到整体运行稳定。
[0097]图2为本申请实施例涉及的解析过程特性分析数据文件具体流程示意图。如图2所示,以任务PCAP数据包文件为例,该流程包括:[0098]步骤21,归类任务PCAP数据包文件;[0099]本实施例中,基于任务对PCAP数据包文件进行分类,得到多个任务PCAP数据包文件,例如,任务1PCAP数据包文件、任务2PCAP数据包文件、…、任务nPCAP数据包文件。[0100]步骤22,对任务PCAP数据包文件中的PCAP数据包文件进行排序;[0101]本实施例中,作为一可选实施例,依据时间戳信息进行排序。
10
CN 108650229 A[0102]
说 明 书
8/10页
步骤23,读取PCAP数据包文件;
[0103]本实施例中,依次读取PCAP数据包文件,以及,采用并发方式处理多个任务PCAP数据包文件。
[0104]步骤24,进行回调处理;[0105]本实施例中,调用回调函数为读取的PCAP数据包文件设置任务标识,每一任务PCAP数据包文件对应一任务标识,将设置任务标识的PCAP数据包文件添加到静态队列中。[0106]步骤25,调用多线程对静态队列中的PCAP数据包文件进行解析。[0107]本实施例中,作为一可选实施例,每一任务PCAP数据包文件,对应一静态队列,每一静态队列,调用多线程,例如,线程1至线程n进行处理。
[0108]图3为本申请实施例涉及的网络应用行为解析还原系统结构示意图。如图3所示,该网络应用行为解析还原系统包括:数据仓库模块、流还原模块、解析模块以及安全审计模块,其中,
[0109]数据仓库模块,用于将过程特性分析网络数据包写入数据仓库;[0110]本实施例中,作为一可选实施例,PCAP数据包包括:网络应用行为信息流,其中,网络应用行为信息流为记录网络活动行为的信息流,网络应用内容信息流为记录网络活动内容的信息流。
[0111]本实施例中,作为一可选实施例,数据仓库模块包括:拷贝单元、校验单元以及判断单元(图中未示出),其中,[0112]拷贝单元,用于从暂时存储的集群存储系统中,拷贝一未携带写入标识的过程特性分析网络数据包,将拷贝的过程特性分析网络数据包写入数据仓库;[0113]校验单元,用于校验写入数据仓库的过程特性分析网络数据包,若校验正确,在集群存储系统中为该写入数据仓库的过程特性分析网络数据包设置写入标识;[0114]判断单元,用于判断集群存储系统中是否还存在有未携带写入标识的过程特性分析网络数据包,如果有,继续拷贝一未携带标识的过程特性分析网络数据包,直至集群存储系统中不存在有未携带写入标识的过程特性分析网络数据包。[0115]本实施例中,作为一可选实施例,通过多线程并发的方式拷贝所述PCAP数据包。[0116]本实施例中,作为另一可选实施例,数据仓库模块还包括:[0117]存储空间检测单元,用于利用磁盘空间的动态检测技术检测数据仓库存储空间,当检测到数据仓库存储空间不足时,移除数据仓库中创建时间最小的PCAP数据包。[0118]本实施例中,作为一可选实施例,数据仓库模块为mongodb数据库,通过并发的方式将过程特性分析网络数据包分发至各流还原模块。[0119]流还原模块,用于对写入数据仓库的过程特性分析网络数据包进行流还原,得到过程特性分析数据文件;[0120]本实施例中,作为一可选实施例,流还原模块包括:四元组构建单元、还原单元以及文件生成单元(图中未示出),其中,[0121]四元组构建单元,用于提取过程特性分析网络数据包中的源IP、目的IP、源端口、目的端口信息,得到四元组;[0122]还原单元,用于按照应用协议对四元组相同的过程特性分析网络数据包进行还原;
11
CN 108650229 A[0123]
说 明 书
9/10页
文件生成单元,用于依据还原的过程特性分析网络数据包生成过程特性分析数据
文件。
本实施例中,作为另一可选实施例,流还原模块还包括:
[0125]去重处理单元,用于对还原单元还原的过程特性分析网络数据包进行过滤以及去重处理,输出至文件生成单元。[0126]本实施例中,通过特征匹配对所述流还原的过程特性分析网络数据包进行过滤;以及,通过链表维护对过滤得到的流还原的过程特性分析网络数据包进行去重处理。[0127]解析模块,用于解析得到的过程特性分析数据文件,获取网络应用行为信息流;[0128]本实施例中,作为一可选实施例,解析模块包括:第一调用单元、第二调用单元以及信息获取单元(图中未示出),其中,[0129]第一调用单元,用于依次读取PCAP数据包文件,调用回调函数为读取的PCAP数据包文件设置任务标识,将设置任务标识的PCAP数据包文件添加到静态队列中;[0130]第二调用单元,用于调用多线程对静态队列中的PCAP数据包文件进行解析;[0131]本实施例中,作为一可选实施例,对静态队列中的PCAP数据包文件进行解析包括:[0132]对PCAP数据包文件进行协议解析、解密、编解码,以从编解码后得到的信息中,提取网络应用行为信息流。[0133]信息获取单元,用于从解析的结果中获取网络应用行为信息流。[0134]安全审计模块,用于对获取的网络应用行为信息流进行信息安全审计。[0135]本实施例中,作为一可选实施例,流还原模块、解析模块以及安全审计模块可以集成在一物理设备中,例如,前置机,多个分布式前置机与一数据仓库模块相连,通过并发方式从数据仓库模块中读取数据进行解析。作为一可选实施例,前置机为一PCAP数据包文件解析服务器。
[0136]在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0137]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。[0138]另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0139]所述功能如果以软件功能单元的形式实现并作为的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
12
[0124]
CN 108650229 A
说 明 书
10/10页
而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。[0140]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。[0141]最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
13
CN 108650229 A
说 明 书 附 图
1/2页
图1
图2
14
说 明 书 附 图
图3
15
2/2页
CN 108650229 A
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- hzar.cn 版权所有 赣ICP备2024042791号-5
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务