3377体育网官网入口

证券简称:3377体育网官网入口 证券代码:002212
7x24小时服务: 400-777-0777

清静知识图谱|入门篇:看法、构建和应用

知识图谱并不是一个新的看法 ,,,,,,其原型来自于1998年由Tim Berners-Lee 提出的语义网(Semantic Web)。。。 。。。 。万维网的目的是构建以“链接”为中心的全球信息系统 ,,,,,,任何人都可以通过添加链接的方法把自己的文档链接到这个系统中。。。 。。。 。

清静知识图谱|入门篇:看法、构建和应用

宣布时间:2021-09-13
浏览次数:8451
分享:

1.配景

随着信息化及网络手艺的一连生长, 网络攻击手段也日渐成熟 ,,,,,,并泛起出长一连性、高重大性和高隐藏性的特点。。。 。。。 。面临高级可一连威胁(Advanced Persistent Threat, APT)等高级攻击方法 ,,,,,,除了古板基于IOC(Indicator of Compromise)的防御战略 ,,,,,,还需要接纳网络清静情报、清静态势感知等综合防御战略。。。 。。。 。网络清静情报一样平常包括:误差情报、威胁情报、资产情报等用于清静剖析的相关信息。。。 。。。 。其中 ,,,,,,威胁情报(Threat Intelligence)是一种基于证据的信息, 用于形貌针对资产的威胁信息(例如:恶意IP地点、恶意样本形貌、攻击者特征等)。。。 。。。 。使用威胁情报可以剖析攻击行为 ,,,,,,相识系统缺乏并随之做出响应的调解, 变被动防御为自动防御。。。 。。。 。

虽然使用网络清静情报可以提高网络自动防御的能力, 可是在详细落地应用时仍面临诸多挑战 ,,,,,,包括(1)怎样从海量数据中提取高价值的清静情报(2)怎样解决网络清静情报的可信性(3)怎样提升网络清静情报的综合使用率。。。 。。。 。2012年 ,,,,,,谷歌借鉴语义网手艺提出了知识图谱(Knowledge Graph, KG)看法, 发动了知识图谱手艺在信息检索领域的研究和应用。。。 。。。 。知识图谱产品一直泛起 ,,,,,,如:谷歌的Knowledge Graph、微软的Satori、搜狗的知立方、Freebase、DBpedia等。。。 。。。 。知识图谱在商业应用领域也获得了应用 ,,,,,,如:在金融领域中 ,,,,,,将知识图谱手艺用于股票剖析以及反金融诈骗等;;;;;; ;;在公安情报领域, 将知识图谱手艺用于辅助线索剖析、预防电信诈骗等。。。 。。。 。

针对网络清静情报落地应用时面临的挑战 ,,,,,,网络清静界也最先实验将知识图谱手艺应用于网络清静情报及应用领域。。。 。。。 。现在 ,,,,,,针对网络清静情报知识图谱的研究仍处于早期阶段 ,,,,,,清静知识图谱在网络清静领域缺乏应用实践。。。 。。。 。

本文首先先容了知识图谱手艺的基础知识和清静知识图谱看法内在。。。 。。。 。其次剖析了清静知识图谱构建流程和要害手艺;;;;;; ;;最后形貌了清静知识图谱手艺在网络清静领域中的可能应用场景。。。 。。。 。

2.知识图谱看法

2.1 知识图谱提出

知识图谱并不是一个新的看法 ,,,,,,其原型来自于1998年由Tim Berners-Lee 提出的语义网(Semantic Web)。。。 。。。 。万维网的目的是构建以“链接”为中心的全球信息系统 ,,,,,,任何人都可以通过添加链接的方法把自己的文档链接到这个系统中。。。 。。。 。WWW这种形式只体现网页之间保存链接关系 ,,,,,,不可形貌网页之间的链接含有的语义关系 ,,,,,,盘算机无法有用的从万维网中识别出这样的语义信息。。。 。。。 。为相识决万维网保存的问题 ,,,,,,万维网的首创人Tim Berners-Lee于1998年提出的语义网(Semantic Web)的看法。。。 。。。 。和万维网一样 ,,,,,,语义网仍然基于链接和图的组织方法 ,,,,,,只是图中的节点代表的不但是网页 ,,,,,,而是客观天下中的实体 ,,,,,,超链接也增添了语义形貌 ,,,,,,详细批注实体之间的关系 ,,,,,,即语义网的实质是关于数据的互联网或者是事物的互联网。。。 。。。 。

知识图谱是语义网手艺在详细应用场景中的一种简化商业实现 ,,,,,,是基于语义网的看法、要领、手艺和工具等的详细构建。。。 。。。 。

2.2 知识图谱界说

首先我们相识下知识的界说。。。 。。。 。凭证维基百科的界说 ,,,,,,知识是关于某个主体确信的熟悉 ,,,,,,并且这些熟悉拥有潜在的能力为特定目的而使用。。。 。。。 。关于主体的事实或状态就称为知识 ,,,,,,包括:熟悉或相识某种科学、艺术或技巧;;;;;; ;;通过研究或履历而获得的一整套知识或资讯。。。 。。。 。我们可以用SPO(Subject-Predicate-Object)知识三元组来体现知识 ,,,,,,如图1所示。。。 。。。 。

图1 SPO知识三元组

知识图谱是一种用图模子形貌知识和建模世间万物之间的关联关系的手艺要领 ,,,,,,其目的是从数据中识别、发明和推断事物与看法之间的重大关系 ,,,,,,是关于事物关系的盘算模子 ,,,,,,如图2所示[1]。。。 。。。 。

图2 知识图谱:事物关系的可盘算模子

举例1:简朴的知识图谱

知识图谱使用图体现多条知识及其关系 ,,,,,,是一个由节点和边组成的有向图 ,,,,,,其基本组成单位为SPO知识三元组。。。 。。。 。知识图谱中的节点可以是实体(如一小我私家或一本书) ,,,,,,也可以是笼统看法 ,,,,,,如人工智能、知识图谱等。。。 。。。 。边可以是实体的属性 ,,,,,,如人名、书名 ,,,,,,也可以是实体之间的关系 ,,,,,,如朋侪、配偶关系等。。。 。。。 。一个简朴的知识图谱 ,,,,,,如图3所示[1]。。。 。。。 。

图3 简朴的知识图谱

举例2:完整的知识图谱

完整的知识图谱由三层组成:

(1)预界说词汇层:体现知识所用的语言(OWL、RDFS)。。。 。。。 。

(2)词汇层:使用本体界说语言界说的词汇。。。 。。。 。以上两层组成了我们所称的知识本体。。。 。。。 。

(3)数据层:使用知识本体词汇体现的详细知识。。。 。。。 。

图4所示为一个关于罗纳尔多的完整知识图谱。。。 。。。 。

图4 球星罗纳尔多的知识图谱(图片来自于网络)

2.3 知识图谱分类

知识图谱可分为通用知识图谱和领域知识图谱两大类。。。 。。。 。

(1)通用知识图谱

以DBPedia、Yago、Wikidata、百度和Google的搜索引擎所使用的知识图谱为代表 ,,,,,,其主要特征是:知识来自于互联网上开放的数据或众包数据 ,,,,,,以事实型知识为主 ,,,,,,以搜索和问答为主要形式 ,,,,,,对知识的质量容忍度较宽。。。 。。。 。

(2)领域知识图谱

面向详细的应用领域 ,,,,,,如阿里巴巴电商知识图谱 ,,,,,,医疗领域的医学语义网UMLS、GeneOnto、金融领域的Kenso等。。。 。。。 。领域知识图谱的主要特征是:数据来自详细的应用领域 ,,,,,,泉源多样;;;;;; ;;知识结构重大 ,,,,,,通常包括重大的本体工程和规则型的知识;;;;;; ;;知识抽取质量要求高;;;;;; ;;对推理的要求高 ,,,,,,可诠释型要求强。。。 。。。 。

2.4 知识图谱的构建流程

知识图谱要领论涉及知识的体现、知识获取、知识处置惩罚及知识应用多个方面。。。 。。。 。一样平常的流程为:确定知识体现模子;;;;;; ;;凭证数据泉源选择差别的知识获取手段导入知识;;;;;; ;;使用知识推理、知识融合、知识挖掘等手艺提升知识图谱的质量;;;;;; ;;凭证场景需求设计差别的知识会见和泛起方法等 ,,,,,,如图5所示[1]。。。 。。。 。

图5 知识图谱构建流程

(1)知识泉源

凭证应用领域确定知识泉源。。。 。。。 。差别的数据源的知识化都需要综合差别的手艺手段 ,,,,,,例如:关于文本数据源 ,,,,,,我们需要使用自然语言处置惩罚手艺(NLP)实现实体识别、实体链接、关系提取、事务提取!! 。。。 ;;;;;; ;;关于结构化数据库 ,,,,,,可能需要界说结构化数据到本体模子的语义映射 ,,,,,,使用语义翻译工具实现结构化数据到知识图谱的转化。。。 。。。 。

(2)知识体现和本体工程

知识体现是指用用盘算符号形貌和体现知识 ,,,,,,以支持盘算性能模拟人的心智举行推理的要领和手艺。。。 。。。 。知识体现决议了知识图谱构建输出的目的 ,,,,,,包括:语义形貌框架 ,,,,,,如W3C的RDF;;;;;; ;;Schema和本体 ,,,,,,界说知识图谱的类集、属性集、关系集和词搜集;;;;;; ;;知识交流的语法 ,,,,,,界说知识现实保存的物理名堂 ,,,,,,如Turtle、JSON等;;;;;; ;;实体命名和ID系统 ,,,,,,界说实体的命名原则与唯一标识规范等。。。 。。。 。

(3)知识抽取

知识抽取凭证使命可分为看法抽取、实体识别、关系抽取、事务抽取和规则抽取等。。。 。。。 。现代知识图谱的构建通;;;;;; ;;谝延械慕峁够葑试淳傩凶 ,,,,,,形成基础数据集 ,,,,,,在此基础上使用自动化知识抽取和知识图谱补全手艺 ,,,,,,使用多种数据源进一步扩展知识图谱 ,,,,,,通过人工众包进一步提升知识图谱的质量。。。 。。。 。

(4)知识融合

知识融合是指将差别泉源的知识举行对齐、合并的事情 ,,,,,,目的在于形玉成局统一的知识标识和关联。。。 。。。 。在构建知识图谱时 ,,,,,,不可阻止的需要使用第三方的知识库产品 ,,,,,,但差别知识图谱之间既保存的本体异构也保存实体异构 ,,,,,,需要使用知识融合手艺解决异构问题。。。 。。。 。数据层的融合是指实体和关系元组的融合 ,,,,,,包括:实体对齐、实体消歧或共指消解。。。 。。。 。模式层的融合使用本体对齐将新获得的本体融入已有的本体库中 ,,,,,,以及新旧本体的融合 ,,,,,,一样平常接纳专家人工构建和本体演化治理框架实现本体对齐。。。 。。。 。

(5)知识图谱补全和推理

我们可能无法获得关于客体的所有知识 ,,,,,,但我们可以使用已保存的知识通过推理和补全手艺获得关于客体的新知识并添加到知识图谱中。。。 。。。 。实现知识图谱补全的要领包括:基于本体推理的补全要领 ,,,,,,基于图结构和关系路径特征的补全要领 ,,,,,,基于体现学习和图嵌入的补全要领 ,,,,,,使用文本信息辅助的补全要领等。。。 。。。 。

(6)知识检索和知识剖析

基于知识图谱的知识检索的实现形式主要包括语义检索和智能问答 ,,,,,,使得搜索引擎可以直接对事物举行检索。。。 。。。 。知识图谱和语义手艺也可用于数据剖析和决议 ,,,,,,Plantir使用知识图谱和语义手艺增强数据之间的关联 ,,,,,,使用户可以越发直观的图的方法对数据举行关联挖掘与剖析。。。 。。。 。知识图谱和语义手艺可以用于实现形貌性数据剖析。。。 。。。 。

3.清静知识图谱看法

3.1 清静知识图谱界说

清静知识图谱(Cyber Security Knowledge Graph)是知识图谱在网络清静领域的现实应用 ,,,,,,属于领域知识图谱 ,,,,,,包括:基于本体论构建的清静知识本体架构 ,,,,,,以及通过威胁建模等方法将多源异构的网络清静领域信息举行加工、处置惩罚、整合 ,,,,,,转化成结构化的网络清静领域知识库。。。 。。。 。

举例:图6展示了一个来自恶意软件、攻击关系知识图谱。。。 。。。 。

图6 清静知识图谱示意(图片来自网络)

3.2 清静知识图谱特点

与通用知识图谱相比, 清静知识图谱具有以下特点:

(1)知识泉源差别

通用知识图谱的知识泉源于互联网开放数据 ,,,,,,主要是互联网上普遍保存的半结构化数据和非结构化数据 ,,,,,,从中提取出人类可明确的一样平常意义上的通用知识。。。 。。。 。清静知识图谱的知识主要泉源于即包括互联网上对网络清静问题研究的剖析效果:如来自于网络清静机构的研究报告、权威机构宣布的威胁情报、商用/开源威胁情报、清静论坛博客中宣布的对相关网络清静问题的剖析、IT企业宣布的清静误差信息、恶意软件剖析报告等;;;;;; ;;也包括来自企业内部拥有的的清静数据;;;;;; ;;既有结构化的数据 ,,,,,,如权威机构宣布的威胁情报、商用/开源威胁情报;;;;;; ;;也有半结构化/非结构化的数据 ,,,,,,如:清静论坛中宣布的博文、恶意软件剖析报告、清静研究报告等。。。 。。。 。

(2)信息抽取的手艺差别

信息抽取手艺包括怎样从异构数据源中自动抽守信息获得候选指示单位。。。 。。。 。信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的手艺。。。 。。。 。涉及的要害手艺包括:命名实体识别(named entity recognition ,,,,,,NER)、关系抽取!! 。。。 。≧elation Extraction)和属性抽取!! 。。。 。ˋttribute Extraction)。。。 。。。 。

通用知识图谱的知识大部分来自于互联网上文本数据 ,,,,,,这些文本数据的目的是供人类阅读的 ,,,,,,形貌的内容也是通俗公共可明确的;;;;;; ;;关于这样的文本数据的明确 ,,,,,,一直是自然语言明确的主要研究内容 ,,,,,,有大宗的成熟的信息提取工具可用 ,,,,,,如Stanford NLP库。。。 。。。 。清静知识图谱的知识也泉源于互联网上的文本数据 ,,,,,,但这类数据是供具有清静知识配景的清静专家来阅读的 ,,,,,,使用领域内约定的形貌方法来表达 ,,,,,,其形貌的内容也只有他们才可以明确;;;;;; ;;研究批注 ,,,,,,通用NLP工具难以用于清静领域的文本信息处置惩罚。。。 。。。 。

(3)本体库差别

无论是通用知识图谱照旧领域知识图谱 ,,,,,,均需凭证详细的应用构建本体库。。。 。。。 。近20年来 ,,,,,,通用知识图谱研究和应用获得了普遍的关注和研究 ,,,,,,尤其是W3C语义网的标准化 ,,,,,,本体的研究趋于成熟 ,,,,,,有成熟的本体库可供使用;;;;;; ;;即即是在详细的知识图谱的应用领域 ,,,,,,如电商知识图谱、医疗知识图谱、金融知识图谱 ,,,,,,对本体的研究也取得了长足的希望。。。 。。。 。但在网络清静知识图谱领域 ,,,,,,由于相关的研究和应用才刚刚最先 ,,,,,,对本体的研究仍处于初级阶段 ,,,,,,尚缺乏成熟的、公认的关于网络清静的知识本体库可供使用。。。 。。。 。

4.清静知识图谱的构建

4.1 构建框架

清静知识图谱旨在借助知识图谱手艺对疏散的清静知识情报举行整合, 实现清静情报聚合剖析和应用场景扩展等目的。。。 。。。 。清静知识图谱的构建框架与通用知识图谱构建框架相同 ,,,,,,如图7所示(*体现清静知识图谱构建专有的手艺)[3]。。。 。。。 。

清静知识图谱的构建历程同样包括三个条理:

(1)信息抽取!! 。。。 。喊ㄊ堤宄槿 ⒐叵党槿『褪粜猿槿;

(2)知识融合:实现多源异质信息的形式层面与内容层面的融合, 包括实体链接、本体工程、

质量评估的历程

(3)知识加工与应用,:主要实现知识的后端处置惩罚, 包括知识存储、知识体现和知识推理。。。 。。。 。

图7 清静知识图谱构建框架

4.2 要害手艺

只管清静知识图谱与通用知识图谱接纳相同的构建框架 ,,,,,,但我们无法直接使用成熟的知识图谱手艺解决清静知识图谱构建中保存的专有问题 ,,,,,,这些问题主要集中在清静知识图谱构建流程的前几个阶段。。。 。。。 。

要害手艺1: 清静情报信息发明

高效自动化从海量互联网信息中准确的发明清静相关的信息是构建清静知识图谱的要害。。。 。。。 ;;;;;; ;;チ系耐缜寰残畔⒅饕闪嚼嘧槌桑海1)剖析后获得的网络清静情报 ,,,,,,如来自网络清静机构的研究报告、权威机构宣布的威胁情报、商用/开源威胁情报;;;;;; ;;(2)普遍宣布于互联网上的种种有关网络清静的信息 ,,,,,,如暗网、清静论坛、博客、自媒体等。。。 。。。 。

研究偏向:怎样高效的从海量的互联网信息中筛选出与清静有关的信息 ,,,,,,如:词频统计、支持向量机等;;;;;; ;;怎样确定所发明的清静类信息的可信性 ,,,,,,如:多源清静信息关联剖析手艺等[3]。。。 。。。 。

要害手艺2:清静信息抽取

清静信息提取与自然信息领域的信息提取手艺保存较大的差别 ,,,,,,大致可分为两类:基于机械学习的规则匹配要领和基于自然语言处置惩罚的要领两大类。。。 。。。 。

研究偏向:(1)怎样使用机械学习算法来镌汰规则的数目或自动生陋习则, 解决匹配效率与抽取准确率平衡的问题。。。 。。。 。(2)通用NLP工具难以用于处置惩罚清静领域的文本信息[4] ,,,,,,建设网络清静相关的语料库 ,,,,,,现在此领域的事情险些空缺。。。 。。。 。

要害手艺3:清静本体构建

在清静知识图谱研究领域 ,,,,,,清静本体的研究较为普遍 ,,,,,,但主要是面向清静特定领域的 ,,,,,,例如:态势感知、入侵检测、误差挖掘、物联网清静等 ,,,,,,尚缺少统一的成熟的清静本体可供借鉴。。。 。。。 。

研究偏向:(1)自顶向下的清静本体构建手艺[2] ,,,,,,从网络清静研究的原理、需求、规范等笼统角度出发, 界说清静知识的规模和清静本体框架。。。 。。。 。(2)自下向上的清静本体构建手艺[2] ,,,,,,从现有清静数据的名堂、内容、结构化水平出发构建清静本体。。。 。。。 。(3)本体学习手艺 ,,,,,,利于机械学习手艺 ,,,,,,从清静数据中提取新的看法和上下文关系 ,,,,,,一直更新清静本体。。。 。。。 。

要害手艺4:知识图谱嵌入

知识图谱嵌入是实现知识图谱高效盘算的要害手艺。。。 。。。 。知识图谱可以用属性图举行体现 ,,,,,,其应用需要使用与图相关的算法实现 ,,,,,,算法重漂后高 ,,,,,,难于应用于大规模知识图谱场景。。。 。。。 。

研究偏向:借鉴自然语言明确中的词嵌入手艺研究的希望 ,,,,,,如独热编码、词袋模子、词向量等 ,,,,,,知识图谱研究领域最先思量在保存语义的同时 ,,,,,,将知识图谱中的实体和关系映射到一连浓密的低维向量空间。。。 。。。 。相关的知识图谱嵌入手艺 ,,,,,,包括:转移距离模子;;;;;; ;;语义匹配模子;;;;;; ;;思量附加特殊信息的模子等[2]。。。 。。。 。

5.清静知识图谱的应用场景

知识图谱通过信息抽取、知识融合、知识推理等历程, 将疏散在多处以差别形式体现的信息举行关联融合, 形成一个统一体现且高质量的知识集, 继而凭证现有的知识举行推理, 挖掘潜在的知识同时爆发新的知识, 从而实现清静情报剖析的智能化。。。 。。。 。

基于知识图谱的信息整合能力, 清静知识图谱将在如下现实场景中施展作用:

(1)清静情报搜索

在情报库中查找相关情报是较为常见的应用,准确查找到差别类型的情报将减轻情报剖析的事情量。。。 。。。 。知识图谱将搜索视为实体的搜索而非简朴的字符串搜索的头脑, 可用于构建知识层级的盘问系统, 抵达提升情报盘问效果的相关水平及盘问效率的目的。。。 。。。 。

(2)敌手画像构建

画像构建是凭证用户或整体的属性信息构建用户模子的常用要领。。。 。。。 ;;;;;; ;;谕胁情报等泉源对敌手的常用工具、攻击手法、社工情报等信息举行网络关联, 知识图谱可以构建详细形貌敌手信息的画像, 展示攻击者的全貌, 更精准的实现攻击溯源。。。 。。。 。

(3)团伙情报挖掘

网络攻击行为通常由多人或多个团伙提倡, 但在要素众多的情报中挖掘团伙信息面临着难题。。。 。。。 。知识图谱从主体、事务、人和物等语义层面构建情报的关联关系, 并凭证设定的规则举行挖掘从中寻找线索, 可实现团伙情报剖析以及隐匿组织的发明。。。 。。。 。

(4)APT 攻击发明

APT 攻击是目今互联网领域面临的严重威胁, 具备APT 攻击的检测能力是实现网络清静的主要包管。。。 。。。 。目今, 通过简单的数据剖析实现APT 检测的概率较低, 需要探索多维度团结的剖析要领。。。 。。。 。知识图谱可以将资产、威胁、误差、流量、日志等信息举行统一形貌, 突破数据鸿沟, 并进一步应用知识推理的要领实现异常行为的剖析, 从而实现APT 的发明。。。 。。。 。

6.总结

清静知识图谱可以借助知识图谱手艺对疏散的清静知识情报举行整合, 抵达清静情报聚合剖析和应用场景扩展等目的。。。 。。。 。目今 ,,,,,,人工智能特殊是自然语言处置惩罚手艺的快速生长使得高效自动化从巨量信息中获取知识成为可能 ,,,,,,极大的推动了知识图谱手艺在各个领域的应用。。。 。。。 。可是 ,,,,,,知识图谱在清静领域应用的相关事情仍处于早期探索性研究阶段 ,,,,,,构建清静知识图谱的要害手艺尚需突破。。。 。。。 。

参考

[1] 王昊奋 ,,,,,,漆桂林 ,,,,,,陈华钧. 知识图谱:要领、实践与应用[M].北京:电子工业出书社 ,,,,,,2019

[2] 翟裕中 ,,,,,,胡伟 ,,,,,,程龚. 语义网手艺系统[M].北京:科学出书社 ,,,,,,2014

[3]董 聪, 姜 波, 卢志刚,等.面向网络空间清静情报的知识图谱综述[J].信息清静学报 ,,,,,,2020.9:Vol.5 No. 5

[4] Peter Phandi, Amila, Silva Wei Lu. SemEval-2018 Task 8: Semantic Extraction from CybersecUrity Reports using Natural Language Processing (SecureNLP)[C]// Proc 12th International Workshop on Semantic Evaluation. New Orleans, Louisiana,2018:697-706

客户服务热线

400-777-0777
7*24小时服务

联系邮箱

servicing@topsec.com.cn

扫码关注
【网站地图】【sitemap】