构建知识图谱,需要掌握一些工具,比如爬虫、二次等。如果掌握了工具,构建知识图谱并不难,难的是大数据源。一个是开放领域的知识图谱,一个是垂直领域的知识图谱。数据是构建地图的最大绊脚石。只要有数据,简单使用neo4j或者其他工具就可以构建地图。

如何构建知识图谱?

目前的知识图谱分为两类。一类是开放域的知识图谱,另一类是垂直领域的知识图谱,首先就是要先处理数据互联网上的数据基本上都是结构化的,非结构化的和半结构化的。结构数据一般就是公司的业务数据,这些数据都存储到数据库里,从库里面抽取出来做一些简单的预处理就可以拿来使用。半结构化数据和非结构化数据,比如对商品的描述,或是标题,可能是一段文本或是一张图片,这就是一些非结构化数据了,

但它里面是存储了一些信息的,反映到的是知识图谱里的一些属性。所以需要对它里面进行一个抽取,这是构建知识图谱中比较费时费力的一个工作,从数据里需要抽取的其实就是之前所提到的实体、属性、关系这些信息。对于实体的提取就是NLP里面的命名实体识别,这里相关的技术都比较成熟了,从之前传统的人工词典规则的方法,到现在机器学习的方法,还有深度学习的一些使用另外还需要做的是实体对齐和实体消歧。

关于实体对齐,举例来说,比尔盖茨这四个字是中文名称,BillGates是他的英文名称,但其实这两个指的是同一个人。由于文本的不一样,开始的时候导致这是两个实体,这就需要我们对它进行实体对齐,把它统一化。另外是实体消歧,举例来说,苹果是一种水果,但是在某些上下文里面,它可能指的是苹果公司。这就是一个实体歧义,我们需要根据上下文对它进行实体消歧,

其次,在完成了以上步骤之后,接下来就是本体抽取。比如说公司是一个机构,它是有这种上下流的关系的,对于平级的也需要计算一个他们的相识度,比如比尔盖茨和乔布斯在实体层面,他们是比较相似的。他们都属于人这个实体,他们跟公司的差别还是挺大的,所以需要一个相似度的计算。在以上步骤完成之后需要对知识库进行质量评估,

如何构建健康知识图谱?

可将医学知识图谱构建技术归纳为五部分,即医疗知识的表示、抽取、融合、推理以及质量评估。通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素,选择合理高效的方式存入知识库,1)医学知识表示。知识表示是为描述世界所做的一组约定,是知识符号化、形式化、模式化的过程,主要研究计算机存储知识的方法,其表示方式影响系统的知识获取、存储及运用的效率,

在医疗领域,实体维度包括疾病、症状、检查、检验、体征、药品等等医学名词,甚至医生、科室、医院也可以纳入范畴。关系是指实体间的关系,比如,针对疾病和症状,关系可有“包含关系”,“不包含关系”,甚至“金标准关系”(比如,所有炎症都会带来发热,这就是金标准),疾病和医生可以定义“医生擅长治疗疾病”,医生和医院可以定义“归属于关系”等等。

这些都是知识图谱的构成,2)医学知识融合。在医疗领域,Dieng-Kuntz等人将医疗数据库转换为医疗本体,然后对其他文本语料使用半自动的语言工具进行语义提取,在人工控制下对本体进行扩展和补全,并用启发式规则自动建立知识的概念层次,Baorto等人将数据源添加到临床信息系统时先确定数据的控制术语是否已经存在,然后将新术语添加到MED(MedicalEntitiesDictionary),同时建立审计流程以保证引入数据的一致性。

3)医学知识推理,医学知识图谱必须处理大量重复和矛盾的信息,增加了构建医学推理模型的复杂度。传统的知识推理方法包括描述逻辑推理、基于规则推理和基于案例推理等。


文章TAG:为什么构建知识图谱  图谱  构建  知识  
下一篇