晋江文学城
 上一章  目录  设置

2、讲点有用的 ...

  •   知识图谱是人工智能研究中的核心问题,它是人类对世界的近似表示与理解,能够赋予机器精准查询、理解与逻辑推理等能力。知识图谱相关的技术主要分为三个部分:知识提取、知识表示和知识应用。知识提取主要负责从各种结构化和非结构化的信息中抽取实体和关系即构建知识图谱,知识表示则是研究如何更好地表示知识,知识应用则是利用已经构建好的知识图谱为各种下游任务赋能,赋予机器理解世界的能力。

      知识图谱也能够辅助我们快速了解小说的人物关系,对于没有仔细读过红楼梦或者是读得似懂非懂的同学们来说,我们可以利用BERT搭建起知识提取的机器学习模型提取红楼梦中的人物即实体,并分析人物与人物之间的关系,这对我们快速了解小说人物结构非常有帮助。有一位作者利用BERT对红楼梦进行了一个简单的人物知识图谱建模,接下来我们将会详细说明作者是如何从红楼梦中抽取人物和关系。

      1)数据准备:作者首先利用正则表达式从红楼梦提取对话,如果假设说出这段话的人的名字出现在这段话的前面,那么可以用这段话前面的一段话作为包含说话人(speaker)的上下文(context)。如果说话人不存在这段上下文中,标签为空字符串。目前效果较好的实体抽取模型多为监督学习的模型,所以基于BERT的实体抽取模型也采用有监督的方法训练模型。因此,作者对之前抽取的对话进行实体标注。除此之外,由于实体之间的关系抽取技术还不太成熟,因此作者做了一个很简单的假设,把相邻的人看作是在对话,这在一定程度上是可以成立的。标注数据的部分结果如下:

  • 作者有话要说:  无话可说

  • 昵称:
  • 评分: 2分|鲜花一捧 1分|一朵小花 0分|交流灌水 0分|别字捉虫 -1分|一块小砖 -2分|砖头一堆
  • 内容:
  •             注:1.评论时输入br/即可换行分段。
  •                 2.发布负分评论消耗的月石并不会给作者。
  •             查看评论规则>>