基于Web外交新闻的中国国际合作元素及关联挖掘之计算机研究

论文价格:免费 论文用途:其他 编辑:硕博论文网 点击次数:
论文字数:26555 论文编号:sb2019102911442828372 日期:2019-11-27 来源:硕博论文网

1   绪论

1.1  研究背景与意义
“十三五”规划建议指出:“完善对外开放战略布局。推动双向开放,促进国内国际要素有序流动、资源高效配置、市场深度融合。”中国国际合作,已经成为中国对外合作互利共赢的重要方式,在中国发展中具有重要地位。在地缘政治因素、环境问题、资源困难、经济危机、资本市场、历史遗留问题等诸多因素的影响下,中国围绕不同国家在不同时期建立了各具特色的战略合作关系。中国国际合作规模迅速扩大、合作交流领域日益拓宽、内容不断深化和多样化。
调查资料显示,“十二五”期间,中国对外直接投资流量累积达 5390.9 亿美元,年均增速 18.2%,是“十一五”期末的 3.46 倍,并呈现投资区域分布更加广泛、行业流向结构进一步优化、投资主体结构多元化、地方企业投资活跃、跨国并购领域广泛等特点。跨国并购、境外经贸合作区、基础设施合作建设和运营一体化,正在成为中国企业对外投资合作的主要方式和载体。各级政府部门也加强了政策制度体系建设,不断完善规范性政策文件。大量谈判正在进行中,每年新增的协定、合作平台、合作机制数量不断上升,双边协议不断增加新的内容,国际合作的外部环境随之改变。
以“一带一路”发展战略为例,根据 2017 年政府的《中国对外投资合作发展报告》显示,2016 年,中国对“一带一路”沿线国家直接投资达到 153.4 亿美元。中国企业已经在沿线 20 个国家建立了 56 个经贸合作区,累计投资超过 185亿美元,为东道国增加了近 11 亿美元的税收和 18 万个就业岗位。投资行业日趋多元化,分布在制造业、采矿业、租赁和商务服务业、电力热力供应、金融业、建筑业等多个行业领域,承接承包工程新签合同额 1260 亿美元,占当年中国对外承包工程新签合同额的 51.6%。随着“一带一路”建设持续推进,中国积极发展与沿线国家的经济合作关系,在中国与“一带一路”沿线国家经济合作方面,跨境直接投资是一个关键和核心的领域,合作重点包括基础设施互联互通、能源资源合作、工业园区建设和优势产能合作等。2014—2016 年,中国对“一带一路”沿线国家的对外投资 480 亿美元,投资行业日趋多元化,同时并购持续活跃。预计未来,中国对“一带一路”沿线国家的直接投资规模将会显著上升,合作前景更加广阔。当前,中国经济和世界经济高度关联。中国将一以贯之地坚持对外开放的基本国策,构建全方位开放新格局,深度融入世界经济体系。
..............................

1.2  国内外研究现状
1.2.1  文本知识挖掘
知识挖掘(knowledge mining)也被称为知识发现(knowledge discovery, KD)。知识发现是指从数据中提取隐含的,以前未知的以及潜在的有用的信息[1]。早期知识发现的研究对象为数据库中的数据,被简称为数据库中的知识发现(knowledge discovery in database, KDD)。随着大数据时代的到来,互联网中非结构化数据的数据量急剧增加,文本知识挖掘研究逐渐受到重视。
KDD 主要的传统方法有:分类、聚类、关联规则挖掘和回归预测[2-5]等。文献[2]介绍了一种基于 C4.5 决策树的流量分类方法,实验结果表明 C4.5 决策树在处理流量分类问题的稳定性上具有一定优势。文献[4]提出了一种高效的多层和概化关联规则挖掘方法。通过大量人工随机生成数据的实验证明,该方法不仅可以确保频繁项集挖掘结果的正确性和完整性,还比现有同类最新算法具有更好的挖掘效率和扩展性。
对于基于时间间隔的事件数据(time interval-based event data),文献[6]为了简化事件区间(event  interval)的复杂关系,提出了两种新的时间表示(temporal representation),分别是结束节点表示(endpoint  representation)和结束时间表示(endtime  representation)。基于两种新的时间表示,文献[6]提出了三种区间模式(interval-based  pattern)以及有效发现三种区间模式的区间模式挖掘算法。最后,文献[6]提出了三种剪枝手段用以提高挖掘算法的效率。 
.............................

2   相关理论与技术简介

2.1  人工神经网络

................................

2.2  序列标注
序列标注任务是自然语言处理中被广泛研究的重点问题之一。在不同的自然语言处理任务中,句子中的基本元素对应着序列中的各个节点,其中基本元素可能是字,词或其他语素。句子中每个基本要素的排列有先后关系,因此很多自然语言处理问题都能被抽象为序列标注问题,例如中文分词 (Chinese  Word Segmentation),词性标注(Part-of-Speech Tagging)以及命名实体识别(Named Entity Recognition, NER)等。
中文分词的任务目标为将给定句子切分为具有合理语义的词序列。在中文分词任务中,序列节点的基本要素为句子中的每一个字,节点的标签集合定义为{B, I, E, S}。其中,B 表示这个字是某个词的开头,I 表示这个字是某个词的中间部分,E 表示这个字是某个词的结尾,S 表示这个字单独成词。最后根据标签,确定分词结果。
词性标注的目标是对于已经分词的句子,对句子中所有的词标注词性。在词性标注任务中,序列节点的基本要素为已分词的词序列中的词,节点的标签集合为词性的集合,例如:{noun, verb, adj, …}。
命名实体识别的目标是找出给定句子中的命名实体,常见的命名实体有人名、地名和机构名。命名实体识别任务中,序列节点的基本要素为句子中的每个字,节点的标签结合定义为{B, I, E, O}。其中,B表示这个字是某个命名实体的开头,I 表示这个字是某个命名实体的中间部分,E 表示这个字是某个命名实体的结尾,O 表示这个字不属于命名实体部分。最后根据标签,确定命名实体识别的结果。
..............................
3   国际合作元素抽取 ............................ 14
3.1  引言............................ 14
3.2  国际合作元素的内涵界定............................... 15
4   国际合作元素关联挖掘 ..................................... 28
4.1  引言............................... 28
4.2  国际合作元素关联定义和特点.................... 29
5   总结与展望 ................................. 36
5.1  总结................................ 37
5.2  展望...................... 37

4   国际合作元素关联挖掘

4.1  引言
国际合作元素关联挖掘是继国际合作元素抽取之后对 Web 外交新闻文本语义信息的细化工作。国际合作元素关联挖掘的目标是从 Web 外交新闻文本中挖掘有语义或内涵关系的国际合作元素对,如“一带一路”和“两廊一圈”,“贸易自由化、投资便利化”和“贸易投资保护主义”以及“匈塞铁路”和“16+1合作”等。国际合作元素关联挖掘旨在原本相对独立的国际合作元素之间建立起语义或内涵上的关联,对 Web 外交新闻蕴含的信息进行更深层次的结构化,以方便不同的研究者可以更高效、更全面地利用 Web 外交新闻数据进行相关方面的研究,如构建中国对外合作知识库、分析中国对外合作情况以及发现企业对外投资机会(如在什么国家投资什么产业或项目)等
本章主要介绍国际合作元素关联挖掘方法。国际合作元素关联挖掘与自然语言处理领域中的实体关系抽取任务具有一定的相似性。传统的实体关系抽取任务的目标是挖掘文本中实体对(人名、地名、机构名)之间的关系。
.............................

5   总结与展望

5.1  总结
在互联网数据量日益激增的状况下,从相关网络文本数据中挖掘出有价值的知识具有重要的现实意义。本文以 Web 外交新闻数据为基础,研究如何从其中挖掘与中国国际合作相关的知识。本文通过分析 Web 外交新闻的特点和中国国际合作的知识需求,把挖掘任务抽象为类似于序列标注任务和实体关系抽取任务,并提出了相对应的知识挖掘方法,最后通过实验和分析评价抽取方法的表现。本文的主要贡献如下:
(1)  在第 3 章中提出了国际合作元素的抽取方法。首先,通过分析中国国际合作研究领域的需求以及中国国际合作元素在 Web 外交新闻中的语义特点,从计算机的角度提出了国际合作元素的定义,为提出国际合作元素抽取方法奠定基础。然后,根据国际合作元素的定义,结合传统序列标注任务的特点,提出了领域知识和神经网络相结合的国际合作元素抽取方法。其中,神经网络模型的目的是完成国际合作元素的初步抽取,初步抽取完成之后,通过提取的领域知识改进神经网络的抽取结果。最后,通过实验结果表明,虽然神经网络模型对国际合作元素抽取任务有一定的适应能力,但是对于一些结构复杂的国际合作元素的抽取效果并不好,同时神经网络模型的效果对于训练集的数据质量非常敏感;同时实验结果还表明,我们提出的领域知识,对于 3.3.1 节提出的神经网络模型是一个很好的补充,对提升国际合作元素抽取模型的效果具有一定的针对性。
(2)  在第 4 章中提出了国际合作元素关联挖掘方法。在第 3 章抽取出的国际合作元素的基础上,结合传统实体关系抽取任务对于关系类型的定义以及 Web外交新闻的语义特点,明确了国际合作元素关联及关联类型的定义,并分析了其语义特点。在 4.3 节中,结合传统实体关系抽取任务和国际合作元素关联的特点,提出了神经网络模型和规则相结合的国际合作元素关联挖掘方法。在国际合作元素关联挖掘方法中,神经网络模型的目的是挖掘在句内的不同国际合作元素之间的关联。为了弥补神经网络模型的不足,挖掘在不同句子之间的国际合作元素之间的关联,同时修正神经网络模型的部分挖掘结果,结合国际合作元素关联的特点,提出了基于规则的国际合作元素关联类型抽取模型。实验结果表明,神经网络模型对于语义关系简单明确的句内国际合作元素关联挖掘表现优异,但是对于语义关系模糊的句内关联挖掘表现较差;基于规则的模型对于句间的国际合作元素关联类型挖掘效果较好,并且对于神经网络模型挖掘出的部分关联类型具有一定的优化效果。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
QQ 1429724474 电话 18964107217