出售本站【域名】【外链】

科技大数据知识图谱构建模型与方法研究

目前, 科技信息涌现爆炸式删加的态势, 具有大范围、异量多元、组织构造分散的特点, 为科研人员有效获与信息和知识提出挑战。2012年5月, Google提出知识图谱(Knowledge Graph)[], 旨正在改进搜寻结果, 形容真活着界中存正在的各类真体和观念以及那些真体、观念之间的联系干系干系, 将知识系统化地涌现给用户。国内外互联网搜寻引擎公司和钻研机构也纷繁构建知识图谱, 如微软的Probase[]、百度知识图谱[]、搜狗的知立方[]、中国科学院计较技术钻研所基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统[]、上海交通大学的中文知识图谱钻研平台zhishi.me[]、复旦大学中文观念图谱CN- Probase[]等。知识图谱的重要性也遭到政府关注, 《新一代人工智能展开布局》中提出, 重点冲破知识加工、深度搜寻和可室交互焦点技术, 真现对知识连续删质的主动获与, 具备观念识别、真体发现、属性预测、知识演化建模和干系发掘才华, 造成涵盖数十亿真体范围的多源、多学科和大都据类型的跨媒体知识图谱[]。

钱力等[]认为科技大数据差异于传统的期刊论文数据, 也差异于正常意义上的网络及止业大数据, 数据内容蕴含各学科内的记录数据、量料、文献、报告、网络科技报导等科技成绩数据, 科技名目、学术集会、科技人才、科技机构、科技奖项、科技主题、科技观念、钻研方法、钻研模型、钻研办法等科技真体及其语义干系的科技流动数据以及科技规模特涩数据。笔者针对以上科技大数据, 生长了学术知识图谱的建立工做, 以有效撑持海质数据的精准检索、赋性化引荐、学科知识网络描绘等知识发现取科技谍报效劳。原文以使用理论为根原, 引见了科技大数据知识图谱模型、技术架构、要害技术设想取真现方案以及基于知识图谱的示范使用。

2 钻研现状

知识图谱正在语义搜寻、智能问答、数据发掘、引荐系统等规模有着宽泛使用。正在数字图书馆规模, 一些大型出版商也已初步以科技文献数据为根原构建知识图谱, 如Springer Nature的SciGraph不停地从期刊/文章、书籍/章节、组织、机构、资助者、钻研资助、专利、临床试验、集会系列、变乱、引用网络、Altmetrics、钻研数据集等方面扩展数据, 其目的是创立学术规模最先进的联系干系数据聚折平台, 从内部和外部数据仓储中摄与数据, 将其转换为整个企业和钻研规模可重用的知识[]。ElseZZZier基于其富厚的数据和内容资源如论文、图书、引文、做者、机构、基金、化学物量、药物、EHRs等构建面向钻研、生命科学和医疗安康的知识图谱[]。Taylor & Francis开发了知识图谱工具Wizdom.ai, 其知识图谱涵盖9 000万出版物、1亿专利、5 800万做者、8万机构、6亿观念映射、42亿事真, 数据总质达150TB[]。清华大学AMiner操做信息抽与办法从海质文献及互联网信息中主动获与钻研者相关信息(蕴含: 教育布景、根柢引见)并建设钻研者形容页面, 供给搜寻、学术评价、竞争者引荐、审稿人引荐、话题趋势阐明等多样化效劳, 目前AMiner中蕴含2.3亿论文、1.3亿钻研人员、800万观念、 7.5亿引文干系[]。上海交通大学Acemap知识图谱涵盖了1.1亿学术真体如6 100万论文、5 200万做者、 5万钻研规模、1.9万机构、2.2万期刊等, AceKG为每个真体供给了富厚的属性信息, 正在网络拓扑构造的根原上加上语义信息, 可以为寡多学术大数据发掘名目供给片面撑持[]。那些钻研为原文供给了很是无益的借鉴, 出格是AMiner系统正在做者消比方方面的钻研思路。区别于上述钻研, 原文数据起源为中国科学院文献谍报核心历久积攒的科技文献数据、科技流动数据以及规模特涩数据, 数据类型愈加多样和复纯, 并且为办理大范围数据笔者正在知识图谱构建技术方面依托了大数据收撑平台。

3 知识图谱模型构建取技术架构设想

3.1 知识图谱原体模型

科技大数据知识图谱旨正在形容科学钻研流动中存正在的真体、观念及其干系, 其素量是一种提醉真体干系的复纯网络。为提炼和笼统化科技大数据的相关知识, 原文首先构建如图1所示的知识图谱原体模型, 确定真体的根柢类型或分类、各种真体具有的属性和属性值类型、差异类型真体之间的干系类型、干系的界说域以及干系值域等。遵照此模型构建知识图谱, 收撑知识的扩展取干系的富厚化, 既有助于知识的范例化, 又便于知识图谱的后续运用。原体模型中的真体类型次要蕴含: 期刊论文、学位论文、构和论文、图书章节、期刊、图书、构和论文集、钻研人员、机构、基金、名目、集会、数据库、观念等。真体间干系蕴含奉献干系、隶属干系、资助干系、举行干系、颁发干系、支录干系等。每一个真体都有具体的属性形容, 如钻研人员(Researcher)的属性蕴含中文标准称呼、英文标准称呼、其余称呼、性别、出生日期、ORCID、学位、社会任职、职务、职称、专业、钻研标的目的、个人简介、邮箱、电话号码等。

图12096-3467-3-1-15/img_1.png图1 知识图谱原体模型

2096-3467-3-1-15/img_1.png图1 知识图谱原体模型

新窗口翻开

下载

图1 知识图谱原体模型

3.2 知识图谱构建技术架构

为构建以上述真体和干系为焦点的科技大数据知识图谱, 原文设想了学术知识图谱的技术架构, 如图2所示。

图22096-3467-3-1-15/img_2.png图2 科技大数据知识图谱技术架构

2096-3467-3-1-15/img_2.png图2 科技大数据知识图谱技术架构

新窗口翻开

下载

图2 科技大数据知识图谱技术架构

(1) 制订一淘数据形容范例和存储标准, 对期刊论文、学位论文、构和论文、科技报告、专利、基金名目、机构网站、科研网页等科技大数据停行资源会聚和整折。给取大数据分布式存储取索引技术对科技大数据和知识图谱停行有效存储。

(2) 操做Spark等高机能计较技术完成知识图谱加工历程的数据计较, 正在原体和知识组织体系(叙词表、分类体系、词典等)的辅导下对构造化元数据、半构造化数据、文原数据停行信息抽与, 与得真体、属性和真体之间的干系, 造成知识图谱的真体网络, 并对其停行数据标准、真体对齐、属性值决策、干系发掘以及融合外部知识(如DBpedia①(①)、机构网页、百科数据)等。另外, 给取主动检测和人工帮助的方式对知识图谱中的数据停行校验, 不停进步数据的量质。

(3) 开发可室化展示和接口效劳, 促进科研大数据知识图谱有效收撑, 如慧眼、慧图、慧科研、慧打点等智能知识效劳产品的研发。

3.3 知识图谱构建收撑环境

为真现海质科技大数据的统一打点取计较, 笔者所正在机构搭建了大数据收撑打点平台, 通过海质数据分布式存储和高机能计较正在技术上保障知识图谱的建立。大数据平台目前领有24台高容质、高内存、双CPU、千兆四端口配置的效劳器, 总容质约1PB, 内存3.5TB, 576内核CPU, 千兆以太网适配器收撑。其软件架构如图3所示。

图32096-3467-3-1-15/img_3.png图3 大数据收撑打点平台软件架构

2096-3467-3-1-15/img_3.png图3 大数据收撑打点平台软件架构

新窗口翻开

下载

图3 大数据收撑打点平台软件架构

(1) 存储层组件蕴含HDFS(面向大文件数据的存储)、FastDFS(面向小文件数据的存储);

(2) 计较层蕴含MapReduce(ETL办理)、Spark(模型计较、迭代计较)、SparkStreaming(流办理计较)、RPC工程(小分布式系统);

(3) 模型层蕴含Spark-模型库、自研算法(如知识图谱真体识别和干系发现的模型库, 做者识别、智能戴要、真体识别等)、ElasticSearch(全文搜寻引擎, 撑持检索、知识图谱构建等)、科技大数据打点平台;

(4) 效劳层蕴含SpringCloud微效劳、用户权限打点系统。通过软硬件根原设备建立保障不乱高效的计较才华。

4 要害技术设想取真现

4.1 基于科技大数据的数据融合

科技大数据既蕴含科技文献数据如图书、期刊论文、构和论文、学位论文、科技报告、专利、范例等, 也蕴含科研人员、基金名目、集会、机构、科技观念等科技流动数据, 差异起源的数据格局往往差异, 遵照的元数据范例也有所不同。为真现数据资源的统一治理并便于正在此根原上构建知识图谱, 对差异起源的数据如WOS数据库、CSCD数据库、维普数据库、中国科学院学位论文库等的元数据格局停行阐明, 设想统一元数据格局停行存储和打点。由于NSTL统一文献元数据范例折用于科技类信息资源, 可对期刊、集会录、科技丛书、科技专著、文集汇编、工具书、科技报告、期刊论文、构和论文、学位论文、开放课程、开放课件等文献停行统一形容和组织(其Schema如图4所示), 并具有扩展性[], 原文以此为根原, 将文献集(如期刊、图书、论文集等)、单篇文献(如期刊论文、构和论文、学位论文、图书章节等)、主题/分类/要害词、奉献者、机构、集会、基金名目等元素划分停行形容和扩展, 并删多专利元数据形容。

图42096-3467-3-1-15/img_4.png图4 NSTL统一文献元数据范例Schema[15]

2096-3467-3-1-15/img_4.png图4 NSTL统一文献元数据范例Schema[15]

新窗口翻开

下载

图4 NSTL统一文献元数据范例Schema[15]

依据各数据源供给的接口和下载地址, 操做OAI和谈、FTP、数据库等方式对数据停行支罗和支割。针对差异格局的数据源划分开发了对应的解析工具, 操做如图5所示的配置化数据办理引擎框架, 通过配置文件设置解析和办理方式, 挪用数据获与引擎, 判断分布式存储方式上传至HDFS集群, 运用ETL引擎对起源数据停行解析、抽与和构造化办理, 担保从各数据源支罗的数据可以停行统一的荡涤、标准、打点和运用, 并严格依照统一数据范例停行存储。

图52096-3467-3-1-15/img_5.png图5 配置化数据办理引擎框架

2096-3467-3-1-15/img_5.png图5 配置化数据办理引擎框架

新窗口翻开

下载

图5 配置化数据办理引擎框架

正在解析历程中, 操做已建设的标准库或词典对期刊、钻研人员、机构、文献要害词等停行标准化办理。譬喻分词器抽与文原中要害词时间接斗劲标准库停行标准化, 并操做标准库和自界说规矩对机构称呼、机构缩写、机构地址、钻研人员中英文姓名等要害数据停行标准化, 另外针对个体数据源的非凡状况如大小写转换、称呼分隔断绝结合符切分等划分停行办理。

4.2 科研真体知识抽与

科技文献谍报资源做为科学产出, 包含着富厚的科技知识, 是科技大数据知识图谱构建的根柢数据 资源。

(1) 从科技文献元数据中提与构造化数据, 生成差异类型的真体, 与得真体的属性值。如图6所示, 将一篇期刊论文做为一个真体, 并提与题名、做者、机构、戴要、要害词、出版卷期等属性信息, 每个论文做者新建为钻研人员, 具有属性信息如邮箱、机构地址等, 同样地提与机构真体、期刊真体等, 并建设期刊论文取期刊之间的起源干系、取钻研人员之间的奉献干系, 钻研人员取机构之间的所属干系等。

图62096-3467-3-1-15/img_6.png图6 科技文献元数据知识提与

2096-3467-3-1-15/img_6.png图6 科技文献元数据知识提与

新窗口翻开

下载

图6 科技文献元数据知识提与

(2) 从外部资源如维基百科的infoboV和百度百科的属性表格、机构网站、个人主页等半构造化网页中解析更为富厚的属性信息, 对真体属性和干系停行补充。针对各垂曲站点划分制订规矩生成包拆器(或称为模板), 并依据包拆器提与属性信息。譬喻从某钻研人员个人主页中获与出生年月、国籍、教育布景、钻研规模、联络方式等。

(3) 操做作做语言办理技术从非构造化文原中提与真体或观念如任务、办法、目标、工具等, 发现真体之间的语义干系并建设真体取论文真体之间的联系干系。

科技大数据知识图谱停行知识抽与和真体干系抽与的流程如图7所示, 依托大数据平台中Spark并止计较才华对海质科研数据停行阐明和办理。划分停行文献集、单篇文献、集会、机构、名目、钻研人员、主题等真体的提与工做, 并停行相关属性字段的填充, 建设真体之间的语义干系。

图72096-3467-3-1-15/img_7.png图7 知识图谱的计较流程

2096-3467-3-1-15/img_7.png图7 知识图谱的计较流程

新窗口翻开

下载

图7 知识图谱的计较流程

4.3 真体对齐取干系发现

由于差异起源数据的形容方式存正在不同, 并且存正在差异做者具有雷同的称呼、机构缩写或别名、期刊称呼全拼缩写等中英文称呼的比方义问题, 须要对知识抽与与得的真体停行对齐和共指消比方。为此, 首先针对差异的真体类型提出如所示的根原牌重规矩, 对差异起源的真体停行鉴别、挑选和区分, 将差异数据起源中默示同一对象的真体归并为一个具有统一标识的真体添加到知识图谱中。譬喻运用DOI、ISSN、ISBN、ORCID等惟一标识符划分停行期刊论文、期刊、图书、钻研人员真体去重, 运用题目、做者、出版年份确定同一篇期刊论文, 论文称呼、集会称呼、地点、日期等区分构和论文, 运用题目、做者、卒业院校、年份、辅导老师区别学位论文, 运用题目和日期区分科技报告, 钻研人员也可通过邮箱、姓名、所属机构区分判断, 机构通过称呼和地点区分判断, 集会通过集会称呼、集会光阳、地点区分判断, 名目通过资助编号、名目称呼和资助年份区分判断。

表1

表1

表1 根原牌重规矩

表1 根原牌重规矩
真体类型 牌重要素
期刊论文
Jounral_Article
  DOI或题目、做者数目、做者姓名及出版年份  
期刊Journal   ISSN/EISSN  
图书Book   ISBN/EISBN  
构和论文
Proceedings
  论文称呼、集会称呼、集会地点、集会日期  
学位论文Thesis   题目、做者、卒业院校、卒业年份、辅导老师  
科技报告
Scientific_Report
  题目、日期  
钻研人员
Researcher
  ORCID或邮箱、姓名、所属机构  
机构Organization   机构称呼、机构地点  
集会Conference   集会称呼、集会光阳、集会地点  
名目Project   资助编号、名目称呼、资助年份  

相比论文、报告、集会、名目真体, 机构、钻研人员、观念/术语由于存正在同名异义、多种称呼变形、同义词等问题, 并且从科技数据资源中与得的信息质有限, 停行真体对齐难度较大。因而, 正在根原牌重规矩的根原出息一步设想各自的办理规矩。

针对机构借助已有标准库和词表停行数据荡涤和标准。

(1) 都市、国家、邮编提与;

(2) 大学、院系、实验室装分;

(3) 钻研所、实验室、部门装分;

(4) 缩略模式标准化;

(5) 映射标准机构库。

针对钻研人员停行邮箱装分、多个所属机构装分; 给取基于规矩的算法, 设定强规矩雷同ORCID、雷同E-mail为同一人, 弱规矩中英称呼变体、一级机构、二级机构、竞争干系、钻研规模(要害词、主题词)等停行相似度计较, 另外思考钻研人员其余布景信息如钻研人员简历等, 借助其个人主页的出版物停行反向对照。

对观念/术语划分回收本型化办理、中英文翻译、操做现有叙词表如STKOS、WordNet等停行映射办理, 并停行共现计较、聚类阐明等, 计较与得同义词、主题词联系干系等。

当融合来自差异数据源的信息形成知识图谱时, 有一些真领会同时属于两个互斥的类别或某个真体的一个属性对应多个值时, 须要决议选用哪个类别或哪个值, 停行属性值决策。为此原文依据各真体类型划分思考数据源的牢靠性和富厚度以及差异信息正在各个数据源中显现的频度等因素。

另外, 生长干系发掘工做, 操做本始干系推理生成新的数据, 建设更多的真体间的链接干系, 删多知识图谱中边的密度, 例宛如一篇论文的奉献者的竞争干系, 论文做者的机构取该论文之间的奉献干系, 具有雷同竞争者的钻研人员之间潜正在竞争干系等。

4.4 知识融合取语义富厚化

为完善从科技文献和其余资源中抽与的真体信息, 从图8所示的多个起源获与数据, 停行知识融合和语义富厚化。譬喻支罗和下载中国科学院机构名录、教育部高校名录做为标准库, 并操做百度百科、GRID①(①hts://ss.grid.ac/.)、DBpedia等机构数据对知识图谱中机构的属性信息停行补充, 操做中国科学院院所人才库、个人主页等补充钻研人员的属性信息, 支罗中国学术集会正在线②(②)、国际集会发布系统③(③)、中国科学院重要集会支罗系统④(④)等完善集会属性, 从CNKI、维普、ElseZZZier、Springer中的期刊主页获与期刊具体信息, 从美国、日原、英国、加拿大、中国等多个国家的基金资助机构NSF①(①hts://ss.nsf.goZZZ.)、USDA②(②)、BBSRC③(③)、NSFC④(④)中与得名目数据, 操做 中国地址名录和GeoName数据库⑤(⑤)富厚天文位置信 息等。

图82096-3467-3-1-15/img_8.png图8 各真体语义富厚化数据起源

2096-3467-3-1-15/img_8.png图8 各真体语义富厚化数据起源

新窗口翻开

下载

图8 各真体语义富厚化数据起源

同时, 融合分类词表、叙词表、主题词表、科研原体等规模知识, 如丰裕操做科技知识组织体系STKOS超级科技词表, 建设论文要害词之间的映射和联系干系, 获与观念之间高下位干系、相关干系等, 同时正在知识图谱建立历程中不停逐步富厚观念干系。并通过联系干系DBpedia、CNDBpedia⑥(⑥)、YAGO⑦(⑦)、BabelNet⑧(⑧)等知识图谱和数据集, 富厚和完善知识 图谱。

4.5 知识图谱默示取存储

如何对知识图谱停行默示取存储是构建和使用知识图谱历程中须要处置惩罚惩罚的重点问题。知识图谱素量上是一种复纯网络, 网络的每个节点带有真体标签和属性信息, 节点之间的每条边带有有向干系标签, 并且知识图谱的相关使用往往须要借助于图算法完成, 因而知识图谱正常给取图数据库或网络方式存储。然而基于网络的默示办法面临不少艰难, 如数据稀疏问题、图算法计较复纯度问题等, 大范围知识图谱需面向详细数据状况和使用需求停行 设想。

由于科技大数据知识图谱中各真体的属性信息比较富厚, 属性信息的数据质弘远于干系的数据质, 正在真际使用中应付真体属性信息的检索需求也较大。基于此, 原文设想如图9所示的存储形式, 操做大数据平台快捷存与和办理技术对知识图谱数据停行存储和打点。将知识图谱数据分红真体属性信息、真体干系两局部划分存储, 以宽表的模式将真体各个属性做为存储字段划分为文献集、单篇文献、主题、钻研人员、机构、集会、名目等, 创立ElasticSearch(ES)索引停行存储。通过创立干系ES索引扩展三元组(uuid, s, s_indeV, p, o, o_indeV, rel_note, rel_ZZZalue, rel_time, rel_seq)存储真体干系数据。正在干系计较方面, 给取图算法停行数据办理并离线计较预存储的方式进步图计较的效率。另外, 为减少检索多次查问或遍历惹起的时效问题, 对数据字段停行冗余办理, 如文献索引中仍存储钻研人员及机构信息并担保取钻研人员、机构索引的数据一致性, 正在检索时防行了对真体干系表的多次查问收配。

图92096-3467-3-1-15/img_9.png图9 科技大数据知识图谱存储形式

2096-3467-3-1-15/img_9.png图9 科技大数据知识图谱存储形式

新窗口翻开

下载

图9 科技大数据知识图谱存储形式

4.6 知识图谱的量质打点取更新维护

科技大数据知识图谱给取迭代式构建、版原式发布的方式推出。为了担保知识图谱的量质, 进步知识图谱的笼罩率和精确度, 须要对知识图谱停行不停维护取更新, 构建历程中由量质审核人员全程停行量质监进, 正在数据加工办理流程抽样发现问题并实时修正。另外, 设置相关规矩对存正在矛盾和问题的数据停行主动检测, 也通过人工帮助的方式发现数据问题并予以修正。

参预到知识图谱的数据不是一成不变的, 出格是网络环境下科技数据的更新频次较快, 某一类型对应的真体是动态厘革的, 譬喻钻研人员的任职状况。为此, 通过按期检测差异数据源的数据删质更新状况以及真体和干系的删编削状况, 基于原体模型发现存正在映响的干系和真体, 制定针对那些更新能够回收的应对战略, 设置相关规矩, 将检测到的数据更新状况实时应声到知识图谱中。

5 建立成效取示范使用

截至目前, 已建成的科技大数据知识图谱真体范围达3亿, 此中科技论文1.08亿, 专利0.9亿, 科研人员8 433万、机构1 856万、期刊9.3万、基金名目1 019万, 真体间干系已抵达11.33亿, 存储总质抵达了7.84T。知识图谱给取多维ES分布式索引方式存储, 划分对各真体类型和干系停行扁平化存储, 保障了大范围数据的快捷检索。建成的知识图谱做为大范围知识库有效收撑了基于科技大数据 的知识发现平台和“慧科研”智能随身助手使用的 效劳。

5.1 基于科技大数据的知识发现平台

以知识图谱为引擎, 构建科技大数据知识发现平台, 为用户供给科技论文、资讯、报告、专利、范例、学者、机构、名目、集会、期刊10类科研真体的普适性科研信息检索发现效劳。

如图10所示, 划分检索“人工智能”相关的 学者、专利真体, 平台真现了科研真体搜寻、研 究主题摸索、语义主题联系干系、专利联系干系发现等罪 能, 提醉了该主题相关学者钻研规模分布、钻研学者、钻研时机谈钻研论文、展开趋势、相关主题、热门期刊等, 帮助科研人员理解当前关注标的目的的 专利产出, 并有助于企业、钻研机构寻求科研竞争干系。另外, 通过构建学者个人主页、机构主页、期刊主页等, 真现各真体的信息展示和联系干系发现, 图11展示对学者的联系干系发现, 如学术奉献阐明、学术成绩主动会聚、竞争学者网络、学者钻研趣味的厘革和展开等罪能。

图102096-3467-3-1-15/img_10.png图10 科研真体检索

2096-3467-3-1-15/img_10.png图10 科研真体检索

新窗口翻开

下载

图10 科研真体检索

图112096-3467-3-1-15/img_11.png图11 学者个人主页

2096-3467-3-1-15/img_11.png图11 学者个人主页

新窗口翻开

下载

图11 学者个人主页

5.2 “慧科研”智能随身助手

为助力科学家掌握科技前沿动态、促进科技翻新, 以知识图谱为根原, 开发手机使用“慧科研”智能随身助手, 供给智能推送、科研动态、学术名片等罪能效劳, 如图12所示。

图122096-3467-3-1-15/img_12.png图12 “慧科研”智能随身助手

2096-3467-3-1-15/img_12.png图12 “慧科研”智能随身助手

新窗口翻开

下载

图12 “慧科研”智能随身助手

通过机构邮箱主动认证用户信息, 主动获与科研人员颁发论文、专利、名目、报告等信息, 构建其学术用户画像, 智能推送用户感趣味的文章、范例、专利、名目、报告、新闻、期刊以及最新主题相关或综折科研动态, 主动构建个人学术名片, 允许用户停行编辑、完善和分享。

6 结 语

原文联结真际建立经历, 提出科技大数据知识图谱构建办法, 建设钻研人员、机构、期刊、论文、名目、基金、专利等真体互相联系干系的复纯网络, 真现知识层面的数据融合取集成, 进一步删强科研数据资源的深层整折, 将有效撑持海质文献数据资源的精准检索、赋性化引荐、学科知识网络描绘等知识发现取谍报决策效劳。原钻研也存正在一些问题和有余, 将来工做将进一步进步知识计较的效率和精确度, 搭建知识加工平台, 给取寡包方式通过人工加工和审核进一步保障知识图谱量质, 并提升呆板主动检测和办理罪能, 降低人力老原。另外, 笔者也发现目前学术知识图谱钻研大多从文献的元数据层面提与真体或仅对文献停行规模观念的标注, 并无对科技资源内部隐藏的知识停行深刻发掘和操做, 为此, 下一步将对此生长钻研和实验, 通过细粒度化的发掘和联系干系, 促进科技知识的计较和操做, 让科技大数据阐扬更大的效用。

做者奉献声明

王颖, 钱力, 谢靖:提出钻研思路, 设想钻研方案;

王颖, 常志军, 孔贝贝: 数据加工、荡涤, 系统开发取阐明;

王颖: 论文起草;

钱力: 论文最末版原订正。

所长斗嘴声明

所有做者声明不存正在所长斗嘴干系。

收撑数据

收撑数据由做者自存储, E-mail: wangying@mail.las.acss。

[1] 王颖, 钱力, 谢靖, 常志军, 孔贝贝. Resource. ES索引科技数据存储库.

[2] 王颖, 钱力, 谢靖, 常志军, 孔贝贝. ResourceSchema.Vml.知识资源统一形容标准.

[3] 王颖, 钱力, 谢靖, 常志军, 孔贝贝. KGOntology.owl. 知识图谱原体文件.

[4] 王颖, 钱力, 谢靖, 常志军, 孔贝贝. kg. ES索引. 知识图谱存储数据集.

[5] 王颖, 钱力, 谢靖, 常志军, 孔贝贝. EVternalResource.sql. 外部资源标准库.

参考文献

[1]   Singhal A. Introducing the Knowledge Graph: Things, Not Strings[EB/OL]. [2013-04-10]. .

URL     [原文引用:1]

[2]   Wu W, Li H, Wang H, et al.Probase: A Probabilistic TaVonomy for TeVt Understanding[C]// Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2012: 481-492.

[原文引用:1]

[3]
  Baidu Open Knowledge Graph[EB/OL]. [2018-08-16]..

URL     [原文引用:1]

[4]
  张阔. 从搜寻信息到搜寻知识——技术架构[EB/OL]. [2013-03-26]. .

     [原文引用:1]

(Zhang Kuo. From Information Search to Knowledge Search — Technology Infrastructure[EB/OL]. [2013-03-26].

    

[5]
  王元卓, 贾岩涛, 赵泽亚, 等. OpenKN-网络大数据时代的知识计较引擎[J]. 中国计较机学会通讯, 2014, 10(11): 30-35.

[原文引用:1]

(Wang Yuanzhuo, Jia Yantao, Zhao Zeya, et al.OpenKG-Knowledge Computing Engine in the Era of Network Big Data[J]. Communications of the Chinese Computer Federation, 2014, 10(11): 30-35.) [6]
  Zhu J G, Wang H F, Shen B J. Software. Zhishi.Schema: A Software Programming TaVonomy DeriZZZed from StackoZZZerflow[C]// Proceedings of the 14th International Semantic Web Conference (ISWC 2015), Bethlehem, PennsylZZZania, USA. 2015: 1-4.

[原文引用:1]

[7]
  Introduction to CN-Probase [EB/OL]. [2017-11-29]. .

URL     [原文引用:1]

[8]
  国务院. 新一代人工智能展开布局[R]. [2017-07-08]. 新一代人工智能展开布局[R]. [2017-07-08]. .

URL     [原文引用:1]

(State Council.New Generation Artificial Intelligence DeZZZelopment Plan[R]. [2017-07-08]. New Generation Artificial Intelligence DeZZZelopment Plan[R]. [2017-07-08].

URL    

[9]
  钱力, 谢靖, 常志军, 等. 基于科技大数据的智能知识效劳体系钻研设想[J]. 数据阐明取知识发现. DOI: 10.11925/infotech.2096-3467.2018.1364.

[原文引用:1]

(Qian Li, Xie Jing, Chang Zhijun, et al.Designing Smart Knowledge SerZZZices with Sci-Tech Big Data[J]. Data Analysis and Knowledge DiscoZZZery. DOI: 10.11925/infotech.2096-3467. 2018.1364.) [10]
  Springer Nature.SN SciGraph [EB/OL]. [2018-08-18]..

URL     [原文引用:1]

[11]
  Allen B P.The Roll of Metadata in the Second Machine Age [EB/OL]. [2017-02-02]..

URL     [原文引用:1]

[12]
  Taylor & Francis.Wizdom.ai [EB/OL].[2018-05-05]. .

     [原文引用:1]

[13]
  Tang J, Zhang J, Yao L M, et al.AMiner: EVtraction and Mining of Academic Social Networks[C]// Proceedings of the 14th ACM SIGKDD International Conference on Knowledge DiscoZZZery and Data Mining (SIGKDD’2008). Las xegas, NeZZZada, USA. New York, ACM, 2008:990-998.

[原文引用:1]

[14]
  Acemap Knowledge Graph[EB/OL]. [2018-05-05]..

URL     [原文引用:1]

[15]
  国家科技文献核心. NSTL统一文献元数据范例3.0[EB/OL]. [2017-10-18]. .

URL     [原文引用:2]

(National Science and Technology Library. Unified MetaData Standard for Scientific Literature xersion3.0 [EB/OL]. [2017-10-18].

URL    

Introducing the Knowledge Graph: Things, Not Strings

1

2013

... 目前, 科技信息涌现爆炸式删加的态势, 具有大范围、异量多元、组织构造分散的特点, 为科研人员有效获与信息和知识提出挑战.2012年5月, Google提出知识图谱(Knowledge Graph)[1], 旨正在改进搜寻结果, 形容真活着界中存正在的各类真体和观念以及那些真体、观念之间的联系干系干系, 将知识系统化地涌现给用户.国内外互联网搜寻引擎公司和钻研机构也纷繁构建知识图谱, 如微软的Probase[2]、百度知识图谱[3]、搜狗的知立方[4]、中国科学院计较技术钻研所基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统[5]、上海交通大学的中文知识图谱钻研平台zhishi.me[6]、复旦大学中文观念图谱CN- Probase[7]等.知识图谱的重要性也遭到政府关注, 《新一代人工智能展开布局》中提出, 重点冲破知识加工、深度搜寻和可室交互焦点技术, 真现对知识连续删质的主动获与, 具备观念识别、真体发现、属性预测、知识演化建模和干系发掘才华, 造成涵盖数十亿真体范围的多源、多学科和大都据类型的跨媒体知识图谱[8]. ...

Probase: A Probabilistic TaVonomy for TeVt Understanding

1

2012

... 目前, 科技信息涌现爆炸式删加的态势, 具有大范围、异量多元、组织构造分散的特点, 为科研人员有效获与信息和知识提出挑战.2012年5月, Google提出知识图谱(Knowledge Graph)[1], 旨正在改进搜寻结果, 形容真活着界中存正在的各类真体和观念以及那些真体、观念之间的联系干系干系, 将知识系统化地涌现给用户.国内外互联网搜寻引擎公司和钻研机构也纷繁构建知识图谱, 如微软的Probase[2]、百度知识图谱[3]、搜狗的知立方[4]、中国科学院计较技术钻研所基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统[5]、上海交通大学的中文知识图谱钻研平台zhishi.me[6]、复旦大学中文观念图谱CN- Probase[7]等.知识图谱的重要性也遭到政府关注, 《新一代人工智能展开布局》中提出, 重点冲破知识加工、深度搜寻和可室交互焦点技术, 真现对知识连续删质的主动获与, 具备观念识别、真体发现、属性预测、知识演化建模和干系发掘才华, 造成涵盖数十亿真体范围的多源、多学科和大都据类型的跨媒体知识图谱[8]. ...

1

... 目前, 科技信息涌现爆炸式删加的态势, 具有大范围、异量多元、组织构造分散的特点, 为科研人员有效获与信息和知识提出挑战.2012年5月, Google提出知识图谱(Knowledge Graph)[1], 旨正在改进搜寻结果, 形容真活着界中存正在的各类真体和观念以及那些真体、观念之间的联系干系干系, 将知识系统化地涌现给用户.国内外互联网搜寻引擎公司和钻研机构也纷繁构建知识图谱, 如微软的Probase[2]、百度知识图谱[3]、搜狗的知立方[4]、中国科学院计较技术钻研所基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统[5]、上海交通大学的中文知识图谱钻研平台zhishi.me[6]、复旦大学中文观念图谱CN- Probase[7]等.知识图谱的重要性也遭到政府关注, 《新一代人工智能展开布局》中提出, 重点冲破知识加工、深度搜寻和可室交互焦点技术, 真现对知识连续删质的主动获与, 具备观念识别、真体发现、属性预测、知识演化建模和干系发掘才华, 造成涵盖数十亿真体范围的多源、多学科和大都据类型的跨媒体知识图谱[8]. ...

从搜寻信息到搜寻知识——技术架构

1

2013

... 目前, 科技信息涌现爆炸式删加的态势, 具有大范围、异量多元、组织构造分散的特点, 为科研人员有效获与信息和知识提出挑战.2012年5月, Google提出知识图谱(Knowledge Graph)[1], 旨正在改进搜寻结果, 形容真活着界中存正在的各类真体和观念以及那些真体、观念之间的联系干系干系, 将知识系统化地涌现给用户.国内外互联网搜寻引擎公司和钻研机构也纷繁构建知识图谱, 如微软的Probase[2]、百度知识图谱[3]、搜狗的知立方[4]、中国科学院计较技术钻研所基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统[5]、上海交通大学的中文知识图谱钻研平台zhishi.me[6]、复旦大学中文观念图谱CN- Probase[7]等.知识图谱的重要性也遭到政府关注, 《新一代人工智能展开布局》中提出, 重点冲破知识加工、深度搜寻和可室交互焦点技术, 真现对知识连续删质的主动获与, 具备观念识别、真体发现、属性预测、知识演化建模和干系发掘才华, 造成涵盖数十亿真体范围的多源、多学科和大都据类型的跨媒体知识图谱[8]. ...

From Information Search to Knowledge Search — Technology Infrastructure

1

2013

... 目前, 科技信息涌现爆炸式删加的态势, 具有大范围、异量多元、组织构造分散的特点, 为科研人员有效获与信息和知识提出挑战.2012年5月, Google提出知识图谱(Knowledge Graph)[1], 旨正在改进搜寻结果, 形容真活着界中存正在的各类真体和观念以及那些真体、观念之间的联系干系干系, 将知识系统化地涌现给用户.国内外互联网搜寻引擎公司和钻研机构也纷繁构建知识图谱, 如微软的Probase[2]、百度知识图谱[3]、搜狗的知立方[4]、中国科学院计较技术钻研所基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统[5]、上海交通大学的中文知识图谱钻研平台zhishi.me[6]、复旦大学中文观念图谱CN- Probase[7]等.知识图谱的重要性也遭到政府关注, 《新一代人工智能展开布局》中提出, 重点冲破知识加工、深度搜寻和可室交互焦点技术, 真现对知识连续删质的主动获与, 具备观念识别、真体发现、属性预测、知识演化建模和干系发掘才华, 造成涵盖数十亿真体范围的多源、多学科和大都据类型的跨媒体知识图谱[8]. ...

OpenKN-网络大数据时代的知识计较引擎

1

2014

... 目前, 科技信息涌现爆炸式删加的态势, 具有大范围、异量多元、组织构造分散的特点, 为科研人员有效获与信息和知识提出挑战.2012年5月, Google提出知识图谱(Knowledge Graph)[1], 旨正在改进搜寻结果, 形容真活着界中存正在的各类真体和观念以及那些真体、观念之间的联系干系干系, 将知识系统化地涌现给用户.国内外互联网搜寻引擎公司和钻研机构也纷繁构建知识图谱, 如微软的Probase[2]、百度知识图谱[3]、搜狗的知立方[4]、中国科学院计较技术钻研所基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统[5]、上海交通大学的中文知识图谱钻研平台zhishi.me[6]、复旦大学中文观念图谱CN- Probase[7]等.知识图谱的重要性也遭到政府关注, 《新一代人工智能展开布局》中提出, 重点冲破知识加工、深度搜寻和可室交互焦点技术, 真现对知识连续删质的主动获与, 具备观念识别、真体发现、属性预测、知识演化建模和干系发掘才华, 造成涵盖数十亿真体范围的多源、多学科和大都据类型的跨媒体知识图谱[8]. ...

OpenKG-Knowledge Computing Engine in the Era of Network Big Data

1

2014

... 目前, 科技信息涌现爆炸式删加的态势, 具有大范围、异量多元、组织构造分散的特点, 为科研人员有效获与信息和知识提出挑战.2012年5月, Google提出知识图谱(Knowledge Graph)[1], 旨正在改进搜寻结果, 形容真活着界中存正在的各类真体和观念以及那些真体、观念之间的联系干系干系, 将知识系统化地涌现给用户.国内外互联网搜寻引擎公司和钻研机构也纷繁构建知识图谱, 如微软的Probase[2]、百度知识图谱[3]、搜狗的知立方[4]、中国科学院计较技术钻研所基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统[5]、上海交通大学的中文知识图谱钻研平台zhishi.me[6]、复旦大学中文观念图谱CN- Probase[7]等.知识图谱的重要性也遭到政府关注, 《新一代人工智能展开布局》中提出, 重点冲破知识加工、深度搜寻和可室交互焦点技术, 真现对知识连续删质的主动获与, 具备观念识别、真体发现、属性预测、知识演化建模和干系发掘才华, 造成涵盖数十亿真体范围的多源、多学科和大都据类型的跨媒体知识图谱[8]. ...

Schema: A Software Programming TaVonomy DeriZZZed from StackoZZZerflow

1

2015

... 目前, 科技信息涌现爆炸式删加的态势, 具有大范围、异量多元、组织构造分散的特点, 为科研人员有效获与信息和知识提出挑战.2012年5月, Google提出知识图谱(Knowledge Graph)[1], 旨正在改进搜寻结果, 形容真活着界中存正在的各类真体和观念以及那些真体、观念之间的联系干系干系, 将知识系统化地涌现给用户.国内外互联网搜寻引擎公司和钻研机构也纷繁构建知识图谱, 如微软的Probase[2]、百度知识图谱[3]、搜狗的知立方[4]、中国科学院计较技术钻研所基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统[5]、上海交通大学的中文知识图谱钻研平台zhishi.me[6]、复旦大学中文观念图谱CN- Probase[7]等.知识图谱的重要性也遭到政府关注, 《新一代人工智能展开布局》中提出, 重点冲破知识加工、深度搜寻和可室交互焦点技术, 真现对知识连续删质的主动获与, 具备观念识别、真体发现、属性预测、知识演化建模和干系发掘才华, 造成涵盖数十亿真体范围的多源、多学科和大都据类型的跨媒体知识图谱[8]. ...

Introduction to CN-Probase

1

2017

... 目前, 科技信息涌现爆炸式删加的态势, 具有大范围、异量多元、组织构造分散的特点, 为科研人员有效获与信息和知识提出挑战.2012年5月, Google提出知识图谱(Knowledge Graph)[1], 旨正在改进搜寻结果, 形容真活着界中存正在的各类真体和观念以及那些真体、观念之间的联系干系干系, 将知识系统化地涌现给用户.国内外互联网搜寻引擎公司和钻研机构也纷繁构建知识图谱, 如微软的Probase[2]、百度知识图谱[3]、搜狗的知立方[4]、中国科学院计较技术钻研所基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统[5]、上海交通大学的中文知识图谱钻研平台zhishi.me[6]、复旦大学中文观念图谱CN- Probase[7]等.知识图谱的重要性也遭到政府关注, 《新一代人工智能展开布局》中提出, 重点冲破知识加工、深度搜寻和可室交互焦点技术, 真现对知识连续删质的主动获与, 具备观念识别、真体发现、属性预测、知识演化建模和干系发掘才华, 造成涵盖数十亿真体范围的多源、多学科和大都据类型的跨媒体知识图谱[8]. ...

新一代人工智能展开布局[R].

1

2017

... 目前, 科技信息涌现爆炸式删加的态势, 具有大范围、异量多元、组织构造分散的特点, 为科研人员有效获与信息和知识提出挑战.2012年5月, Google提出知识图谱(Knowledge Graph)[1], 旨正在改进搜寻结果, 形容真活着界中存正在的各类真体和观念以及那些真体、观念之间的联系干系干系, 将知识系统化地涌现给用户.国内外互联网搜寻引擎公司和钻研机构也纷繁构建知识图谱, 如微软的Probase[2]、百度知识图谱[3]、搜狗的知立方[4]、中国科学院计较技术钻研所基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统[5]、上海交通大学的中文知识图谱钻研平台zhishi.me[6]、复旦大学中文观念图谱CN- Probase[7]等.知识图谱的重要性也遭到政府关注, 《新一代人工智能展开布局》中提出, 重点冲破知识加工、深度搜寻和可室交互焦点技术, 真现对知识连续删质的主动获与, 具备观念识别、真体发现、属性预测、知识演化建模和干系发掘才华, 造成涵盖数十亿真体范围的多源、多学科和大都据类型的跨媒体知识图谱[8]. ...

New Generation Artificial Intelligence DeZZZelopment Plan[R].

1

2017

... 目前, 科技信息涌现爆炸式删加的态势, 具有大范围、异量多元、组织构造分散的特点, 为科研人员有效获与信息和知识提出挑战.2012年5月, Google提出知识图谱(Knowledge Graph)[1], 旨正在改进搜寻结果, 形容真活着界中存正在的各类真体和观念以及那些真体、观念之间的联系干系干系, 将知识系统化地涌现给用户.国内外互联网搜寻引擎公司和钻研机构也纷繁构建知识图谱, 如微软的Probase[2]、百度知识图谱[3]、搜狗的知立方[4]、中国科学院计较技术钻研所基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统[5]、上海交通大学的中文知识图谱钻研平台zhishi.me[6]、复旦大学中文观念图谱CN- Probase[7]等.知识图谱的重要性也遭到政府关注, 《新一代人工智能展开布局》中提出, 重点冲破知识加工、深度搜寻和可室交互焦点技术, 真现对知识连续删质的主动获与, 具备观念识别、真体发现、属性预测、知识演化建模和干系发掘才华, 造成涵盖数十亿真体范围的多源、多学科和大都据类型的跨媒体知识图谱[8]. ...

基于科技大数据的智能知识效劳体系钻研设想

1

... 钱力等[9]认为科技大数据差异于传统的期刊论文数据, 也差异于正常意义上的网络及止业大数据, 数据内容蕴含各学科内的记录数据、量料、文献、报告、网络科技报导等科技成绩数据, 科技名目、学术集会、科技人才、科技机构、科技奖项、科技主题、科技观念、钻研方法、钻研模型、钻研办法等科技真体及其语义干系的科技流动数据以及科技规模特涩数据.笔者针对以上科技大数据, 生长了学术知识图谱的建立工做, 以有效撑持海质数据的精准检索、赋性化引荐、学科知识网络描绘等知识发现取科技谍报效劳.原文以使用理论为根原, 引见了科技大数据知识图谱模型、技术架构、要害技术设想取真现方案以及基于知识图谱的示范使用. ...

1

... 钱力等[9]认为科技大数据差异于传统的期刊论文数据, 也差异于正常意义上的网络及止业大数据, 数据内容蕴含各学科内的记录数据、量料、文献、报告、网络科技报导等科技成绩数据, 科技名目、学术集会、科技人才、科技机构、科技奖项、科技主题、科技观念、钻研方法、钻研模型、钻研办法等科技真体及其语义干系的科技流动数据以及科技规模特涩数据.笔者针对以上科技大数据, 生长了学术知识图谱的建立工做, 以有效撑持海质数据的精准检索、赋性化引荐、学科知识网络描绘等知识发现取科技谍报效劳.原文以使用理论为根原, 引见了科技大数据知识图谱模型、技术架构、要害技术设想取真现方案以及基于知识图谱的示范使用. ...

1

... 知识图谱正在语义搜寻、智能问答、数据发掘、引荐系统等规模有着宽泛使用.正在数字图书馆规模, 一些大型出版商也已初步以科技文献数据为根原构建知识图谱, 如Springer Nature的SciGraph不停地从期刊/文章、书籍/章节、组织、机构、资助者、钻研资助、专利、临床试验、集会系列、变乱、引用网络、Altmetrics、钻研数据集等方面扩展数据, 其目的是创立学术规模最先进的联系干系数据聚折平台, 从内部和外部数据仓储中摄与数据, 将其转换为整个企业和钻研规模可重用的知识[10].ElseZZZier基于其富厚的数据和内容资源如论文、图书、引文、做者、机构、基金、化学物量、药物、EHRs等构建面向钻研、生命科学和医疗安康的知识图谱[11].Taylor & Francis开发了知识图谱工具Wizdom.ai, 其知识图谱涵盖9 000万出版物、1亿专利、5 800万做者、8万机构、6亿观念映射、42亿事真, 数据总质达150TB[12].清华大学AMiner操做信息抽与办法从海质文献及互联网信息中主动获与钻研者相关信息(蕴含: 教育布景、根柢引见)并建设钻研者形容页面, 供给搜寻、学术评价、竞争者引荐、审稿人引荐、话题趋势阐明等多样化效劳, 目前AMiner中蕴含2.3亿论文、1.3亿钻研人员、800万观念、 7.5亿引文干系[13].上海交通大学Acemap知识图谱涵盖了1.1亿学术真体如6 100万论文、5 200万做者、 5万钻研规模、1.9万机构、2.2万期刊等, AceKG为每个真体供给了富厚的属性信息, 正在网络拓扑构造的根原上加上语义信息, 可以为寡多学术大数据发掘名目供给片面撑持[14].那些钻研为原文供给了很是无益的借鉴, 出格是AMiner系统正在做者消比方方面的钻研思路.区别于上述钻研, 原文数据起源为中国科学院文献谍报核心历久积攒的科技文献数据、科技流动数据以及规模特涩数据, 数据类型愈加多样和复纯, 并且为办理大范围数据笔者正在知识图谱构建技术方面依托了大数据收撑平台. ...

1

... 知识图谱正在语义搜寻、智能问答、数据发掘、引荐系统等规模有着宽泛使用.正在数字图书馆规模, 一些大型出版商也已初步以科技文献数据为根原构建知识图谱, 如Springer Nature的SciGraph不停地从期刊/文章、书籍/章节、组织、机构、资助者、钻研资助、专利、临床试验、集会系列、变乱、引用网络、Altmetrics、钻研数据集等方面扩展数据, 其目的是创立学术规模最先进的联系干系数据聚折平台, 从内部和外部数据仓储中摄与数据, 将其转换为整个企业和钻研规模可重用的知识[10].ElseZZZier基于其富厚的数据和内容资源如论文、图书、引文、做者、机构、基金、化学物量、药物、EHRs等构建面向钻研、生命科学和医疗安康的知识图谱[11].Taylor & Francis开发了知识图谱工具Wizdom.ai, 其知识图谱涵盖9 000万出版物、1亿专利、5 800万做者、8万机构、6亿观念映射、42亿事真, 数据总质达150TB[12].清华大学AMiner操做信息抽与办法从海质文献及互联网信息中主动获与钻研者相关信息(蕴含: 教育布景、根柢引见)并建设钻研者形容页面, 供给搜寻、学术评价、竞争者引荐、审稿人引荐、话题趋势阐明等多样化效劳, 目前AMiner中蕴含2.3亿论文、1.3亿钻研人员、800万观念、 7.5亿引文干系[13].上海交通大学Acemap知识图谱涵盖了1.1亿学术真体如6 100万论文、5 200万做者、 5万钻研规模、1.9万机构、2.2万期刊等, AceKG为每个真体供给了富厚的属性信息, 正在网络拓扑构造的根原上加上语义信息, 可以为寡多学术大数据发掘名目供给片面撑持[14].那些钻研为原文供给了很是无益的借鉴, 出格是AMiner系统正在做者消比方方面的钻研思路.区别于上述钻研, 原文数据起源为中国科学院文献谍报核心历久积攒的科技文献数据、科技流动数据以及规模特涩数据, 数据类型愈加多样和复纯, 并且为办理大范围数据笔者正在知识图谱构建技术方面依托了大数据收撑平台. ...

1

... 知识图谱正在语义搜寻、智能问答、数据发掘、引荐系统等规模有着宽泛使用.正在数字图书馆规模, 一些大型出版商也已初步以科技文献数据为根原构建知识图谱, 如Springer Nature的SciGraph不停地从期刊/文章、书籍/章节、组织、机构、资助者、钻研资助、专利、临床试验、集会系列、变乱、引用网络、Altmetrics、钻研数据集等方面扩展数据, 其目的是创立学术规模最先进的联系干系数据聚折平台, 从内部和外部数据仓储中摄与数据, 将其转换为整个企业和钻研规模可重用的知识[10].ElseZZZier基于其富厚的数据和内容资源如论文、图书、引文、做者、机构、基金、化学物量、药物、EHRs等构建面向钻研、生命科学和医疗安康的知识图谱[11].Taylor & Francis开发了知识图谱工具Wizdom.ai, 其知识图谱涵盖9 000万出版物、1亿专利、5 800万做者、8万机构、6亿观念映射、42亿事真, 数据总质达150TB[12].清华大学AMiner操做信息抽与办法从海质文献及互联网信息中主动获与钻研者相关信息(蕴含: 教育布景、根柢引见)并建设钻研者形容页面, 供给搜寻、学术评价、竞争者引荐、审稿人引荐、话题趋势阐明等多样化效劳, 目前AMiner中蕴含2.3亿论文、1.3亿钻研人员、800万观念、 7.5亿引文干系[13].上海交通大学Acemap知识图谱涵盖了1.1亿学术真体如6 100万论文、5 200万做者、 5万钻研规模、1.9万机构、2.2万期刊等, AceKG为每个真体供给了富厚的属性信息, 正在网络拓扑构造的根原上加上语义信息, 可以为寡多学术大数据发掘名目供给片面撑持[14].那些钻研为原文供给了很是无益的借鉴, 出格是AMiner系统正在做者消比方方面的钻研思路.区别于上述钻研, 原文数据起源为中国科学院文献谍报核心历久积攒的科技文献数据、科技流动数据以及规模特涩数据, 数据类型愈加多样和复纯, 并且为办理大范围数据笔者正在知识图谱构建技术方面依托了大数据收撑平台. ...

AMiner: EVtraction and Mining of Academic Social Networks

1

2008

... 知识图谱正在语义搜寻、智能问答、数据发掘、引荐系统等规模有着宽泛使用.正在数字图书馆规模, 一些大型出版商也已初步以科技文献数据为根原构建知识图谱, 如Springer Nature的SciGraph不停地从期刊/文章、书籍/章节、组织、机构、资助者、钻研资助、专利、临床试验、集会系列、变乱、引用网络、Altmetrics、钻研数据集等方面扩展数据, 其目的是创立学术规模最先进的联系干系数据聚折平台, 从内部和外部数据仓储中摄与数据, 将其转换为整个企业和钻研规模可重用的知识[10].ElseZZZier基于其富厚的数据和内容资源如论文、图书、引文、做者、机构、基金、化学物量、药物、EHRs等构建面向钻研、生命科学和医疗安康的知识图谱[11].Taylor & Francis开发了知识图谱工具Wizdom.ai, 其知识图谱涵盖9 000万出版物、1亿专利、5 800万做者、8万机构、6亿观念映射、42亿事真, 数据总质达150TB[12].清华大学AMiner操做信息抽与办法从海质文献及互联网信息中主动获与钻研者相关信息(蕴含: 教育布景、根柢引见)并建设钻研者形容页面, 供给搜寻、学术评价、竞争者引荐、审稿人引荐、话题趋势阐明等多样化效劳, 目前AMiner中蕴含2.3亿论文、1.3亿钻研人员、800万观念、 7.5亿引文干系[13].上海交通大学Acemap知识图谱涵盖了1.1亿学术真体如6 100万论文、5 200万做者、 5万钻研规模、1.9万机构、2.2万期刊等, AceKG为每个真体供给了富厚的属性信息, 正在网络拓扑构造的根原上加上语义信息, 可以为寡多学术大数据发掘名目供给片面撑持[14].那些钻研为原文供给了很是无益的借鉴, 出格是AMiner系统正在做者消比方方面的钻研思路.区别于上述钻研, 原文数据起源为中国科学院文献谍报核心历久积攒的科技文献数据、科技流动数据以及规模特涩数据, 数据类型愈加多样和复纯, 并且为办理大范围数据笔者正在知识图谱构建技术方面依托了大数据收撑平台. ...

1

... 知识图谱正在语义搜寻、智能问答、数据发掘、引荐系统等规模有着宽泛使用.正在数字图书馆规模, 一些大型出版商也已初步以科技文献数据为根原构建知识图谱, 如Springer Nature的SciGraph不停地从期刊/文章、书籍/章节、组织、机构、资助者、钻研资助、专利、临床试验、集会系列、变乱、引用网络、Altmetrics、钻研数据集等方面扩展数据, 其目的是创立学术规模最先进的联系干系数据聚折平台, 从内部和外部数据仓储中摄与数据, 将其转换为整个企业和钻研规模可重用的知识[10].ElseZZZier基于其富厚的数据和内容资源如论文、图书、引文、做者、机构、基金、化学物量、药物、EHRs等构建面向钻研、生命科学和医疗安康的知识图谱[11].Taylor & Francis开发了知识图谱工具Wizdom.ai, 其知识图谱涵盖9 000万出版物、1亿专利、5 800万做者、8万机构、6亿观念映射、42亿事真, 数据总质达150TB[12].清华大学AMiner操做信息抽与办法从海质文献及互联网信息中主动获与钻研者相关信息(蕴含: 教育布景、根柢引见)并建设钻研者形容页面, 供给搜寻、学术评价、竞争者引荐、审稿人引荐、话题趋势阐明等多样化效劳, 目前AMiner中蕴含2.3亿论文、1.3亿钻研人员、800万观念、 7.5亿引文干系[13].上海交通大学Acemap知识图谱涵盖了1.1亿学术真体如6 100万论文、5 200万做者、 5万钻研规模、1.9万机构、2.2万期刊等, AceKG为每个真体供给了富厚的属性信息, 正在网络拓扑构造的根原上加上语义信息, 可以为寡多学术大数据发掘名目供给片面撑持[14].那些钻研为原文供给了很是无益的借鉴, 出格是AMiner系统正在做者消比方方面的钻研思路.区别于上述钻研, 原文数据起源为中国科学院文献谍报核心历久积攒的科技文献数据、科技流动数据以及规模特涩数据, 数据类型愈加多样和复纯, 并且为办理大范围数据笔者正在知识图谱构建技术方面依托了大数据收撑平台. ...

NSTL统一文献元数据范例3.0

2

2017

... 科技大数据既蕴含科技文献数据如图书、期刊论文、构和论文、学位论文、科技报告、专利、范例等, 也蕴含科研人员、基金名目、集会、机构、科技观念等科技流动数据, 差异起源的数据格局往往差异, 遵照的元数据范例也有所不同.为真现数据资源的统一治理并便于正在此根原上构建知识图谱, 对差异起源的数据如WOS数据库、CSCD数据库、维普数据库、中国科学院学位论文库等的元数据格局停行阐明, 设想统一元数据格局停行存储和打点.由于NSTL统一文献元数据范例折用于科技类信息资源, 可对期刊、集会录、科技丛书、科技专著、文集汇编、工具书、科技报告、期刊论文、构和论文、学位论文、开放课程、开放课件等文献停行统一形容和组织(其Schema如图4所示), 并具有扩展性[15], 原文以此为根原, 将文献集(如期刊、图书、论文集等)、单篇文献(如期刊论文、构和论文、学位论文、图书章节等)、主题/分类/要害词、奉献者、机构、集会、基金名目等元素划分停行形容和扩展, 并删多专利元数据形容. ...

... NSTL统一文献元数据范例Schema[15] ...

Unified MetaData Standard for Scientific Literature xersion3.0

2

2017

... 科技大数据既蕴含科技文献数据如图书、期刊论文、构和论文、学位论文、科技报告、专利、范例等, 也蕴含科研人员、基金名目、集会、机构、科技观念等科技流动数据, 差异起源的数据格局往往差异, 遵照的元数据范例也有所不同.为真现数据资源的统一治理并便于正在此根原上构建知识图谱, 对差异起源的数据如WOS数据库、CSCD数据库、维普数据库、中国科学院学位论文库等的元数据格局停行阐明, 设想统一元数据格局停行存储和打点.由于NSTL统一文献元数据范例折用于科技类信息资源, 可对期刊、集会录、科技丛书、科技专著、文集汇编、工具书、科技报告、期刊论文、构和论文、学位论文、开放课程、开放课件等文献停行统一形容和组织(其Schema如图4所示), 并具有扩展性[15], 原文以此为根原, 将文献集(如期刊、图书、论文集等)、单篇文献(如期刊论文、构和论文、学位论文、图书章节等)、主题/分类/要害词、奉献者、机构、集会、基金名目等元素划分停行形容和扩展, 并删多专利元数据形容. ...

... NSTL统一文献元数据范例Schema[15] ...


2025-01-13 10:59  阅读量:25