专利短语数据集-麻将胡了pg电子网站

订阅方案:
普通用户:
¥30.00
vip用户:
¥0.00
联系客服 查看订阅方案
所属分类: 综合数据 标签: (无)
来源: moonapi
更新时间: 2023-11-29 最新数据时间: 自动更新
数据集简介:

该数据集是为美国专利短语到短语匹配竞赛提供的。它通过提供context列中每个代码的含义来添加附加信息。  

  • 质量保证
  • 免费样本数据
  • 免费数据更新
  • 提供发票
数据集概览(文件数量,文件种类,数据集行列数),数据集示例数据请查看下方数据集介绍或联系客服索取
  • 数据集介绍
  • 订阅方案
  • 问题反馈

专利短语数据集简介

该数据集是为竞赛提供的。它通过提供context列中每个代码的含义来添加附加信息。


 

kaggle competition : u.s. patent phrase to phrase matching描述:你想从与专利发明相关的巨量文本数据集中抽取信息吗?现在就有一个机会。美国专利和商标局提供了一个最大的科学宝库,通过其开放数据门户网站向全世界提供技术和商业信息。专利是一种知识产权授予的形式,以换取公开披露新的和有用的发明。由于专利在授予前要经过严格的审查程序,而且由于美国的创新历史跨越了两个世纪和1100万项专利,美国专利档案是数据量、质量和多样性的罕见组合。“the uspt
企业的研发人员、知识产权工作者在日常工作中时常会进行针对专利信息进行检索的工作。下面介绍一些常用的专利信息免费数据库,相信会给大家的工作带来便利。 一、中国国家知识产权局官方网站 …
本篇旨在整理一些 nlg 中常见的任务以及相关的数据集 机器翻译wmt2014 数据集:从 wmt(workshop on statistical machine translation)评测中产生,与 2014 年发布;包含英语与法语、印度语、捷克语、俄语之间的…
该数据包含800多万中文词汇,相比现有的公开数据集,在覆盖率、新鲜度及准确性上大幅提高。
源 | 平台本文汇总了几个nlp相关的开源数据集,均附有下载链接。casia手写数据集数据集地址: fptccasia-hwdb-t:一个从中文手写数据库casia-hwdb收集的触摸字符数据库。所有接触的字符(或字符串)都用字符类别、接触点的位置以及字符串高度(lh)和平均笔划宽度(sw)等辅助值进行注释。根据不同的语言类型,触摸字符串...

据商务部统计,截止2018年,我国发明专利申请数已连续8年居世界第一。然而,专利数量多并不代表专利质量高。正如论文引用量是衡量论文质量的重要指标,专利引用量也是衡量专利质量的核心指标。

专利引用是指一件专利被后申请专利的申请人或审查员所引用,表征着两件专利在技术上的关联性。专利引用脱胎于science citation index(sci美国科学引文索引),它是由科技文献对于相关文献的引用而构成的知识网络。大约在1947年2月,uspto(美国专利和商标局)最早开始尝试在授权的专利文件上列出相关参考文献,用于评估专利方案。如今,一般意义上的专利引证信息有两种来源:

一是由专利发明人在申请前提供,在专利说明书的“背景技术”等部分引用的参考文献,用于阐述该发明与已知技术之间的差异并展示了该发明的新颖性。 例如美国专利制度强制要求申请人以information disclosure statement(ids)形式披露在整个专利申请过程中获知的与本专利相关的全部技术资料,否则该专利无法获得授权或授权后被认定无效。
二是由专利审查员在审查过程中加入。 审查员为判断一项专利是否具有新颖性和创造性,会进行专利检索以查找与该发明保护的技术领域最接近的现有技术。
专利引用数据至少有以下两方面作用:

追踪技术的发展路径和知识流动。 自narin(1994)将文献计量学引入专利计量学以来,专利引用一直被认为可以客观体现知识关联。如果一个专利引用了之前的专利,则可以推测该专利使用了之前专利中所包含的知识。专利引用网络可以展示技术创新的动态过程,还可以看出部门与部门间、行业与行业间的知识流动特征。
**衡量创新质量和创新价值。 **创新水平的衡量不仅在于数量,还在于质量,专利的重要性或价值也存在很大差异,简单的专利数量无法提供有关创新的全部信息。专利引用则可以用来评估专利的质量以及专利的创新价值。
adam jeffe和manuel trajtenberg的《patents,citations and innovations》一书被誉为专利引用方面的经典著作,它阐述了如何通过专利引用关系来分析专利的价值和技术变化的趋势。

与中国专利引用数据(中国版)相比,cnopendata在“数据特点”中对中国专利引用数据(世界版)的特别之处进行了列举。

 

短语抽取专利汇总

利用语义特征的科技创新领域中文关键短语抽取方法及系统 【词性标注 rake 向量相似度】
摘要:本发明公开了一种利用语义特征的科技创新领域中文关键短语抽取方法及系统。
本发明通过挖掘中文科技创新文档语料特征,构建出中文停用词及停用模式库,实现对无效信息的高性能过滤;
此外借助领域专家标注对各类关键短语抽取算法进行量化评估分析,从而选用更加适合领域认知的算法模型,并利用多种统计规则进行过滤以提升短语抽取性能;
进一步利用文档的结构特点,对文档的主题语义进行向量空间嵌入表示,并综合利用所抽取短语与文档主题的语义相似度,和短语语义重要程度进行计算与排名,完成对关键短语的进一步筛选。
该方法可支撑多种下游任务和应用,包括科技创新领域知识图谱构建、科技创新文档语义检索、科技创新实体精准搜索等场景。

 

专利中技术短语的自动抽取方法 【 短语抽取 实体识别工具 】
摘要:本发明公开了一种专利中技术短语的自动抽取方法,包括:
根据专利数据库,获得各领域专利文本以及类别信息;
利用诸多既有的短语抽取、实体识别工具,构建专利中的候选技术短语的集合;
根据技术短语的语义、统计特点,设计相应的评价指标来量化候选短语是技术短语的可能性;
根据专利的多层级结构特点,设计了一种多层的抽取模型来抽取技术短语;
最后在每个层级上筛选的到技术短语,合并得到专利的技术短语集合,即此专利的技术画像。

 

 

推荐数据集
网站地图