时间:2022年04月29日 分类:推荐论文 次数:
摘 要:探讨前沿科技领域专利转化特征并对其进行精准识别与预测,对于我国破解“卡脖子”技术难题及实现科技自立自强具有重要意义。选取人工智能芯片专利领域,采用机器学习算法测度最优转化预测方案,分析全球范围内主要国家或地区专利成功转化影响因素,从企业/高校、国内/国际等不同层面总结专利成功转化的主要特征。结果发现:随机森林算法预测效果较好,人工智能芯片领域专利转化概率服从对数曲线分布,影响高校/企业、国内/国外专利转化特征的因素有所不同。最后,提出高校/科研机构应注重高价值专利维持和团队合作、企业应提升专利技术质量和撰写质量等政策建议。
关键词:专利转化;机器学习;随机森林算法;识别与预测;人工智能芯片
引言
我国专 利 申 请 量 近 年 来 呈 爆 发 式 增 长 趋 势,从2011年开始 一 直 位 居 世 界 首 位。世 界 知 识 产 权 组 织(WIPO)发布的《2021年世界知识产权指标》显示,2020年中国国家知识产权局受理专利申请149.7万件,增速高达6.9%,占全球总量的45.7%,数量相当于排名第二位至第十一位主管局受理量之和。然而,中国创新体系激励政策虽然大幅提升了专利申请量,但并没有带来商业化收益的显著增长[1]。2012年《世界银行报告》指出,尽管2003-2009年中国专利申请量上升26%,远高于美国(6%)、韩国(5%)、欧洲(4%)和日本(1%)的增 幅,但 是 中 国 专 利 收 益 率 却 远 低 于 这 些 国家[2]。
专利商业化价值一方面受专利法保 护,另 一 方面也与专利质量息息相关,如专利前向引用情况、权利要求数、IPC技术范围、专利维持时间及应用领域等都是影响专利价值的重要因素。2015年8月,全国人大常委会修订了《中华人民共和国促进科技成果转化法》;2016年3月,国务院印发《实施<中华人民共和国促进科技成果转化法>若干规定》;2016年5月,国务院办公厅印发《促进科技成果转移转化行动方案》,这一系列政策体系被称为我国科技成果转移转化的“三部曲”。除国家政策外,上海、广东、四川、山东等十余个省市也相继出台“地方版”细则方案。中央和地方政府正着力从科技成果转化产业、服务和人才等方面疏通科技成果转化的“难点、痛点和堵点”,全面促进科技成果转化。
专利申请知识:发明专利申请流程和周期
但我国科技成果转化率依然较低,以2021年6月发布的《2020年高等学校科技统计资料汇编》为例,各类高等学校年度专利申请量330375件,专利授权数206036件,年度专利出售合同数9229件,专利出售数占当年专利授权量的3%,大部分科技成果并未真正转化为现实生产力。在当前政府政策主导下,研究新兴前沿领域专利技术转化识别因素并对专利成果转化进行预测,对于申请高质量专利、加强专利商业化运营、提升我国科技成果转化效率和精准度具有重要意义。人工智能芯片作为数字经济时代最为核心的技术需求与发展方向,对于加速推进我国智能计算革命、实现科技自立自强以及攻克“卡脖子”技术难题具有重要意义。本研究利用机器学习算法聚焦人工智能芯片专利领域,研究专利成功转化的特征并寻找最优预测方案,探讨主要国家或地区技术成功转化影响因素,以及企业/高校、国内/国际等不同层面专利成功转化的主要特征,可为我国科技成果有效转化提供针对性政策建议。
1 文献综述
专利转化作为学术界、产业界持续关注的重要研究领域,目前已取得丰硕研究成果。就转化阶段而言,专利技术转化包括从研发到商业化的所有阶段[3]。从法律法规看,Zhu等[4]通过对比美国拜杜法案和中国版“拜杜法案”,认为中国版“拜杜法案”实施效果没有达到预期;何文韬等[5]认为新能源汽车推广政策虽然有助于激发汽车行业专利转化积极性,但也容易造成其在未了解市场需求情况下推动新产品快速入市的盲目性;Soares等[6]研究高校规章制度对专利 申 请 和 许 可行为的影响,指出高校规章制度虽然促进专利申请和许可数量 增 加,但 对 二 者 经 济 收 益 未 产 生 太 大 影 响。
从转化主体看,高等院校和科研机构是专利转化的重要载体,许 多 学 者 研 究 了 高 校 专 利 转 化 和 技 术 转 移。冉从 敬 等[7]选 取 与 专 利 价 值 相 关 的 16 个 指 标,采 用AdaBoost算法 提 升 了 高 校 专 利 转 化 的 可 识 别 性;Ye等[8]通过对中国双一流高校知识(专利)转移网络进行分析,指出关键高校在知识扩散网络中居于核心地位,同时高校之间稳定的知识交流与转移是带动落后地区发展的关键;张晓月等[9]探讨高校专利转化与专利价值之间的关系,认为专利转化及专利部分技术特征可以提升专利价值;金玉成[10]研究高校专利成果转化模式发现,专利技术特征影响高校专利转化模式,专利成熟度和技 术 质 量 不 同,专 利 转 化 模 式 也 不 同;袁 传 思等[11]指出,影响高校新型研发机构专利成果转化的原因有建设主体文化水平较低、知识产权投入不足、科技成果转化专业人员较少等。还有一些学者进一步构建高校专利转化评价指标体系,并从专利申请量、专利授权 量、技 术 转 移 收 入、专 利 涵 盖 领 域 等 视 角 展 开 研究[12-14]。
综上所述,专利技术转化研究虽然已经取得丰硕成果,但依然存在如下问题:研究对象多为发达国家,聚焦中国现实情境探讨专利转化的理论和实证研究较少,仅分析高校与科研机构等单一主体而未涵盖全部创新主体,尤其是针对特定前沿技术领域的研究更少。鉴于此,本研究从人工智能芯片领域出发,通过机器学习算法精准识别专利转化特征并测度最优转化预测方案,分析主要国家或地区专利成功转化影响因素,从企业/高校、国内/国际等不同主体或层面总结专 利 成 功转化的主要特征,可为我国破解“卡脖子”技术难题及专利转化相关研究提供有益借鉴。
2 数据获取与处理
2.1 数据来源
本文以人工智能芯片领域为研究对象,人工智能芯片作为人工智能时代的硬件载体,其重要性不言而喻。由于人工智能技术应用场景的复杂性,很难有一种单一且适用于各种环境的人工智能芯片设计方法。因此,工业界和学术界涌现出许多新的人工智能芯片设计方法,涵盖材料、器件、电路、半导体等各个层面。
人工智能芯片处于整个人工智能产业链的中间层,向上为应用和算法提供有效支撑,向下对器件和电路、工艺和材料提出新要求。一方面,应用和算法的快速发展,特别是深度学习和卷积神经网络的快速发展对人工智能芯片提出高性能要求,为近年来人工智能芯片研发热潮带来新动力[15];另一方面,新材料、新工艺和新器件的迅速发展,如3D芯片堆叠存储器和工艺进化为人工智能芯片大幅提高性能和降低功耗提供了可行性。总体来说,这两种力量共同推动人工智能芯片技术迅速发展[16]。
人工 智 能 芯 片 包 括 通 用 芯 片 (图 形 处 理 单 元,GPU)、半定制芯片(现场可编程门阵列,FPGA)、完全定制芯片(专用集成电路,ASIC)和类脑芯片4种类型。各自特性如下:GPU 常用于开发和改进人工智能算法。与传统 CPU 相比,改进的 GPU 具有更高的并行结构,在处理图形数据和复杂算法等方面更加高效,同时程序运行速度也提高了数千倍甚至数万倍。与 CPU 和GPU 相比,FPGA 将经过训练的 AI算法应用于实际数据输入,可同时进行数据并行和任务并行计算,具有明显的性能和能耗优势;除功耗以外,FGPA 在架构上也存在显著优势。ASIC 是为学习具有计算性能的功能而设计的一种芯片,根据特定应用需求定制。类脑芯片可以模拟人脑神经网络与人脑结构进行功能感知。
在人工智能芯片专利检索过程中,本文以 DerwentInnovation专利数据库为检索对象,来源国/地区主要选取中国、美国、欧盟、日本和韩国等。由于专利信息披露的滞后性,将专利检索时间限定为2009年1月1日至2018年12月31日。通过查阅相关文献资料、与专家多次沟通、多轮检索最终确定专利检索策略,并对数据进行降噪、降杂处理从而得到本文专利样本数据,如表1所示。其中,人工智能芯片专利申请数量22389件,已授权专利数12741件。专利检索条目包括申请日期、申 请 国 别、名 称、专 利 摘 要、发 明 人、专 利 权 人、IPC分类号、法 律 状 态、引 用 专 利/文 献 数 量 等 著 录 信息。
2.2 指标选取广泛意义上的专利转化主要是指将专利技术产业化,诸如专利转让[17]、专利许可、专利质押融资[18]等均可视为专利成功转化。专利指标通常涉及技术、法律和经济3个维度,本研究结合国家知识产权局发布的《专利价值分析指标体系操作手册》,遵循数据可得性原则,基于技术、法律、经济三大维度对专利评价指标体系进行细分,最终选取专利指标衡量专利特征。
(1)技术指标:申请人数量、代理人数量、发明人数量、技术分类数量(IPC跨度)、维持时间、引用专利数、引用参考文献数、当前是否有效。其中,申请人数量是指企业与其它组织合作申请的专利,一定程度上反映企业之间的技术合作关系,是衡量企业技术合作关系和合作度的重要指标[19]。
代理人数量反映专利技术在申请专利保护过程中与专利代理人的关系,专利代理人服务涉及发明专利、专利申请、专利审查及专利保护运用的各个阶段[20],能够从另一维度反映技术申请专利保护过程中的合作关系。发明人数量体现了技术复杂度,发明人是指对专利创造起实质性作用的人,反映完成发明创造所需投入的人力资本[21],发明人数量与专利技术复杂度存在一定相关性。技术分类数量通常指专利IPC分类号跨度情况,用以表征技术多元性与技术跨度[22],本研究选取国际专利分类号小类(IPC四位编码)数量表征技术多元性。维持时间和当前是否有效存在相似功能,专利维持时间体现了专利的重要性,专利维持时间越长,专利市场价值、经济效益也就越高[23]。引用专利数与参考文献数反映科学与技术的继承性,用以表征专利吸取外部信息的能力,代表专利质量水平,即技术可能处于的技术生命周期与市场应用价值,体现技术创新性及对其它知识的借鉴程度[24]。
(2)法律指标:权利要求数、独立权利要求数、从属权利要求数、权利要求字符数。其中,权利要求数指专利申请人对专利技术的保护是否全面[25],单个专利权利要求数量越多,说明专利保护越全面,因此本文采用权利要求数衡量专利技术保护全面程度。独立权利要求数指专利的必要技术特征,能够从整体上反映专利的主要技术内容,用以表征专利主要保护的技术内容[26]。从属权利要求数越多,越能对抗他人申请同样或类似的改进专利(宋河发等,2014)。权利要求字符数能够从侧面反映专利权法律效力,体现专利权人在专利起草和申请过程中投入资源的大小(张杰等,2015)。
(3)经济指标:同族专利、同族专利成员国数、权利人是否为 企 业 以 及 是 否 来 自 中 国、专 利 被 引 用 次 数。其中,同族专利和同族专利成员国数反映专利权人技术全球保护策略(刘红光等,2013),用以表征专利技术在全球的布局情况以及专利技术在全球市场的应用价值。权利人是否为企业以及是否来自中国反映不同创新主体与国家的专利技术转让情况[27]。专利被引用次数代表专利被认可度,专利被引用次数越多,说明专利价值越高[28]。(4)目标指标:专利转让、许可和质押,表征专利转化情况。专利所有权转让、许可贸易与专利权质押融资都是科技创新转化的重要表现形式。专利只有通过市场转化才能有效推动经济发展,故本文选取专利转让、许可或质押评价专利技术成功转化情况。
3 模型构建与分析
3.1 数据归一化处理为保证数据研究效果和均衡性,收集上文专利数据中成功转化的专利技术,共获得2228条专利数据,统计其是否存在专利技术成功转化的情况,若有则标为1,无则标为0;同时,对已授权但未成功转化的专利数据进行收集,按1︰1的比例随机匹配,共获得2228条数据,合并形成4456条数据,对其进行 Z-score归一化处理,形成训练集。由于本文目标数据(专利转让、许可和质押)为二项分类变量(0、1变量),本身离散不连续,故构建二分类模型,采用 Python软件对专利转化进行预测。
3.2 特征筛选
本文使用随机森林算法选取相互独立的弱分类器组成随机森林分类器结构,对每个决策树的输出结果进行平均化处理,从而得到最终的分类结果。相较于神经网络等经典分类模型,随机森林算法能够输出每个子分类器的影响结果,方便对特征筛选、分类器进行改进。利用随机 森 林 算 法[29]计 算 每 个 特 征 指 标 的 重 要性。设 定 随 机 森 林 决 策 树 数 量 为1000,由于其它参数特征量不大,因此选择默认值。对Python中的相关函数进行处理可以得到各特征的相对重要性,并随机给各特征变量加入噪声干扰,以改变特征值,并观察模型效果下降程度。如果改变某个特征能使模型效果明显变差,说明这一特征比较重要。
对于专利转化而言,维持时间重要性最高,重要度为0.157。其次为权利要求字符数、发明人数量和权利要求数,重要度分别为0.145、0.092和0.076。这说明,代表专利存活时间的维持时间特征最能反映专利能否成功转化,说明专利维持时间不仅可以表征专利技术存活时间,而且能从侧面反映专利质量及专利权人重视程度,对于专利是否可以转化起较为重要的作用。权利要求字符数和权利要求数重要性排第2位和第4位,说明专利文本中权利要求详细程度对专利成功转化起重要作用。发明人数量排第3位,说明专利技术复杂度对于专利转化具有积极影响。前4个特征重要性合计占比47%,其它13个特征重要性合计只占53%,说明各特征在随机森林算法中的重要性区别较小,可进一步进行特征筛选和数据降维。
然而,由于所有特征的重要性均大于0.01,直接删除其它变量将会导致研究精度下降,故进一步采取主成分分析法,以相关性矩阵和热力图对特征进行筛选,特征相关性矩阵。从中可见,权利要求数和从属权利要求数、同族专利数和同族专利成员国数、引用专利数和引用参考文献数存在较高的相关性。结合 KMO 检验值,将申请人数量、代理人数量、从属权利要求数、权利人是否为企业和引用参考文献数5个特征予以剔除,以获取较好的主成分分析结果。值得注意的是,虽然同族专利数和同族专利成员国数相关性较 高,但 是 在 实 验 中 删 去 其 中 任 何 一 个 特 征 后KMO 值并未得到优化,故予以保留。其中,剔除申请人数量、代理人数量是由于在多数专利中其数值多为“1”,导致这两个特征不具备显著性。
从属权利要求数量也被剔除,是因为权利要求数与独立权利要求数已经存在,而三者存在“权利要求数=独立权利要求数+从属权利要求数”的数量关系,故保留从属权利要求数有可能产生严重的共线性问题(相关性大于0.8)。引用参考文献数与引用专利数也存在较强的共线性,其值会随着引用专利数的变化而发生改变。剔除权利人是否为企业是因为该特征与其它特征弱相关(值小于0.3),说明该指标信息保护较少。在剔除如上5个特征后,KMO 度量值由0.590上升到0.754。这说明,利用上述12个特征进行专利可转化预测 是合理的,处理后模型特征数量实现降维。
3.3 模型构建
为选取一个性能更好的算法构建预测模型,本文分别利用逻辑回归算法、支持向量机算法、随机森林算法和 AdaBoost算法进行对比实 验。对 专 利 数 据 分 配0/1变量的分类预测任务,以解决不同算法预测可能产生的过拟合问题。对剔除特征变量后的数据集以8︰2的比例随机抽取训练集和预测集,用4种分类算法采取十折交叉验证进行训练预测。
在随机森林算法分类中,随机森林算法中的每棵决策树都是一个分类器,对于一个输入样本,N 棵树会呈现 N 个分类结果,因此将投票次数最多的类别指定为最终输出。在识别模型构建过程中,采用 Python 所包含的随机森林算法进行模型训练与分类拟合,通过二分类预测任务解决随机森林算法中出现的非连续性预测问题,以避免出现对训练数据外对象分类正确率较低的问题。通过多次参数调优,当参数设置为使用1000个弱分类器时,模型 Accuracy值为0.737。3.4 专利成功转化识别分析在验证模型有效性的基础上,进一步利用模型对人工智能芯片专利进行识别,输出每件专利的分类结果及转化概率。
根据专利转化概率,仿照10分标准评估法,设置10层专利可转化概率阈值,形成评估表。从中可见,在人工智能芯片领域,转化概率在90%~100%之间的专利比重仅为1%,可认为这部分专利最具转化价值和商业效益,共包含327件专利。总体来看,转化概率在70%以上的专利占比仅为17%(1%+5%+11% =17%),可见全球范 围 内 人 工 智 能芯片具有较高专利转化价值的数量偏少。同时,转化概率介于 40% ~70% 之 间 的 专 利 比 重 占 44%,介 于0~40%之间的专利比重占38%,反映出人工智能芯片领域大部分专利都具备一定的转化价值,但仍有近1/3的专利存在失效风险,转化概率较低。
在专利转化概率的基础上,绘制专利可转化性柱状图,并对其进行线性拟合。人工智能芯片领域专利可转化概率呈对数曲线分布态势,拟合对数函 数 方 程 为 y = -0.2036lnx +2.3073,R2 =0.76178。已有研究指出,专利价值通常呈对数常态曲线分布趋势[30],即在一个领域中,仅有少数专利为高价值专利,大部分专利价值都较低,本文模型与一般的经验感知相符。但与文献[9]对人工智能领域可转化专利研究相比,转化概率中阈值为10(转化概率介于90%~100%)的专利比例较小,说明人工智能芯片领域专利可转化概率较小,可能与人工智能芯片研发难度大、对转化过程情境要求较高等因素有关。
4 结论与建议
4.1 研究结论
本研究基于多维视角,采用多种算法对人工智能芯片领域主要国家/地区的专利转化特征进行分析,并对该领域专利技术的成功转化进行预测,得出如下结论:①采用降维处理和主成分分析法进一步聚焦专利技术转化影响因素,在选取的逻辑回归算法、支持向量机算法、随机森林算法和 AdaBoost4种算法中,随机森林算法预测效果最好;②人工智能芯片领域专利转化概率呈对数曲线分布态势,与通常所说的专利价值分布曲线相吻合;对高校/科研机构专利转化影响最大的前3个因素分别是维持时间、权利要求字符数和发明人数量,对企业专利转化影响最大的前3个因素分别是权利要求字符数、维持时间和权利要求数;③影响国外和国内专利成功转化的因素有所不同。影响中国专利成功转化的因素主要是专利质量,影响国外主要国家或地区专利成功转化的因素主要是专利技术复杂性及海外市场布局等。
4.2 研究贡献本文理论贡献如下:
(1)从专利质量分析[31]、价值评估、核心技术识别等应用场景对机器学习算法进行拓展,详细定义专利的三大特征,将其划分为技术指标、法律指标、经济指标,并对每个层面指标进行详细论述。采用定量方法构建相关评价指标体系,最终将其综合为专利特征指标,将专利质量指标与专利转化指标相结合,并将其应用到特定前沿技术专利转化领域。
(2)综合使用逻辑回归算法、支持向量机算法、随机森林算法以及 AdaBoost算法进行对比实验,通过对每个决策树的输出结果进行平均化处理,从而得到最终分类结果,并对专利数据进行离散0/1变量分类预测任务,以解决不同算法预测可能产生的过拟合问题。将剔除特征变量后的数据集以8︰2的比例随机抽取训练集与预测集,并从技术、法律和经济等维度对专利质量指标进行分析,丰富了相关研究成果[22]。
(3)在现有研究的[7,9]基础上,从实施主体层面分析专利转化影响因素,从多维视角进行论证,通过构建专利数据 集 对 专 利 特 征 重 要 性 与 可 转 化 概 率 进 行 比较,针对企业、高校/科研机构等创新主体及国内、国外层面进行对比分析。结果发现,影响高校/科研机构和企业专利成功转化的影响因素大致相同,但重要性略有不同,影响国外和我国专利成功转化的影响因素有所不同,拓展了实施主体研究范围。
4.3 对策建议
针对本文研究结论,为更好地促进前沿技术专利成功转化,提出如下对策建议:(1)在不同前沿技术领域均可通过随机森林算法等多种机器学习算法进行预测,从而寻找特定技术领域中影响科技成果(包含但不限于专利)转化的因素,有针对性地对成功进行科技成果转化的专利特征进行识别与预测。
(2)高校/科研机构应注重高价值专利维持时间和团队合作。高校/科研机构应发挥特定学科优势,加强与重点企业之间的合作,通过技术联合攻关形成高价值专利组合,实施高价值专利挖掘与培育工程,强化专利全过程管理,从而更好地实现专利转化。同时,还应从制度、机构、人才等方面形成合力,通过成立科技成果转化中心/知识产权中心、制定或修订学校专利转化实施办法与细则、引入专业知识产权服务机构或团队、与第三方切实加强合作开展专利价值评估等措施,从专利申请、保护、运用与管理等各个环节为专利成功转化提供保障。
(3)企业应提升专利技术质量和撰写质量。从政府层面看,企业应充分利用政府的相关政策,如专利申请优先审查、快速审查、各省市高价值专利培育项目、专利导航项目等,结合自身优势和特点,支撑企业创新发展。从企业内部看,应制定“知识产权先行”战略,在研发初期利用专利分析优化核心技术布局,在撰写阶段重视权利要求对技术特征组合与保护层级的递进,在申请阶段加强与专利代理人之间的沟通。从外部合作看,应积极组建行业协会、知识产权联盟,加强产学研协作,共同培育高价值专利。
4.4 不足与展望
本研究存在如下不足:①受限于数据可得性,只选取与专利价值相关指标对人工智能芯片领域专利转化预测和影响因素进行研究,未对制度设计、审查程序等其它影响因素进行分析,未来可进一步挖掘上述影响因素,提高模型可靠性,同时从专利视角出发,在更加细分的技术主题层面对专利成功转化进行研究,为推动技术创新、实现专利成功转化提供参考依据;②综合使用逻辑回归算法、支持向量机算法、随机森林算法及AdaBoost算法,仅从客观指标出发对评价模型进行计算,在实际专利成果管理中,还可结合管理人员其它信息,加入主 观 评 价 指 标,提 升 研 究 结 论 准 确 性 和 指 导力;③企业、高校/科研机构等创新主体的科研能力及产生的大量科技成果未被有效阐释,未能深入研究各创新主体科技成果转化链条。未来可通过高校科技成果信息披露机制、企业知识产权管理标准化流程等途径,研究科研人员研发合作模式,赋能技术开发效率,为价值评估管理提供方向。
参考文献:
[1] 宋河发.我国知识产权运营政策体系建设与运营政策发展研究[J].知识产权,2018,32(6):75-81.
[2] THE WORLDBANK.Promotingintellectualpropertymonetizationindevelopingcountries[EB/OL].(2012-06-01)[2021-12-01].
[3] ROGERSE M,TAKEGAMIS,YINJ.Lessonslearnedabouttechnologytransfer[J].Technovation,2001,21(4):253-261.
[4] ZHUC,LIX,CHENY.DidtheChineseBayh-DOLEActencouragetheactivitiesoftechnologytransfer? ananswerfromalegalsystem[J].AsianJournalofTechnologyInnovation,2021,29(2):196-212.
[5] 何文韬,肖兴志.新能源汽车产业推广政策对汽车企业专利活动的影响———基于企业专利申请与专利转化的研究[J].当代财经,2017,38(5):103-114.
[6] SOARESTJ,TORKOMIANALV,NAGANO MS.Universityregulations,regionaldevelopmentandtechnologytransfer:thecaseofBrazil[J].TechnologicalForecastingandSocialChange,2020,158(9):120-129.
作者:姜 南1,李逸凡1,刘 谦2,刘 星1