1.资料名称:2023-2001年上市公司企业数字创新数据
2.测算方式:参考《系统工程理论与实践》郑攀攀(2024)老师的做法,本文基于上市公司年报文本, 结合文本分析和机器学习方法, 测度了企业数字创新(DI) . 具体的测度步骤如下: ①确定企业年报中关于数字创新表述的种子词集. 本文紧扣相关文献对数字创新的定义[2-4,6], 从《中小企业数字化赋能专项行动方案》、《2020 年数字化转型趋势报告》等官方文件中选取种子词集[45], 包括人工智能、数据挖掘、电子商务等 45 个词组. ②基于机器学习方法扩充种子词集. 鉴于同一概念或事物的表达, 往往可以采用多个语义相似的词汇, 本文采用机器学习算法扩充关键词词集. 具体地, 使用海量财经文本训练 Word2vec 神经网络相似词算法, 取每个种子词组的前 30 个相似关键词, 去除重复词汇和部分低频词汇, 由三名专业人员根据 Fichman 等[3]提出的定义进行词汇分类筛选以及核验工作, 最终得到 99 个关键词词集, 如表 2 所示. ③测度企业数字创新. 本文对企业年报中关于数字创新的关键词进行抓取, 将数字产品创新 DI_prod、数字流程创新 DI_proc、数字商业模式创新 DI_buss 三个维度词频之和占年报全文总词数比重作为企业的整体数字创新 DI. 为了避免数据量纲过小, 对上述指标作出乘以 100 的处理
3.资料范围:6.1万个样本,5598家企业,包括原始数据词频和最终计算结果,大家可以验证一下确保准确性!
4.参考文献:郑攀攀,庄子银.知识产权司法保护专门化与企业数字创新[J].系统工程理论与实践,2024,44(05):1501-1521.
5.计算代码:
6.样例数据:
7.包含内容:
8.全部内容下载链接:https://download.csdn.net/download/li514006030/89956131