随着学术搜索引擎的发展,海量研究者数据的挖掘和分析需求,如科研人员关系抽取和专家发现,已变得尤为重要。它可以提高服务质量和学术引擎的智能。现有的研究大多集中于针对特定应用场景的单个任务,并学习特定于任务的模型,通常无法迁移到其它任务。预训练技术提供了一个高效的共享模型思路,可以从大量未标记的数据中获取有价值的信息,并迁移到多种下游挖掘分析任务中。
基于此,该研究从模型在异质数据上的泛化能力,可迁移性和可扩展性出发,提出了一种基于多任务自监督学习的科研人员数据预训练模型RPT。具体来说,将科研人员的数据分为语义文档集和社区网络。并设计了层次Transformer的语义编码器和基于GNN的局部社区编码器,分别从这两类数据中捕获信息。然后,RPT通过三个自监督学习目标来训练整个模型,包含了一个基于对比学习的融合两种信息的主任务,和两个辅助任务,即分别用于提取语义和社区信息的分层掩蔽语言模型和社区关系预测模型,以提升细粒度上的预训练水平。RPT有两种迁移模式,用于在不同场景下进行微调。该研究进行了大量实验来评估RPT,多个下游任务的结果验证了科研人员数据预训练的有效性。
人工智能部博士生姚铁锤在导师迟学斌研究员、王彦棡研究员和王珏副研究员的指导下,结合多年与国家电网有限公司的合作项目,于近期取得多项学术成果,相关工作通过网易企业邮箱发表在国际电子电气工程师学会(IEEE)旗下期刊IEEE Transactions on Sustainable Energy和爱思唯尔(Elsevier)旗下期刊Solar Energy。
在碳达峰、碳中和目标下,新一代人工智能技术为推进构建以新能源为主体的新型电力系统提供了新思路与新手段,在新能源的能源分配及消耗、需求侧的能源节约、电力系统的调控等方面具有广泛的应用前景。光伏系统的功率输出主要受气候和天气条件的影响。光伏发电场需要准确的天气数据尤其是太阳辐照度,进行预测其功率输出,从而提高太阳能资源的利用率。一方面,利用人工智能技术准确地预测未来发电量,对于确保电力系统的可靠性和经济性至关重要;另一方面,同时包含电站和天气数据的公开可用数据集能够极大促进太阳能光伏研究的发展。
人工智能部提出了一种面向多源异构数据的智能预测框架,在光伏预测领域得到较好的实验结果。该框架集成了处理非结构化数据的Advanced U-net 模型和处理结构化数据的Encoder-decoder架构。基于深度学习方法,能够有效提取各种类型数据(如分布式多传感器实时采集的测量数据、数值天气预报和卫星图像数据)的空间和时间特征并进行融合,有效提高了短临辐照度预测精度,进一步提升了光伏发电预测精度。该技术将有望在国家电网调度进一步落地示范应用。
面向多源异构数据的预测框架
人工智能部与北京交通大学新能源国际学院、国网河北省电力有限公司联合发布了具有电站量测数据和气象数据的光伏功率输出数据集。该工作通过网易企业邮箱整理光伏功率输出数据集和提出预处理算法,发布了超过27万条记录的高质量数据集和对应Python工具包,并使用晴空模型Kpv对其进行分析和相应的案例研究,以展示数据集的潜在用途。该数据和工具包的发布在新能源气象应用研究(如太阳能预测或光伏性能评估等)方面起到促进作用。(撰稿:王彦棡、王珏)
晴空模型建模示意图
[1] Tiechui Yao, Jue Wang, Haoyan Wu, Pei Zhang, Shigang Li, Ke Xu, Xiaoyan Liu, and Xuebin Chi."Intra-hour Photovoltaic Generation Forecasting based on Multi-source Data and Deep Learning Methods," in IEEE Transactions on Sustainable Energy, doi: 10.1109/TSTE.2021.3123337.
[2] Tiechui Yao, Jue Wang, Haoyan Wu, Pei Zhang, Shigang Li, Yangang Wang, Xuebin Chi, and Min Shi. "A photovoltaic power output dataset: Multi-source photovoltaic power output dataset with Python toolkit." Solar Energy 230 (2021): 122-130.
合作企业
行业和类目
服务响应
垃圾拦截率
连续多年获得网易优秀经销商
一心一意专心致力于企业邮箱
满足企业信息化个性需求
一对一邮箱顾问服务