来自美国波士顿
微信扫码关注公众号进行登录
来自美国波士顿
来自美国波士顿
微信扫码关注公众号进行登录
来自美国波士顿
微信扫码关注公众号进行登录
怎样判断期刊之间的相关关系,将期刊划分到合适的学科,是期刊分区表重要的工作内容.
通常,我们会构建期刊的引用关系网络,然后根据期刊之间的相互引用,以及与其它期刊的引用情况,来计算两本期刊之间的相关性.最后,把相关性作为引文网络中两个期刊节点之间的边的权重,用社团聚类方式给期刊划分学科;也可以用PCA/MDS对期刊相关性矩阵降维,然后用K-means等聚类算法给期刊划分学科.
现在机器学习,尤其是深度学习技术的发展,图嵌入方式(graph embedding)在众多的复杂网络节点聚类/分类和推荐等任务中展示更有的效果.我们是否有更好的方式或者工具,将基于期刊引用的相关关系更好表示出来.这个表示方式能将使用更好的机器学习方式,将期刊划分到更加合适的学科.
Aditya Grover和Jure Leskovec提出的node2vec就提供了很好的思路.node2vec将复杂网络中的节点用低维稠密的向量表示,最大程度保存了邻居节点之间的关系[1].网络中任意两个节点的相关关系,就是对应两个向量的相关性.而且,更小信息损失的低维向量,使得更多机器学习的方式引入到网络节点关系标识任务成为了可能.
下面,我们将尝试图嵌入方式node2vec在期刊表示上的潜在应用.
首先,构建期刊引用网络;然后,用node2vec方式训练期刊;最后,得到每本期刊的32维向量.两个向量之间的相关性越高,表示这两本期刊的相关性也越高,非常的直观.
下图是我们将期刊向量用t-sne映射到二维平面,可视化所有的期刊.
在自然语言处理中,用神经网络训练得到的低维稠密的词向量,会保留大量语言规则和模式,通常线性表示出来.如,与v("Germany") + v("captial")最相近的是v("Berlin"),与v("King") - v("man") + v("women")最相近的是v("Queen").[2]
通过node2vec训练出来的期刊向量也会有类似的现象,因为node2vec训练向量的时候使用了训练词向量相同的方式[3].不过,期刊向量的语义关系直接反映出学科属性,这一点还是挺让人惊喜的.
这三组测试能清晰反映出期刊向量的语义关系,就是期刊本身的学科属性.
Test 1: 计算生物 - 生物 + 物理 = 计算物理学
Test 2: 计算生物 - 生物 + 基因 = 生物信息学
Test 3: 计算生物 - 生物 + 神经 = 计算神 经科学
用低维稠密的向量表示期刊引用关系,也就是有效提取期刊引用关系网络中的特征项,为我们在期刊分类/聚类和推荐等多项任务,引入机器学习和深度学习方式提供重要基础.当然,我们也可以用期刊其他关系网络来训练向量,目前来看,引用关系是效率最高的一种.
我们相信,在以后的工作中,期刊向量和机器学习方式能帮助我们更好地给每本期刊划分学科.
参考文献:
[1] Grover, A., & Leskovec, J. (2016). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 855–864). ACM.
[2] Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems (pp. 3111–3119).
[3] Z Shen, F Chen, L Yang, J Wu, Node2Vec representation for clustering journals and as a possible measure of diversity, Journal of Data and Information Science.
更多科研论文服务,动动手指,请戳 论文润色、投稿期刊推荐、论文翻译润色、论文指导及修改、论文预审!
语言不过关被拒?美国EditSprings--专业英语论文润色翻译修改服务专家帮您!
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
凡注明来源为“EditSprings”的论文,如需转载,请注明来源EditSprings并附上论文链接。