开发者问什么安全问题? 在 Stack Overflow 上的大规模实证研究
杨昕立, 夏鑫, 万志远, 孙建伶 - 计算机科学技术学报, 2016 - jcst.ict.ac.cn
杨昕立, 夏鑫, 万志远, 孙建伶
计算机科学技术学报, 2016•jcst.ict.ac.cn安全一直是一个热门且重要的领域. 随着信息技术的快速发展, 安全领域也一直被人们所关注.
然而, 由于安全领域有着悠久的历史, 它包含了广泛而多变的话题, 从经典的密码学到最近兴起的
移动安全. 因此, 我们有必要对安全相关的话题和趋势做一个调研, 这可以对安全领域的研究者,
教育者和实践者提供一些指导. 为了解决上述需求, 在本文中我们对Stack Overflow
上的安全相关的帖子进行了一个大规模的实证研究. Stack Overflow 是一个热门的在线问答网站
, 软件开发者们在上面交流, 合作, 共享信息. 在Stack Overflow 上有许多不同领域的问题帖 …
然而, 由于安全领域有着悠久的历史, 它包含了广泛而多变的话题, 从经典的密码学到最近兴起的
移动安全. 因此, 我们有必要对安全相关的话题和趋势做一个调研, 这可以对安全领域的研究者,
教育者和实践者提供一些指导. 为了解决上述需求, 在本文中我们对Stack Overflow
上的安全相关的帖子进行了一个大规模的实证研究. Stack Overflow 是一个热门的在线问答网站
, 软件开发者们在上面交流, 合作, 共享信息. 在Stack Overflow 上有许多不同领域的问题帖 …
摘要
安全一直是一个热门且重要的领域. 随着信息技术的快速发展, 安全领域也一直被人们所关注. 然而, 由于安全领域有着悠久的历史, 它包含了广泛而多变的话题, 从经典的密码学到最近兴起的移动安全. 因此, 我们有必要对安全相关的话题和趋势做一个调研, 这可以对安全领域的研究者, 教育者和实践者提供一些指导. 为了解决上述需求, 在本文中我们对 Stack Overflow 上的安全相关的帖子进行了一个大规模的实证研究. Stack Overflow 是一个热门的在线问答网站, 软件开发者们在上面交流, 合作, 共享信息. 在 Stack Overflow 上有许多不同领域的问题帖, 其中安全相关的问题占了很大比重, 有着举足轻重的地位. 我们首先基于问题帖的标签从 Stack Overflow 上提取出安全相关的问题, 然后我们采用一种高级话题模型—基于遗传算法调节的 LDA 来对这些安全相关问题做聚类, 从而得到安全领域下的所有子话题. 根据这些子话题, 我们做了一下分析: 我们将所有子话题总结成五个大类; 我们调研了不同子话题的热门程度和困难程度. 最后, 我们为安全领域的研究者, 教育者和实践者提供了一些本文得到的研究结论.
Abstract: Security has always been a popular and critical topic. With the rapid development of information technology, it is always attracting people's attention. However, since security has a long history, it covers a wide range of topics which change a lot, from classic cryptography to recently popular mobile security. There is a need to investigate security-related topics and trends, which can be a guide for security researchers, security educators and security practitioners. To address the above-mentioned need, in this paper, we conduct a large-scale study on security-related questions on Stack Overflow. Stack Overflow is a popular on-line question and answer site for software developers to communicate, collaborate, and share information with one another. There are many different topics among the numerous questions posted on Stack Overflow and security-related questions occupy a large proportion and have an important and significant position. We first use two heuristics to extract from the dataset the questions that are related to security based on the tags of the posts. And then we use an advanced topic model, Latent Dirichlet Allocation (LDA) tuned using Genetic Algorithm (GA), to cluster different security-related questions based on their texts. After obtaining the different topics of security-related questions, we use their metadata to make various analyses. We summarize all the topics into five main categories, and investigate the popularity and difficulty of different topics as well. Based on the results of our study, we conclude several implications for researchers, educators and practitioners.
jcst.ict.ac.cn