17765?1483088285

胡东阳 (Student)

hudongyang

国防科技大学

Ta在确实 over 2 years

  • 湖南-长沙
  • 2016-09-28开始使用
  • 3869次访问(自2016年5月)
Ta的动态
17765?1483088285
【缺陷】 初始100个user的调查结果 正常
指派给   未指派
发布时间: 01/02/2019 21:52
更新时间:01/02/2019 21:52

1、先在pull_request_comments取comments最多的前100个user的id.

2、将这100个user在2015、16、17三年的pull-request和commit的comments数据都取出来。表中数据包括pr_id,commit_id,评论的date.

3、然后汇总得到附件中表pull_request_review_count,里面包括这100个user在36个月里每个月review不同pr的数量,不同repo的数量。

4、汇总得到附件中pull_request_review_com_count,里面包括这100个user在36个月里每个月review不同commit的数量,不同repo的数量。

5、根据两个表画图在附件中。



回复 ︿
0?1470885445
登录后可添加回复
17765?1483088285
【缺陷】 扩展点的思考与建议。 正常
指派给   未指派
发布时间: 10/03/2018 16:42
更新时间:10/03/2018 16:42

1、在专注度方面,我们目前只是考虑是否参与讨论,接下来考虑讨论的语义信息。

3、我们目前只考虑跨issue评论者一个维度,跨issue的行为有很多种,接下来尝试多研究几个维度,探究跨issue行为对issue解决时间等开发效率的影响。

4、进一步探讨开发者进行跨项目的跨issue讨论对软件开发的影响。


大王老师:
1、不同开发者的专注度具有不同的认知倾向,下一步可以以开发者为研究对象,分析他们的心理、习惯等因素,形成开发者行为画像,从而推荐可关注的issue;
2、可以进一步分析issue讨论的时间流、讨论之间的逻辑语义关系等;
3、进一步提炼研究问题和意义:
      3.1 在项目内,如何鼓励开发者在不同issue间进行交叉讨论,频度(恰当的交流讨论)对于issue解决存在怎样的影响?
      3.2从群体协同的角度,如何促进开发者更好地合作,怎样引导开发者聚焦有价值的issue?

王涛老师建议:
1、提研究意义的时候是抛出一个问题,而不是抛出一个观点。
2、研究这个问题对软件开发和研究者到底有多大的意义和价值。
3、开发者的能力刻画或者特征画像的角度去考虑
4、对一个开发者去刻画他,未来做issue的任务分配,做推荐。开发者的能力画像有几个维度,是需要我去做的。比如一个人的行为特征是关注了很多issue,那么这种人适合做什么事情,还有一种人的行为特征就是在一定时间只关注一件事,那么这种人适合去做什么事情。那么未来做issue推荐,issue分配该给谁就有了依据。最终的目标是对开发者做准确地刻画,未来对issue的分配和推荐打基础。

回复 ︿
0?1470885445
登录后可添加回复
17765?1483088285
【缺陷】 第一次讨论结果 正常
指派给   未指派
发布时间: 08/21/2018 22:34
更新时间:08/22/2018 09:04

1、第一阶段目标:运用document embedding (例如doc2vec)方法解决传统经典bug研究问题,例如bug localization、bug分类、bug指派等。传统方法主要是基于bug的自身属性或者利用传统的信息抽取方法(例如TF-IDF)来计算文本的相似度


2、经过调研,对于传统的bug localization问题,目前已有研究利用人工神经网络(例如word embedding, word2vec)方法来研究此类问题。但是word2vec方法只考虑了词与词之间的相似度,很难将一些bug的结构属性加入到模型中,但是doc2vec方法在word2vec基础上考虑了文档标签,所以可以将bug的属性很容易的加入到人工神经网络的模型中去,使模型参考因素更多,更加健壮。所以我们猜测doc2vec方法解决传统的bug localization问题效果会更好。


3、第一阶段计划:运用doc2vec方法对bug localization问题进行研究,并与前人的工作做对比,比如与word2vec方法做实验对比,验证我们实验方法的优越性。


4、下一阶段计划:我们在传统bug问题上走通后,再想办法移植到github上的新式研究问题,例如给用户推荐项目,预测issue的解决时间之类的。



回复 ︿ (4)
  • 用户头像
  • 用户头像
    胡东阳 10个月前

    相关网站资料:

    1、https://blog.csdn.net/aliceyangxi1987/article/details/75097598

    2、https://blog.csdn.net/surehao/article/details/19623345

    3、https://blog.csdn.net/lk7688535/article/details/51321466

    4、https://blog.csdn.net/mpk_no1/article/details/72836024

  • 用户头像
    胡东阳 10个月前

    attachment 07372035.pdf added

    attachment 07582745.pdf added

    attachment 07774514.pdf added

    attachment fse14.pdf added

    attachment Learning to Rank Relevant Files for Bug Reports Using Domain know.pdf added

    Description updated (diff)

    Status changed from 新增 to 正在解决

    % Done changed from 0 to 20

0?1470885445
登录后可添加回复
17765?1483088285
【缺陷】 新建的两个项目表 正常
指派给   未指派
发布时间: 06/28/2018 16:33
更新时间:06/28/2018 16:34

1、TrinityCore/TrinityCore项目(repo_id=1717),表名称为iss_interval_focus_1717.csv。备注为0625_1717备注.txt

2、saltstack/salt项目(repo_id=1142),表名称为iss_interval_focus_1142.csv。备注为0626_1142备注.txt。

回复 ︿ (1)
  • 用户头像
    胡东阳 11个月前

    library(lme4)
    library(lmerTest)
    library(MuMIn)

    data=read.csv('E://lab//shiyanshi//0424_paper//csv_table//1142//iss_interval_focus_1142.csv')
    summary(data)

    summary(data$interval)


    cor.test(data$interval,data$ave_focus)

    thread<-quantile(data$interval,0.98)
    data_1<-subset(data,data$interval<thread)
    result<-lm(scale(interval)~
                 scale(ave_focus)
               +scale(length_body)
               +scale(all_user_ids)
               +scale(num_comments)
               +factor(p_member_tag)
               +factor(label_tag)
               ,data=data)

    summary(result)
    anova(result)
    r.squaredGLMM(result)
    require(car)
    vif(result)

0?1470885445
登录后可添加回复
17765?1483088285
【缺陷】 2018.06.04结果的几个表 正常
指派给   未指派
发布时间: 06/04/2018 20:42
更新时间:06/07/2018 10:24

1、包含平均解决时间的平均跨issue的评论者信息在表multi_tag1_3562_no_mem.csv中,其中ave_multi_user_time字段值就是ave_multi_issues*60*24/interval。

2、接着,我们提取了all_user_ids>5,8,10的值导到表all_user_ids_dayu5.csv、all_user_ids_dayu8.csv、all_user_ids_dayu10.csv中。其中ratio_mul_all_user字段为multi_user_ids/all_user_ids。

3、R语言文件在r_wilcox_test.R中。


回复 ︿ (5)
  • 用户头像
    15ZhangY 1年前
    39?1442652658
    15ZhangY 1年前

    def getEntropy(data, unit='shannon'):
    base = {
    'shannon' : 2.,
    'natural' : math.exp(1),
    'hartley' : 10.
    }
    if len(data) <= 1:
    return 0

    counts = Counter()

    for d in data:
    counts[d] += 1

    probs = [float(c) / len(data) for c in counts.values()]
    probs = [p for p in probs if p > 0.]

    ent = 0

    for p in probs:
    if p > 0.:
    ent -= p * math.log(p, base[unit])

    return ent

    输入就是data,是一个数组,输出就是熵值,调用就直接getEntropy(data)

  • 用户头像
    胡东阳 1年前

    attachment icse2016focus.pdf added

  • 用户头像
    15ZhangY 1年前

    boxplot(interval~tag,data=data,main="The issue resolution latency of two tag",
              ylab="interval",xlab="The issue resolution latency of 0 and 1 ",ylim=c(0,400000))
    wilcox.test(interval~tag,data=data)

    boxplot(log(interval+0.5)~round(24*60*ave_multi_user_time),data=data,xlim=c(0,100))

    result<-lm(scale(log(interval+0.5))~
                 scale(log(all_user_ids))
               +scale(log(multi_user_ids+0.5))
               +ave_multi_issues,data=M)
    summary(result)
    require(car)
    vif(result)

0?1470885445
登录后可添加回复
17765?1483088285
指派给   未指派
发布时间: 06/01/2018 16:14
更新时间:06/01/2018 17:01

1、在1334项目中总共有6428条有评论的issues,其中有3562条issues中是有跨issue评论的users,比例为55.4%。

2、根据研究计划,本阶段先画出有跨issue评论者的issues和没有跨issue评论者的issues的解决时间的箱线图。箱线图中tag为1的代表有跨issue评论者的issues的解决时间,tag为0代表的是没有跨issue评论者的issues的解决时间。箱线图和数据表分别是附件Rplot01_no_mem.png和multi_tag1_no_mem.csv。

3、第二个计划是探究1334项目中每个issue中的user平均跨issue评论的数量对issue解决时间的影响。每个issue中的user平均跨issue评论的数量的计算方法是该issue中跨issue评论的users在该issue开始和第一次关闭时间内中在1334项目中其他issues评论的数量总和除以该issues所有users的数量。下图给出了,平均跨issue评论的数量1到10之间的箱线图,平均跨issue评论的数量1到20之间的箱线图,平均跨issue评论的数量1到30之间的箱线图,平均跨issue评论的数量1到40之间的箱线图。命名分别为Rplot_0_10.png、Rplot_0_20.png、Rplot_0_30.png、Rplot_0_40.png

回复 ︿ (2)
  • 用户头像
    15ZhangY 1年前

    1. 考虑issue解决时间,将数量信息/时间

    2. 考虑单个issue内参与多个讨论的人数

    3. 定义讨论专注度

  • 用户头像
    胡东阳 1年前

    Description updated (diff)

    Status changed from 新增 to 正在解决

    % Done changed from 0 to 60

0?1470885445
登录后可添加回复
17765?1483088285
指派给   未指派
发布时间: 05/17/2018 16:08
更新时间:05/23/2018 22:12

1、首先根据筛选1334中符合条件的issues,即该issues是已经开闭的,且在第一次关闭时间有评论者的issues数量为7404条,而当中有跨issue评论者的issues数量为5155条,占比69.6%。


2、根据研究计划,本阶段先画出有跨issue评论者的issues和没有跨issue评论者的issues的解决时间的箱线图。箱线图中tag为1的代表有跨issue评论者的issues的解决时间,tag为0代表的是没有跨issue评论者的issues的解决时间。箱线图和数据表分别是附件Rplot01.png和count_mul_one_pro_1334_div_0.csv。


3、第二个计划是探究1334项目中每个issue中的user平均跨issue评论的数量对issue解决时间的影响。每个issue中的user平均跨issue评论的数量的计算方法是该issue中跨issue评论的users在该issue开始和第一次关闭时间内中在1334项目中其他issues评论的数量总和除以该issues所有users的数量。

得到的结果发现每个issue中的user平均跨issue评论的数量在1到10的总个数为2066个,具体数量为:

每个issue中的user平均跨issue评论的数量为1的个数为706

每个issue中的user平均跨issue评论的数量为2的个数为403

每个issue中的user平均跨issue评论的数量为3的个数为254

每个issue中的user平均跨issue评论的数量为4的个数为185

每个issue中的user平均跨issue评论的数量为5的个数为121

每个issue中的user平均跨issue评论的数量为6的个数为110

每个issue中的user平均跨issue评论的数量为7的个数为92

每个issue中的user平均跨issue评论的数量为8的个数为70

每个issue中的user平均跨issue评论的数量为9的个数为60


每个issue中的user平均跨issue评论数量在1到10的issue解决时间箱线图和数据表在附件Rplot1~10.png和ave_multi_2066xiaoyu10.csv中。


箱线图结果基本符合预期,但是我忘了洋哥上次教给我去除异常点的方法,这次见面讨论我会让洋哥检查一下我的python和R语言代码。










回复 ︿ (2)
  • 用户头像
    胡东阳 1年前

    Description updated (diff)

  • 用户头像
    胡东阳 1年前

    Description updated (diff)

0?1470885445
登录后可添加回复
17765?1483088285
【缺陷】 Internetware 2018 正常
指派给   未指派
发布时间: 05/17/2018 16:18
更新时间:05/17/2018 16:18

The Tenth Asia-Pacific Symposium on Internetware

Internetware 2018

Beijing, China, September 16, 2018, Co-Located with CSERIS 2018


官网:https://internetware2018.github.io/index.html
Important Dates:

Submission Deadline: June 30, 2018 
Notification of Acceptance: July 31, 2018 
Camera-Ready Version: August 17, 2018

Publication:

All authors of accepted papers of will be asked to complete an electronic ACM Copyright form and will receive further instructions for preparing their camera ready versions. All accepted contributions will be published in the of Internetware 2018 electronic proceedings and in the ACM Digital Library.Authors of selected papers will be invited to submit an extended version of their papers to Journal of Computer Science and Technology (JCST). All the extended submissions will be evaluated following the guidelines set by JCST. Only those satisfying all the criteria will be accepted for the journal publication.


回复 ︿
0?1470885445
登录后可添加回复
点击展开更多
问题和建议
还能输入50个字符 Submit

加入QQ群

关注微信APP


×