GetArchive - 确实激发创新

登录注册

张洋/ GetArchive

项目简介

对github数据集进行学习，了解数据结构；然后对其中的pull requests 、@等内容进行研究学习。

张洋 TO GetArchive | 项目讨论区

如何尽可能地获取到完整的Github数据？

发帖时间：2014-03-26 08:55

更新时间：2014-03-26 09:21

通过上学期以及这学期前一段时间对于Github数据的分析，我发现现有的基于数据集的研究大部分都是利用现有的数据集（主要是GHtorrent和Github Archive），这种方法简单、快捷，但能得到的数据内容受限；也有自己写程序调用API，这种方法可以获取想要的，但可能很复杂且麻烦，还要考虑其它因素，例如存储。怎样尽可能地方便快捷，又获取到自己研究需要的数据呢？

回复︿（1）▪ 赞

张洋 10年前

目前，关于Github研究的数据集主要来源于三个途径：Github API、Github Archive和GHTorrent，它们三种各有侧重点，我简单地总结了一下： 1、Github Archive，其本身通过Github API获取数据，用Json格式记录不同时间点的时间信息。它提供了新的统计视角：事件，数据量大，可以获取到最新数据。更多体现的是数据间的关联特性，即大部分数据内容是链接，但具体内容缺失，且需要对Json数据进行解析，还要考虑删掉重复的数据； 2、GHtorrent，利用Github API获取数据，并预处理后存入Mysql中。无需解析，查询便捷，但部分关键数据缺失，数据不够新； 3、Github API，原始的数据获取手段，数据最完整、最准确，但需要先获取数据，再解析，速度受限，条件受限，不适合大规模的数据获取。目前，我初步的解决思路是，先利用GHTorrent提供的数据集，进行简单的统计，当考虑具体内容分析时，利用Archive和API进行补充，当然前提是筛选出小规模的projects

赞

登录后可添加回复

张洋 TO GetArchive | 项目问题

【功能】对解析后的数据进行关键文本内容提取正常

指派给张洋

发布时间： 2014-03-18 00:07

更新时间：2014-03-18 00:07

对解析后的数据进行关键文本内容提取，为后续的PR分析做好准备

回复︿ ▪ 赞

登录后可添加回复

张洋 TO GetArchive | 项目问题

【缺陷】 JsonParse解析非英文报错问题正常

指派给张洋

发布时间： 2014-03-12 09:52

更新时间：2014-03-15 23:41

JsonParse在解析comment的body时，如果body内容为中文或者韩文等非英文，会出现解析错误，但Github上以非英文呈现的comment并不是很多，应该对后面的分析影响不大，这里只作为一个程序缺陷标记出来，后期进行完善。

回复︿（1）▪ 赞

张洋 10年前

计划完成日期 被设置为 2014-03-15

状态从新增变更为关闭

% 完成 从 0 变更为 100

预计工时 (H) 被设置为 4.00

解析非英文时，Jackson默认是Latin文，对于中文解析会包错，我在解析Event时先对其进行编码转换，都变为Latin1的格式；此外，写入csv文件时，diff_hunk中的大量字符存在干扰，删去后就可以存入mysql数据库了，但仍然存在极少量的数据解析问题，对最终数据集的影响不大。

赞回复︿

登录后可添加回复

Trustie(确实)
QQ群：1071514693

项目简介

头像设置