对github数据集进行学习,了解数据结构;然后对其中的pull requests 、@等内容进行研究学习。
计划完成日期 被设置为 2014-03-15
状态 从 新增 变更为 关闭
% 完成 从 0 变更为 100
预计工时 (H) 被设置为 4.00
解析非英文时,Jackson默认是Latin文,对于中文解析会包错,我在解析Event时先对其进行编码转换,都变为Latin1的格式;此外,写入csv文件时,diff_hunk中的大量字符存在干扰,删去后就可以存入mysql数据库了,但仍然存在极少量的数据解析问题,对最终数据集的影响不大。
© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号
加入QQ群
关注微信APP
预览