TeraSort 基准测试和MalStone基准测试 [复制链接]

见龙在天

军衔等级：

列兵

电梯直达

1^# 大中小

发表于 2010-1-13 10:41:45 |只看该作者 |正序浏览

Terasort：
hadoop自带有生成代码，每条记录100字节左右，前面10字节拿来做索引。在每个计算节点生成10GB数据，共处理N*10GB数据量。数据生成时间一般不计算在内。
TeraSort Sort09之后可能被Minute sort 替换。
计算过程就是做排序。

MalStone:
分为MalStone A-10和 MalStone B-10基准。
用malgen生成100亿条记录，生成的数据带有时间戳，时间随机分布在一年里面。每条记录100字节左右。
记录格式：
Event ID | Timestamp | Site ID | Compromise Flag | Entity ID
计算过程算法伪代码如下：
for record in read( data )
( site, date, compromised_indicator ) = parse( record )
group by site
for each site
map:date --> timeslice
total_compromised_to_date, total_seen_to_date = 0
for each timeslice in sort ( timeslices )
      total_compromised_to_date += compromised_for_timeslice
      total_seen_to_date += seen_for_timeslice
statistic[site, timeslice] = 0 or total_compromised_to_date /
                           total_seen_to_date

0 举报本楼

返回列表

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2024-11-16 04:31 , Processed in 0.088647 second(s), 15 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册