通信人家园

标题: TeraSort 基准测试和MalStone基准测试  [查看完整版帖子] [打印本页]

时间:  2010-1-13 10:41
作者: 见龙在天     标题: TeraSort 基准测试和MalStone基准测试

Terasort:
hadoop自带有生成代码,每条记录100字节左右,前面10字节拿来做索引。在每个计算节点生成10GB数据,共处理N*10GB数据量。数据生成时间一般不计算在内。
TeraSort Sort09之后可能被Minute sort 替换。
计算过程就是做排序。

MalStone:
分为MalStone A-10和MalStone B-10基准。
用malgen生成100亿条记录,生成的数据带有时间戳,时间随机分布在一年里面。每条记录100字节左右。
记录格式:
Event ID | Timestamp | Site ID | Compromise Flag | Entity ID
计算过程算法伪代码如下:
for record in read( data )
    ( site, date, compromised_indicator ) = parse( record )
    group by site
for each site
    map:date --> timeslice
    total_compromised_to_date, total_seen_to_date = 0
    for each timeslice in sort ( timeslices )
        total_compromised_to_date += compromised_for_timeslice
        total_seen_to_date += seen_for_timeslice
statistic[site, timeslice] = 0 or total_compromised_to_date /
                             total_seen_to_date




通信人家园 (https://www.txrjy.com/) Powered by C114