通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  列兵

注册:2010-1-11
跳转到指定楼层
1#
发表于 2010-1-13 10:41:45 |只看该作者 |正序浏览
Terasort:
hadoop自带有生成代码,每条记录100字节左右,前面10字节拿来做索引。在每个计算节点生成10GB数据,共处理N*10GB数据量。数据生成时间一般不计算在内。
TeraSort Sort09之后可能被Minute sort 替换。
计算过程就是做排序。

MalStone:
分为MalStone A-10和MalStone B-10基准。
用malgen生成100亿条记录,生成的数据带有时间戳,时间随机分布在一年里面。每条记录100字节左右。
记录格式:
Event ID | Timestamp | Site ID | Compromise Flag | Entity ID
计算过程算法伪代码如下:
for record in read( data )
    ( site, date, compromised_indicator ) = parse( record )
    group by site
for each site
    map:date --> timeslice
    total_compromised_to_date, total_seen_to_date = 0
    for each timeslice in sort ( timeslices )
        total_compromised_to_date += compromised_for_timeslice
        total_seen_to_date += seen_for_timeslice
statistic[site, timeslice] = 0 or total_compromised_to_date /
                             total_seen_to_date

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-11-16 04:31 , Processed in 0.088647 second(s), 15 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部