merge之是否可以在 SAS Data Step 中使用不同的键将两个以上的数据集合并在一起

yjmyzz 阅读:63 2024-12-31 21:38:35 评论:0

这在 (PROC) SQL 中是非常微不足道的,但是通过一个数据步骤来看,我发现严重缺乏关于这个主题的文档。

大多数多数据集合并在 BY 语句中使用相同的键。

请您参考如下方法:

从技术上讲,即使使用 merge 语句也可以做到这一点,这可能会让大多数人感到惊讶。有时您甚至可以得到您期望的数据。

这按预期工作:

proc means data=sashelp.class; 
  class age; 
  types age; 
  var height; 
  output out=mean_height_age mean= /autoname; 
run; 
 
proc means data=sashelp.class; 
  class age sex; 
  types age*sex; 
  var weight; 
  output out=mean_weight_sex mean= /autoname; 
run; 
 
proc sort data=sashelp.class out=class; 
  by age sex; 
run; 
 
 
data class_means; 
  merge class mean_height_age; 
  by age; 
  merge class mean_weight_sex; 
  by age sex; 
run; 

这些之所以有效,是因为顺序并不矛盾(第二个 by 与第一个 by 兼容)。

但是,如果您更多地考虑具有完全独立的合并键的关系数据库,则可以诱使 SAS 做一些看似有效的事情,但事实并非如此。请注意,就年龄而言,最终数据集似乎有点困惑 - 这是因为来自 class_index 的第二个合并语句中的传入行覆盖了第一组记录,并且以不同的方式进入顺序(根据索引)。

proc means data=sashelp.class; 
  class age; 
  types age; 
  var height; 
  output out=mean_height_age mean= /autoname; 
run; 
 
proc means data=sashelp.class; 
  class sex; 
  types sex; 
  var weight; 
  output out=mean_weight_sex mean= /autoname; 
run; 
 
data class_index(index=(sex) index=(age)); 
  set class; 
run; 
 
 
data class_means; 
  merge class_index mean_height_age; 
  by age; 
  merge class_index mean_weight_sex; 
  by sex; 
run; 

您可以通过再次重新设置 class_index 数据集清楚地看到这一点。

data class_means; 
  merge class_index mean_height_age; 
  by age; 
  merge class_index mean_weight_sex; 
  by sex; 
  set class_index; 
  by age; 
run; 

返回按年龄正确,但按性别错误。


如果您要这样做(两个独立的、不相关的键),您有很多选择。最常用的可能是用户定义的格式。这使用格式查找表来存储关系,然后你只需 put (或者 input 如果你想要一个数字,但你可能必须 input(put ( 如果您必须制作格式而不是信息格式)。

data for_fmt_age; 
  set mean_height_age; 
  start = age; 
  label = height_mean; 
  fmtname='HEIGHTAGEF'; 
  output; 
run; 
 
 
data for_fmt_sex; 
  set mean_weight_sex; 
  start = sex; 
  label = weight_mean; 
  fmtname='$WEIGHTSEXF'; 
  output; 
run; 
proc format cntlin=for_fmt_sex; 
quit; 
 
proc format cntlin=for_fmt_age; 
quit; 
 
 
data want; 
  set sashelp.class; 
  mean_height = put(age,heightagef.); 
  mean_weight = put(sex,$weightsexf.); 
run; 

第二个选项是键控集;这与合并最相似,只需要在合并的数据集上创建索引。

proc datasets lib=work; 
  modify mean_height_age; 
  index create age; 
  run; 
  modify mean_weight_sex; 
  index create sex; 
  run; 
quit; 
 
data class_nomerge; 
  set class_index; 
  set mean_height_age key=age; 
  set mean_weight_sex key=sex; 
run; 

最后,您可以使用哈希表,它有点深奥但非常易于使用。无需排序或任何其他要求,只需数据步骤本身。

data want; 
  set sashelp.class; 
  if 0 then set mean_height_Age mean_weight_sex; 
  if _n_=1 then do; 
    declare hash h_age(dataset:'mean_height_age'); 
    h_age.defineKey('age'); 
    h_age.defineData('height_mean'); 
    h_age.defineDone(); 
 
    declare hash h_sex(dataset:'mean_weight_sex'); 
    h_sex.defineKey('sex'); 
    h_sex.defineData('weight_mean'); 
    h_sex.defineDone(); 
 
  end; 
  rc_age = h_age.find(); 
  rc_sex = h_sex.find(); 
run; 


标签:集合
声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

关注我们

一个IT知识分享的公众号