题目大意:给定k次弹出宝物的机会,每次随机弹出n种宝物的机会,如果吃过这种宝物的所有前提宝物就可以吃这种宝物,求最优策略的期望得分
看到数据范围果断状压DP- - 不看数据范围害死人- -
至于吃还是不吃 这是个问题
对于这种最优策略的期望DP 我们一般都是从后往前推
枚举每次出现宝物 枚举此时的状态 枚举宝物是哪种
如果当前的宝物可以吃 就在吃与不吃的后继状态中选择最大值加到当前状态上
如果当前的宝物不能吃 只能选择不吃的后继状态加到当前状态上
最后输出f[1][0]就是答案
#include <cstdio> #include <cstring> #include <iostream> #include <algorithm> using namespace std; int k,n,score[20],pre[20]; double f[110][1<<15]; int main() { int i,j,x; cin>>k>>n; for(i=1;i<=n;i++) { scanf("%d",&score[i]); while(scanf("%d",&x),x) pre[i]|=1<<x-1; } for(i=k;i;i--) for(j=0;j<1<<n;j++) for(x=1;x<=n;x++) { if( (j&pre[x])==pre[x] ) f[i][j]+=max(f[i+1][j|(1<<x-1)]+score[x],f[i+1][j])/n; else f[i][j]+=f[i+1][j]/n; } printf("%.6lf\n",f[1][0]); return 0; }
原文地址:http://blog.csdn.net/popoqqq/article/details/43454337