本章内容包括:
- 配置Power BI以使数据增量刷新
- 发现使用Power BI Desktop and Services保护数据集的方法
- 在不影响性能和完整性的情况下管理海量数据集
如果有更新的、更相关的数据可用,旧数据对组织没有好处。而且,老实说,如果数据陈旧且缺乏完整性,积极使用Power BI处理数据的分析师是否能够创建新的引人注目的报告、观察仪表盘并进行复杂的计算?我对此表示怀疑。确保您的Power BI数据集是首屈一指的,并像您梦想的团队主力一样发挥作用,这是每个用户的目标。这就是为什么Microsoft在Power BI中集成了几个数据刷新和安全功能。在本章中,您将了解如何设计、配置和部署企业Power BI数据集,以实现数据刷新和细粒度安全。
建立刷新计划
如果数据没有保持干净和最新,它有什么好处?一些数据分析师可能更喜欢在Power BI Desktop and Services中手动刷新数据。尽管如此,当您需要确保定期更新数据以获得数据相关性时,这种方法是不合逻辑的。
推出计划的刷新
当您的数据排成一排,并且只想制定一个在线刷新时间表时,您可以在Power BI Services中设置该活动。要创建时间表更新,请执行以下步骤:
- 转到工作区中的“数据集+数据流”选项卡。
- 找到数据集,然后单击“计划刷新”按钮。这会将您带到另一个屏幕,在那里您可以选择配置时间表刷新。
- 在Scheduled Refresh窗格中(见图18-1),修改时间表以适应您的刷新时间表。
您可以使用“定时刷新”设置更改定时刷新的频率、时区和时间。然后,任何计划通知都可以发送到特定的电子邮件地址或可用的Active Directory组。
上面的示例假设您已经建立了一个数据网关。如果你还没有,请密切关注下一节。
刷新内部部署数据
刷新的另一个常见用例涉及访问本地数据。对于该任务,您需要使用数据网关——一种支持连接详细信息和凭据的网桥。您可以从Power BI Services下载并安装数据网关,方法是转到Power BI Services主页顶部的“设置”菜单。到达后,选择“设置” ⇒ 下载⇒ 数据网关,如图18-2所示。
有两种网关模式:标准模式和个人模式。以下是它们的区别:
- 标准模式:当您需要多个人访问网关时,标准模式是合适的。您还可以将标准模式数据网关与其他Microsoft服务一起使用,尤其是Power Platform系列。数据源只能添加一次,因此对于寻求数据完整性的公司环境来说,它是一个极好的选择。您也可以选择为数据源应用通用凭据。
- 个人模式:在此模式下,只有单个用户可以使用网关。此外,网关只能由Power BI使用。如果不需要共享,则可以使用个人模式。否则,您只能选择标准模式。
假设您已经安装了网关,或者Power BI Services组管理已授予您作为网关用户的访问权限,则您现在有权使用网关刷新使用onpromises数据集的数据集。
对于每个网关,您可以在“数据集设置”菜单上选择不同的数据集。要进行这些更改,请执行以下配置步骤:
- 转到工作区中的“数据集”选项卡。
- 选择要查看的数据集。
- 将光标悬停在列表中的数据集上。
- 当您选择的数据集的设置显示在右侧的窗格中时,如图18-3所示,单击右侧的Gateway Connection选项。然后,您将看到一个数据源列表以及相关的数据网关。
- 对于每个数据网关,选择要映射到的数据源,如图18-4所示
每次创建数据源时,都需要在“数据源”部分提供数据源凭据。这意味着您需要安全地编辑凭据,以便将其缓存在Power BI服务中。
保护数据
数据是宝贵的。不是每个人都应该访问它。如果它在你的桌面上,除非你共享你的电脑,否则它通常只限于你。然而,一旦数据进入互联网,所有的赌注都会落空。你需要保护你组织的皇冠明珠。这意味着数据集、报告和仪表板可能需要集中的安全设置。这就是为什么您希望使用Power BI实现行级安全性(RLS)来限制数据访问,这样未经授权的用户就不会获得对数据的未经授权访问。使用RLS时,筛选器会在行级别限制数据访问。您可以在角色中定义筛选器。指定工作区的成员可以访问Power BI Services数据集,前提是您属于已配置的安全组。
配置RLS可能发生在许多不同的地方。例如,您可以在Power BI Desktop中配置RLS,也可以将DirectQuery与SQL Server一起使用。当使用Analysis Services或Azure Analysis Services实时连接时,您可以在模型中配置RLS。尽量避免使用Power BI Desktop配置安全性--您的配置不会出现在实时连接数据集中。
配置组成员身份
要创建组成员身份,您需要首先在Power BI Desktop中定义角色和规则。一旦您准备好发布,这些详细信息就会与发布的数据模型相关联。要配置这些角色和规则,请从Power BI Desktop启动,然后按照以下步骤操作:
- 选择“模型”选项卡。
- 找到“管理角色”按钮。
- 在“角色”下,按“创建”按钮,然后在框中填写新角色的名称。
- 重复此过程,直到添加了您认为足够的角色数量
- 选择所选的角色和表格。
- 选择“角色”或“表”标签右侧的省略号以打开一个窗格,用于创建要筛选的DAX表达式。样本条件如图18-5所示。
- 创建了要在Power BI Services中使用的所有角色要求后,请单击“保存”。
您不会在Power BI Desktop中为用户分配角色。这种情况发生在Power BI Services中。使用DAX表达式可以在Power Desktop中启用安全分配。
在Power BI服务中进行角色分配
当涉及到Power BI Desktop中的角色分配时,您不能只是“设置后就忘记”。发布到Power BI Services时,您只是在创建一个安全蓝图。毕竟,您正在不断地将数据发布到互联网上。然后,在工作区中为用户和组分配对报告、数据集和仪表板的访问权限,以便进行共享和协作。随着时间的推移,您在Power BI Services中的角色既是管理用户访问内容的安全性,也是数据专家。
您需要先转到数据集,然后在工作区设置中找到该数据集的安全设置。如果您以前没有定义过角色,您会看到一条如图18-6所示的消息。
一旦您配置了RLS并将模型发布到PowerBIServices,结果将类似于图18-7中所示。在左侧,您可以找到此特定数据集的角色。括号中的数字显示每个角色有多少成员。在右侧,您可以控制每个成员组及其关联的角色。
照顾一两个用户是小菜一碟,但几百或几千个用户呢?相同的用户可能对数据集使用相同的行级安全设置,这意味着将这些用户分配给与分配行中的成员完全相同的安全组。在这些条件下,您可以创建一个单独的安全组一次,然后您的工作就完成了。
共享数据之爱
Power BI服务允许不同用户和组之间进行协作。这不仅仅是关于共享数据集,还涉及共享报告和应用程序。您可以通过多种方式大规模共享数据,包括以下列表中所述的方式:
- 工作区:发布到Power BI Services时,可以发布到工作区。发布到工作区后,您将自动获得对已发布数据集的访问权限。至于其他用户,您可以根据具体情况分配角色,前提是您拥有这样做的许可。
- App:如果您通过应用程序将数据集提供给其他人,则需要授予应用程序用户“构建”权限。事实上,所有用户都必须具有相同的Build权限;这里的情况要么全有要么全无。创建App时转到Permissions选项卡,并使用设置分配权限,如图18-8所示。
如果要使用“权限”选项卡吊销安全组用户的应用程序访问权限,则不会自动吊销他们对数据集的访问权限。删除访问权限需要管理对实际数据集的权限,而不仅仅是App。
在小步骤中刷新数据
数据集有各种形状和大小。即使Power BI试图实时压缩数据,你也会发现一些数据很小,而另一些则重达几GB。Power BI尽其所能缓解速度、资源使用和可靠性问题。解决这三个问题的方法是使用增量刷新。
增量刷新允许您刷新数据子集,从而以更低的资源使用和消耗实现更快、更可靠的刷新。假设您知道您的数据将扩展到千兆字节的范围。在这种情况下,请考虑尽早将增量刷新计划作为部署策略的一部分。要使此类增量刷新在Power BI Services中工作,必须在Power BI Desktop中进行配置。以下是需要采取的步骤:
- 创建RangeStart和RangeEnd参数。
- 使用RangeStart和RangeEnd参数进行筛选。
- 定义增量刷新策略。
接下来的几节将深入了解流程的每一步
创建RangeStart和RangeEnd参数
在Power BI Desktop中创建用于筛选的增量刷新参数是确保您的数据始终闪闪发光的第一步。需要创建的两个参数是RangeStart和RangeEnd。与DAX参数一样,这些参数区分大小写。如果您尝试使用其他参数名称,您将失去运气。
以下是您需要做的:
- 转到Power Query开始此过程。
- 进入Power Query后,单击Power BI功能区的“主页”选项卡上的“管理参数”,然后从显示的菜单中选择“新建参数”
- 在“参数”窗格的“名称”字段中输入RangeStart。
- 从类型下拉菜单选择日期/时间,从建议值下拉菜单选择任意值。
- 在“当前值”字段中输入以下日期:01/01/2021。Power Query稍后可能会更改此值的格式,具体取决于您的系统设置。不要惊慌!此外,您输入的日期是基于您的个人需求--
它们不是一成不变的。 - 对RangeEnd重复步骤。
当前值字段的日期应为2023年12月31日。您的日期格式可能会有所不同,具体取决于Power BI中的系统格式方案。
您刚刚在PowerQuery中输入的内容示例如图18-9所示。
按RangeStart和RangeEnd筛选
为了支持增量刷新,需要使用RangeStart和RangeEnd参数配置筛选器。假设您希望在每次文件更新新的奖励日期时学习,无论是获胜、失败还是更新详细信息。使用文件中的日期数据,您的团队将能够识别这些更改。以下是使用Power BI Desktop的方法:
- 转到Power Query Editor。
- 单击以从查询列表中选择“Awards”表。
- 选择“截止日期”列标题,然后从显示的菜单中选择“日期/时间筛选”选项。您将为“Awards”列启动一个筛选器。
- 向下搜索到“自定义筛选器”选项。您现在要设置“增量刷新”参数。不过,您需要对上一节进行一些修改。
- 当“筛选行”界面出现时,确保已选择“基本”,然后从第一个下拉菜单中选择“在之后”或“等于”选项。
- 单击日历图标.执行此操作会显示“日期”、“参数”或“新建参数”菜单。
- 选择“新建参数”选项
- 在出现的新窗格中,单击RangeStart。
- 将“日期”类型从“日期/时间”更改为“日期”,然后按“确定”。
- 现在,您已经为过滤器建立了第一个参数。
从底部下拉菜单中选择“在之前”或“等于”选项。
- 单击日历图标.执行此操作会再次显示“日期”、“参数”或“新建参数”菜单。
- 在出现的新窗格中,单击RangeEnd。
- 将“日期”类型从“日期/时间”更改为“日期”,然后按“确定”。现在已经为过滤器建立了第二个参数。在这个阶段,您成功地创建了18-10中的过滤条件。
- 单击“确定”按钮。
- 单击功能区的“关闭并应用”按钮以退出“增强查询编辑器”。
建立增量刷新策略
每当您为增量刷新设置过滤器时,都需要再完成一个步骤——定义执行策略。在所示的示例中,“Awards”表中有一列“截止日期”,您可以按照以下步骤创建策略:
- 转到Power BI Desktop的字段窗格,右键单击要增量刷新的表。
- 从显示的菜单中选择“增量刷新”。(见图18-11)。请确保从下拉菜单中选择正确的表格。
- 在出现的新屏幕中,将“增量刷新”切换到“打开”。
- 选择必须存储和刷新数据的时间段。
- 封存数据意味着将其永久保存;更新它的相关性是一种刷新。您可以选择复选框来检测数据更改或仅在全天刷新。
- 完成后选择“全部应用”按钮。
像对待黄金一样对待数据
你是否已经在数据集上工作了很长时间,现在,当它准备好进入黄金时段时,你想告诉世界它已经准备好进入表演时段了?当然,你不会赢得任何金牌、银牌或铜牌。不过,您可以通过背书技术提高数据集的可见性,供其他人访问。
对于分析师来说,数据集就是数据集。分析师希望确保数据集是可靠、实用和准确的。一些数据集可以作为测试创建,而其他数据集则用于生产,并被视为真实来源。
无论您使用的是哪种商业智能工具(包括Power BI Desktop或Power BI Services),在搜索时,一天结束时的数据都会转换回代码。这就是为什么要强制使用数据集背书。换句话说,让报告的创建者确切地知道哪些数据集是可靠的,可以使用。
您可以在Power BI中认可多个内容资产,包括数据集、数据流、报告和应用程序。您可以通过两种方式实现背书:
- 推广:当内容被指定为推广时,它会收到一个徽章,表示该内容已准备好供其他用户使用。工作区中有权访问其所在内容的参与成员可以升级该内容。内容推广的目标是可重用性。
- 认证:认证表明,建议使用内容资产,因为它高度可靠、精心策划且维护良好。Power BI管理员必须为用户分配认证组内内容的指定。
无论内容类型如何,背书的过程都是一样的。
要配置背书,请执行以下步骤:
- 转到Power BI Services。
- 找到包含要升级的内容资产(数据集、数据流、报表或应用程序)的工作区。
- 单击内容类型左侧的三个垂直点。
- 选择“设置”。屏幕右侧会出现“设置”窗格,
- 向下滚动窗格至“认可”部分。在背书下,您有四个选项可供选择:无、晋升、认证和主页功能,如图18-12所示。
请注意,在图18-12中,Certified选项显示为灰色。这是因为系统管理员必须为特定用户或组启用背书,然后才能允许他们在给定的工作区内配置任何内容。图18-13中显示了两个促销项目的示例。
配置大数据
你能想象一个数据集增长超过10 GB吗?在大数据世界中,这种用例每天都会发生。然而,曾几何时,像Power BI这样的工具所能处理的问题都被应用了硬上限。想象一下,一个生产商业智能系统在运行,突然有一天因为产能过剩而停止。这不会很顺利。运行Power BI Premium的企业级客户可以使用一项功能来延长数据集的使用寿命,从而实现大型数据集格式。好处是丰富的。
- 数据集可以增长到10GB以上。
- 当使用XMLforAnalysis(XMLA)时,写操作会更快。(有关XMLA的更多信息,请参阅第5章。)
使用此方法可以通过两种方式增长数据集:单独增长或作为高级工作区中的默认增长。如果您决定单独增长数据集,请执行以下步骤:
- 转到Power BI Services。
- 找到包含要增长的数据集的工作区。
- 单击数据集类型左侧的三个垂直点。
- 单击“设置”。
- 假设您拥有高级许可证,向下滚动到页面标题为“大型数据集存储格式”的部分。
- 在Large Dataset Storage Format下,将切换设置为On,然后单击Apply,如图18-14所示。
如果您看到大型数据集存储格式变灰,则表示您没有Premium许可证,也没有在您的环境中更改此类容量的权限。
整个工作区的配置需要一种稍微不同的方法——请执行以下步骤:
- 转到工作区中的“设置”。
- 找到“高级”部分。
- 导航到“许可证”下拉菜单。(见图18-15。)
- 根据您的“特优”许可证类型,在“许可证模式”标题下选择“每用户付费”或“每容量付费”。在这种情况下,您可以选择“按用户付费”。
- 从默认存储格式下拉菜单中选择大型数据集存储格式。(参见图18-15。)
- 单击“保存”按钮。现在,您已针对整个工作区的大数据进行了配置。