【大数据实训】用Hbase模拟电影搜索引擎(四)

博主介绍全网粉丝6W+,csdn特邀作者、博客专家、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战

🍅文末获取项目联系🍅

《云计算与大数据处理》课程大作业评分表

项目考核内容考核/评价细则小项分大项分
数据集20%数据清洗或生成模拟数据集20%A、正确完成数据清洗,或生成的模拟数据集质量高、多样性好,代码规范、可读性高。B、正确地完成数据清洗,或生成的模拟数据集质量较高、多样性较好,代码较规范、可读性好。C、较为正确地完成数据清洗,或生成的模拟数据集质量一般、缺乏多样性较好,代码基本符合规范、可读性一般。D、基本正确地完成数据清洗,或生成的模拟数据集质量一般、多样性较差,代码不太规范、可读性差。E、没有正确完成数据清洗,或生成的模拟数据集质量较差、多样性差,代码不规范、可读性差。
Hbase或MapReduce编程50%项目的完成度60%A、针对大作业题目,非常完美地实现了所要求的功能,甚至增加了一些大数据处理功能,代码设计非常合理、规范、可读性高。B、针对大作业题目,完整地实现了所要求的功能,代码设计合理、规范、可读性较好。C、针对大作业题目,实现了所要求的功能,代码设计较合理、规范、可读性一般。D、针对大作业题目,基本正确地实现了所要求的功能,代码设基本合理,规范、可读性较差。E、针对大作业题目,部分实现了所要求的功能,代码设计不合理,规范、可读性较差,或存在抄袭现象。
项目功能效果与测试(40%)A、对每一个功能、每一个步骤,都有严格的测试和效果评价,测试过程详实,记录很完整。B、对每一个功能、每一个步骤,都有较完整的测试和效果评价,测试过程完整,记录完整。C、对每一个功能、每一个步骤,都有作了测试和效果评价,测试过程基本完整,但记录可能不完整。D、对每一个功能、每一个步骤,只作了简单的测试和效果评价,测试过程基本完整,但记录可能不完整。E、对大作业要求的功能没有测试或测试不完整,也没有效果评价,也没有作相应的记录。
报告30%报告质量70%A、报告质量很高,对涉及的原理或采用的方法(Hbase或MapReduce等,以下同),都有充分阐述,甚至加上了自己的理解和分析,图文并茂,步骤清晰,记录(包括截图)很完整。B、报告质量较高,对涉及的原理或采用的方法,都有完整的阐述,图文丰富,步骤清晰,记录(包括截图)完整。C、报告质量一般,对涉及的原理或采用的方法,阐述不完整或者有一些错误,图表不多,记录(包括截图)基本完整。D、报告质量不高,没有完整地阐述涉及的原理或采用的方法,几乎没有图表,步骤不清晰,记录(包括截图)不完整。E、报告质量很差或存在50%条目书写不完全符合要求或抄袭。
报告规范30%A、报告很完整,图、文、表格排版很规范,标题、页眉、页脚等格式也很规范。B、报告较为完整,图、文、表格排版比较规范,其他格式较规范。C、报告较为完整,图、文、表格排版基本规范,其他格式基本规范。D、报告不完整或不规范,特别是图表的排版较差。E、报告不规范,甚至有抄袭。

目 录

(说明:目录由系统自动生成。打印时删除此说明文字)

第一章 概述

1.1 任务概述

1.2 数据集描述

第二章 生成模拟数据集

2.1 目标

2.2 实现思路

2.3 实现代码

第三章 功能实现

3.1 功能1实现

3.2 功能2实现

3.3 功能3实现

第四章 运行及测试

4.1 编译运行

4.2 测试

4.3 打包执行

第一章 概述

说明:

  1. 每一章每一节,可以加上自己的理解,尽量丰富内容。

  2. 在功能上可以根据自己的能力增加一些功能。

  3. 本文档所有说明性文字,在打印之前都应该删除掉。

  4. 本文档只提供了基本的模板,每章都可以根据自己实现的功能和理解增加一些章节,每节都应该尽量丰富内容。

1.1 任务概述

题目:电影搜索引擎

功能:根据文档数据集,模拟用户输入一个电影关键

词后,搜索到哪些文档

1.2 数据集描述

用Java语言编写程序,按以下格式要求生成一个较大的模拟数据集

(不少于10000条数据)。文档ID关键词ID1:出现次数关键词ID2:出现次数关键词ID3:出现次数关键词ID4:出现次数.

第二章 生成模拟数据集

如果是对现成的数据集作了清洗,则改成“数据清洗”。

2.1 目标

用Java语言生成一个较大的模拟数据集,达到模拟海量数据的效果。

2.2 实现思路

生成模拟数据集:用C+、Java、Python等语言编写程序,按以下格式要求生成一个较大的模拟数据集(不少于10000条数据)。文档ID关键词ID1:出现次数关键词ID2:出现次数关键词ID3:出现次数关键词ID4:出现次数.…

注意:关键词D1:6,表示关键词D1这一列的值为

6(即出现次数)

2.3 实现代码

第三章 功能实现

本章对每一个功能,详细描述其实现原理,实现方法,实现代码,尽可能图文并茂。

3.1 功能实现

HBase编程:编写Java程序,实现本题功能,即在HBase中创建一个表doc,把数据集中的数据全部插入到doc表,然后再输入一个电影关键词,按以下格式输出查询结果。尽可能详细描述程序的编译、在IDE环境下测试、打包、执行完整过程,附相应的截图及程序执行结果文档ID1:出现次数文档ID2:出现次数文档ID3:出现次数

实验结果:

img

第四章 运行及测试

本章详细描述完整程序的编译、测试、打包、执行过程,要附截图。

根据实际情况修改每一节标题。

4.1 编译运行

点击执行 开始模拟数据集,并根据关键词搜索信息

img

img

4.2 测试

运行结果

img

4.3 打包执行

get ‘nlp_graph:doc’,’1’

img

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/127939.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

centos 端口被占用的快速排查方式

问题笔记 centos 端口被占用的快速排查方式 centos 端口被占用的快速排查方式 这里说一个我刚刚遇到的问题,解决步骤用来记录,方便以后自己查询。 nginx配置完index.html测试文件,发现一直显示的404页面。 我跑到服务器上想重启一下nginx …

使用Maven创建父子工程

📚目录 创建父工程创建子模块创建子模块示例创建认证模块(auth) 结束 创建父工程 选择空项目: 设置:项目名称,组件名称,版本号等 创建完成后的工程 因为我们需要设置这个工程为父工程所以不需要src下的所有文件 在pom…

认识JVM的内存模型

从上一节了解到整个JVM大的内存区域,分为线程共享的heap(堆),MethodArea(方法区),和线程独享的 The pc Register(程序计数器)、Java Virtual Machine Stacks(…

编程语言排行榜

以下是2023年的编程语言排行榜(按照流行度排序): Python:Python一直以来都是非常受欢迎的编程语言,它简洁、易读且功能强大。在数据科学、机器学习、人工智能等领域有广泛应用。 JavaScript:作为前端开发…

Lua03——开发环境搭建

1 安装开发插件 在 idea 或 vscode 中安装 lua 的开发插件 EmmyLua 2 创建工程 在 idea 中创建一个新的工程 工程的类型选择 lua 输入工程名及目标目录 在工程结构的SDK中设置lua在本地安装目录 在工程结构的modules中选择 lua 3 编写第一个lua程序 在工程下添加程序包&#…

Redis总结(一)

目录 Redis简介 为什么使用Redis作为MySQL的缓存? 高性能 高并发 Redis数据结构及其使用场景分别是什么? String(字符串) 内部实现 常用命令 普通字符串基本操作 批量设置 计数器(字符串内容为整数时使用&a…

[学习笔记]Node2Vec图神经网络论文精读

参考资料:https://www.bilibili.com/video/BV1BS4y1E7tf/?p12&spm_id_frompageDriver Node2vec简述 DeepWalk的缺点 用完全随机游走,训练节点嵌入向量,仅能反应相邻节点的社群相似信息,无法反映节点的功能角色相似信息。 …

集创北方ICN6202 MIPIDSI转LVDS转换芯片

集创北方ICN6202 1.描述: ICN6201是一个接收MIPIDSI输入和发送LVDS输出的桥接芯片。MIPIDSI最多支持4个车道,每个车道的最大运行频率为1Gbps;总最大输入带宽为4Gbps;并且还支持MIPI定义的ULPS(超低功耗状态&#xff…

c++通过tensorRT调用模型进行推理

模型来源: 算法工程师训练得到的onnx模型 c对模型的转换: 拿到onnx模型后,通过tensorRT将onnx模型转换为对应的engine模型,注意:训练用的tensorRT版本和c调用的tensorRT版本必须一致。 如何转换: 算法工…

机器人制作开源方案 | 桌面级机械臂--应用设计

本节内容将基于机器视觉带着大家进行应用实训。机器视觉是人工智能正在快速发展的一个分支,简单说来机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品(即图像摄取装置,分CMOS和CCD两种)将被摄取目标转换…

Android学习之路(14) Context详解

一. 简介 在 Android 开发中、亦或是面试中都离不开四大组件的身影,而在创建或启动这些组件时,并不能直接通过 new 关键字后跟类名来创建实例对象,而是需要有它们各自的上下文环境,也就是本篇文章要讨论的 Context。 1.1 Contex…

ComPtr源码分析

ComPtr源码分析 ComPtr是微软提供的用来管理COM组件的智能指针。DirectX的API是由一系列的COM组件来管理的,形如ID3D12Device,IDXGISwapChain等的接口类最终都继承自IUnknown接口类,这个接口类包含AddRef和Release两个方法,分别用…

Qt6中使用Qt Charts

官方文档:Qt Charts 6.5.2 如果你是使用 CMake 构建的,则应在 CMakeLists.txt 中添加如下两行代码: find_package(Qt6 REQUIRED COMPONENTS Charts)target_link_libraries(mytarget PRIVATE Qt6::Charts) 其中 mytarget 为你的项目名称。一共…

aardio语言的通用数据表维护

import win.ui; /*DSG{{*/ var winform win.form(text"通用数据表维护";right617;bottom427;bgcolor15780518) winform.add( buttonAdd{cls"button";text"增加空行";left469;top40;right564;bottom80;flat1;z2}; buttonDel{cls"button&quo…

应用爆炸式增长,看F5如何做好网络安全防护

近年来,应用的数量呈现爆炸式增长。出行、支付、订单,开会,数字化的形式都在取代传统的消费,业务开展、工作内容都在发生着巨大的变化。随着数字化进程的加速,安全风险、安全问题暴露得越来越多。作为拥有强大安全基因…

【雷达原理】雷达信号级建模与仿真

目录 前言一、LFMCW信号概述1.1 优点1.2 缺点 二、LFMCW信号模型2.1 发射信号模型2.2 接收信号模型2.3 信号混频 三、MATLAB仿真3.1 仿真结果3.2 代码 四、参考文献 前言 雷达信号形式多种多样,按照雷达的体制进行分类,有脉冲雷达和连续波雷达。脉冲雷达…

Nacos docker实现nacos高可用集群项目

目录 Nacos是什么? Nacos在公司里的运用是什么? 使用docker构建nacos容器高可用集群 实验规划图:​编辑 1、拉取nacos镜像 2、创建docker网桥(实现集群内的机器的互联互通(所有的nacos和mysql)&#x…

pytorch代码实现之空间通道重组卷积SCConv

空间通道重组卷积SCConv 空间通道重组卷积SCConv,全称Spatial and Channel Reconstruction Convolution,CPR2023年提出,可以即插即用,能够在减少参数的同时提升性能的模块。其核心思想是希望能够实现减少特征冗余从而提高算法的效…

WebDAV之π-Disk派盘 + 天悦日记

天悦日记是一款清爽简约的日记记录工具,通过天悦日记app随时随地快速写日记,更有智能数据统计分析报表,多端同步多种备份,本地备份和基于WebDAV协议的云端备份。跨平台使用,支持多设备、多平台无差别使用。天悦日记将每一天经历都清晰记录在手机,一目了然知道曾经的经历,…

Linux初探 - 概念上的理解和常见指令的使用

目录 Linux背景 Linux发展史 GNU 应用场景 发行版本 从概念上认识Linux 操作系统的概念 用户的概念 路径与目录 Linux下的文件 时间戳的概念 常规权限 特殊权限 Shell的概念 常用指令 ls tree stat clear pwd echo cd touch mkdir rmdir rm cp mv …