2.认识标签和去标签|下载boost库|建立项目结构

下载Boost库

Boost C++ Libraries
![[Pasted image 20250209235520.png]]

选择右边的Documentation
![[Pasted image 20250210000332.png]]

选择最新的1.87.0版本
![[Pasted image 20250210000517.png]]

可以在首页的这里下载最新版本

建立项目结构
  1. 新建目录boost_searcher
mkdir boost_searcher

![[Pasted image 20250215082843.png]]

  1. 移动到boost_searcher目录
cd boost_searcher

![[Pasted image 20250215083008.png]]

  1. 下载rz命令
yum install lrzsz

![[Pasted image 20250215083557.png]]

  1. 导入boost文件,获得对应的网页信息
rz

![[Pasted image 20250215084553.png]]

![[Pasted image 20250215084730.png]]

上传完成
5. 解包文件

tar xzf boost_1_87_0.tar.gz

![[Pasted image 20250215084939.png]]

解压完成
6. 可以删除掉压缩包

rm boost_1_87_0.tar.gz

![[Pasted image 20250215085251.png]]

  1. 创建data目录和底下的input目录
mkdir -p data/input

![[Pasted image 20250215085444.png]]

data目录底下的input放的就是数据源,也就是要进行搜索的8000多个html文档
8. 拷贝boost库当中的doc目录下的html的所有内容到data下的input目录下

cp -rf boost_1_87_0/doc/html/* data/input/

![[Pasted image 20250215090315.png]]

⽬前只需要boost_1_87_0/doc/html⽬录下的html⽂件,⽤它来进⾏建⽴索引

编写数据去标签与数据清洗的模块 Parser
  1. 新建一个parser文件,对网页信息进行去标签动作
touch parser.cc

![[Pasted image 20250215090908.png]]

要把原始数据变为去标签之后的数据

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"  
"http://www.w3.org/TR/html4/loose.dtd">  
<html>
<head>  
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">  
<title>Chapter 30. Boost.Process</title>  
<link rel="stylesheet" href="../../doc/src/boostbook.css" type="text/css">  
<meta name="generator" content="DocBook XSL Stylesheets V1.79.1">  
<link rel="home" href="index.html" title="The Boost C++ Libraries BoostBook  
Documentation Subset">  
<link rel="up" href="libraries.html" title="Part I. The Boost C++ Libraries  
(BoostBook Subset)">  
<link rel="prev" href="poly_collection/acknowledgments.html"  
title="Acknowledgments">  
<link rel="next" href="boost_process/concepts.html" title="Concepts">  
</head>  
<body bgcolor="white" text="black" link="#0000FF" vlink="#840084"  
alink="#0000FF">  
<table cellpadding="2" width="100%"><tr>  
<td valign="top"><img alt="Boost C++ Libraries" width="277" height="86"  
src="../../boost.png"></td>  
<td align="center"><a href="../../index.html">Home</a></td>  
<td align="center"><a href="../../libs/libraries.htm">Libraries</a></td>  
<td align="center"><a href="http://www.boost.org/users/people.html">People</a>  
</td>  
<td align="center"><a href="http://www.boost.org/users/faq.html">FAQ</a></td>  
<td align="center"><a href="../../more/index.htm">More</a></td>  
</tr></table>

<>:html的标签,这个标签对我们进行搜索是没有价值的,需要去掉这些标签,一般标签都是成对出现的
2. 在data目录下创建raw_html目录,存放处理完之后的内容

mkdir raw_html

![[Pasted image 20250215091707.png]]

把每个⽂档都去标签,然后写⼊到同⼀个⽂件中
每个⽂档内容不需要任何\n
⽂档和⽂档之间⽤ \3 区分

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18426.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Transformer 模型介绍(三)——自注意力机制 Self-Attention

Transformer 模型由 Vaswani 等人于2017年提出&#xff0c;主要应用于序列到序列的任务&#xff0c;最初应用于机器翻译。其核心思想是通过自注意力机制捕捉序列中的长期依赖关系&#xff0c;从而有效地进行任务建模 在著名的论文《Attention Is All You Need》中&#xff0c;…

《AI大模型开发笔记》Open-R1:对 DeepSeek-R1 的完全开源再现(翻译)

Open-R1&#xff1a;对 DeepSeek-R1 的完全开源再现&#xff08;翻译&#xff09; 原文链接&#xff1a;https://huggingface.co/blog/open-r1 什么是 DeepSeek-R1&#xff1f; 如果你曾经为一道艰难的数学题苦思冥想&#xff0c;那么你就知道花更多时间、仔细推理是多么有用…

Java虚拟机面试题:JVM调优

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家&#xff0c;历代文学网&#xff08;PC端可以访问&#xff1a;https://literature.sinhy.com/#/?__c1000&#xff0c;移动端可微信小程序搜索“历代文学”&#xff09;总架构师&#xff0c;15年工作经验&#xff0c;精通Java编…

每日Attention学习23——KAN-Block

模块出处 [SPL 25] [link] [code] KAN See In the Dark 模块名称 Kolmogorov-Arnold Network Block (KAN-Block) 模块作用 用于vision的KAN结构 模块结构 模块代码 import torch import torch.nn as nn import torch.nn.functional as F import mathclass Swish(nn.Module)…

Centos安装php-8.0.24.tar

查看系统环境 cat /etc/redhat-release 预先安装必要的依赖 yum install -y \ wget \ gcc \ gcc-c \ autoconf \ automake \ libtool \ make \ libxml2 \ libxml2-devel \ openssl \ openssl-devel \ sqlite-devel yum update 1、下载解压 cd /data/ wget https:/…

百度千帆平台对接DeepSeek官方文档

目录 第一步&#xff1a;注册账号&#xff0c;开通千帆服务 第二步&#xff1a;创建应用&#xff0c;获取调用秘钥 第三步&#xff1a;调用模型&#xff0c;开启AI对话 方式一&#xff1a;通过API直接调用 方式二&#xff1a;使用SDK快速调用 方式三&#xff1a;在千帆大模…

linux-shell脚本

shell的编码语法 shell脚本的第一行内容是&#xff1a; #!/bin/bash&#xff0c;这句话相当于是一个导包语句&#xff0c;将shell的执行环境引入进去了。 shell中变量的命名要求&#xff1a; 只能使用数字、字母和下划线&#xff0c;且不能以数字开头 变量赋值是通过"&q…

免费deepseek的API获取教程及将API接入word或WPS中

免费deepseek的API获取教程: 1 https://cloud.siliconflow.cn/中注册时填写邀请码&#xff1a;GAejkK6X即可获取2000 万 Tokens; 2 按照图中步骤进行操作 将API接入word或WPS中 1 打开一个word&#xff0c;文件-选项-自定义功能区-勾选开发工具-左侧的信任中心-信任中心设置…

第1期 定时器实现非阻塞式程序 按键控制LED闪烁模式

第1期 定时器实现非阻塞式程序 按键控制LED闪烁模式 解决按键扫描&#xff0c;松手检测时阻塞的问题实现LED闪烁的非阻塞总结补充&#xff08;为什么不会阻塞&#xff09; 参考江协科技 KEY1和KEY2两者独立控制互不影响 阻塞&#xff1a;如果按下按键不松手&#xff0c;程序就…

Mybatisplus——Mybatisplus3.5.2版本使用Page分页插件查询,records有数据但是total显示0

目录 一、问题背景 debug 执行Mybatisplus使用Page分页插件查询时&#xff0c;发现 Page 里面的records有数据但是total显示0。 二、问题产生的原因 未配置MybatisPlus的分页插件拦截器导致的或者因mybatis-plus版本3.4或3.5版本导致原先的分页插件paginationInterceptor无法…

Windows安装 WSL2、Ubuntu 、docker(详细步骤 , 弃用 docker desktop )

前言 在现代软件开发领域&#xff0c;容器化技术已经成为提升应用部署效率和环境一致性的关键手段。Docker 作为一款卓越且被广泛应用的容器化平台&#xff0c;凭借其独特的技术架构&#xff0c;允许开发者将应用程序及其所需的全部依赖项&#xff0c;完整地打包进一个高度可移…

移动端测试的挑战与解决方案:兼容性、网络问题及实战策略

引言 移动应用已成为用户触达服务的核心入口,但移动端测试面临设备多样性、网络波动、用户场景复杂等多重挑战。据Statista统计,2023年全球活跃移动设备超180亿台,操作系统(Android/iOS)版本碎片化率超30%,这对测试工程师提出了极高要求。本文深度解析移动端测试的核心痛…

kron积计算mask类别矩阵

文章目录 1. 生成类别矩阵如下2. pytorch 代码3. 循环移动矩阵 1. 生成类别矩阵如下 2. pytorch 代码 import torch import torch.nn as nn import torch.nn.functional as Ftorch.set_printoptions(precision3, sci_modeFalse)if __name__ "__main__":run_code 0…

DeepSeek 概述与本地化部署【详细流程】

目录 一、引言 1.1 背景介绍 1.2 本地化部署的优势 二、deepseek概述 2.1 功能特点 2.2 核心优势 三、本地部署流程 3.1 版本选择 3.2 部署过程 3.2.1 下载Ollama 3.2.2 安装Ollama 3.2.3 选择 r1 模型 3.2.4 选择版本 3.2.5 本地运行deepseek模型 3.3.6 查看…

foobar2000设置DSP使用教程及软件推荐

foobar2000安卓中文版&#xff1a;一款高品质手机音频播放器 foobar2000安卓中文版是一款备受好评的高品质手机音频播放器。 几乎支持所有的音频格式&#xff0c;包括 MP3、MP4、AAC、CD 音频等。不论是经典老歌还是最新的流行音乐&#xff0c;foobar2000都能完美播放。除此之…

制作一个项目用于研究elementUI的源码

需求&#xff1a;修改el-tooltip的颜色&#xff0c;发现传递参数等方法都不太好用&#xff0c;也可以使用打断点的方式&#xff0c;但也有点麻烦&#xff0c;因此打算直接修改源码&#xff0c;把组件逻辑给修改了 第一步下载源码 源码地址 GitHub - ElemeFE/element: A Vue.j…

DDoS技术解析

这里是Themberfue 今天我们不聊别的&#xff0c;我们聊聊著名的网络攻击手段之一的 DDoS&#xff0c;看看其背后的技术细节。 DoS 了解 DDoS 前&#xff0c;先来讲讲 DoS 是什么&#xff0c;此 DoS 而不是 DOS 操作系统啊。1996年9月6日&#xff0c;世界第三古老的网络服务提供…

【学习资源】时间序列数据分析方法(1)

时间序列数据分析是一个有趣的话题&#xff0c;让我们多花一些时间来研究。此篇为第一篇文章。主要介绍特征提取方法、深度学习时序数据分析模型、参考资源。期望能帮助大家解决工业领域的相关问题。 1 特征提取方法&#xff1a;信号处理 (来源:INTELLIGENT FAULT DIAGNOSIS A…

0基础学LabVIEW

对于零基础的朋友来说&#xff0c;学习LabVIEW需要一个科学的学习路径和方法。通过观看优质的B站教程打好基础&#xff0c;再结合实际项目进行实践操作&#xff0c;能够快速提升LabVIEW的应用能力。以下是从入门到进阶的学习建议。 ​ 一、利用B站入门教程打基础 筛选优质教程…

微软AutoGen高级功能——Selector Group Chat

介绍 大家好&#xff0c;这次给大家分享的内容是微软AutoGen框架的高级功能Selector Group Chat(选择器群聊)&#xff0c;"选择器群聊"我在给大家分享的这篇博文的代码中有所体现微软AutoGen介绍——Custom Agents创建自己的Agents-CSDN博客&#xff0c;但是并没有详…