下载Boost库
Boost C++ Libraries
选择右边的Documentation
选择最新的1.87.0版本
可以在首页的这里下载最新版本
建立项目结构
- 新建目录boost_searcher
mkdir boost_searcher
- 移动到boost_searcher目录
cd boost_searcher
- 下载rz命令
yum install lrzsz
- 导入boost文件,获得对应的网页信息
rz
上传完成
5. 解包文件
tar xzf boost_1_87_0.tar.gz
解压完成
6. 可以删除掉压缩包
rm boost_1_87_0.tar.gz
- 创建data目录和底下的input目录
mkdir -p data/input
data目录底下的input放的就是数据源,也就是要进行搜索的8000多个html文档
8. 拷贝boost库当中的doc目录下的html的所有内容到data下的input目录下
cp -rf boost_1_87_0/doc/html/* data/input/
⽬前只需要boost_1_87_0/doc/html⽬录下的html⽂件,⽤它来进⾏建⽴索引
编写数据去标签与数据清洗的模块 Parser
- 新建一个parser文件,对网页信息进行去标签动作
touch parser.cc
要把原始数据变为去标签之后的数据
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>Chapter 30. Boost.Process</title>
<link rel="stylesheet" href="../../doc/src/boostbook.css" type="text/css">
<meta name="generator" content="DocBook XSL Stylesheets V1.79.1">
<link rel="home" href="index.html" title="The Boost C++ Libraries BoostBook
Documentation Subset">
<link rel="up" href="libraries.html" title="Part I. The Boost C++ Libraries
(BoostBook Subset)">
<link rel="prev" href="poly_collection/acknowledgments.html"
title="Acknowledgments">
<link rel="next" href="boost_process/concepts.html" title="Concepts">
</head>
<body bgcolor="white" text="black" link="#0000FF" vlink="#840084"
alink="#0000FF">
<table cellpadding="2" width="100%"><tr>
<td valign="top"><img alt="Boost C++ Libraries" width="277" height="86"
src="../../boost.png"></td>
<td align="center"><a href="../../index.html">Home</a></td>
<td align="center"><a href="../../libs/libraries.htm">Libraries</a></td>
<td align="center"><a href="http://www.boost.org/users/people.html">People</a>
</td>
<td align="center"><a href="http://www.boost.org/users/faq.html">FAQ</a></td>
<td align="center"><a href="../../more/index.htm">More</a></td>
</tr></table>
<>:html的标签,这个标签对我们进行搜索是没有价值的,需要去掉这些标签,一般标签都是成对出现的
2. 在data目录下创建raw_html目录,存放处理完之后的内容
mkdir raw_html
把每个⽂档都去标签,然后写⼊到同⼀个⽂件中
每个⽂档内容不需要任何\n
⽂档和⽂档之间⽤ \3 区分