利用大模型实时提取和检索多模态数据探索-利用 Indexify 进行文档分析

概览

传统的文本提取方法常常无法理解非结构化内容,因此提取数据的数据往往是错误的。本文将探讨使用 Indexify,一个用于实时多模态数据提取的开源框架,来更好地分析pdf等非结构化文件。我将介绍如何设置 Indexify,包括服务器设置、提取graph创建、文档导入和数据查询,以及如何创建自定义提取器。通过 Indexify 可以增强文档分析,从而获得更准确的见解、做出更好的决策并简化管理流程。

Indexify 介绍

Indexify 是一个开源的导入和提取引擎,旨在为实时 LLM 应用提供支持。它能够以极低的延迟从非结构化来源进行实时数据提取。它还支持可应用于各种用例的多模态提取工作流程,包括从文档中提取实体和嵌入、音频转录、摘要以及从图像甚至视频中检测对象。

它还支持高效地索引、存储和检索数据,使其成为可扩展实时 RAG 系统的工具。

任何工作流程都可以通过 4 个基本步骤轻松实现:

  1. 启动 Indexify 服务器和提取器。
  2. 创建提取graph。
  3. 导入需要处理的数据(视频、图像、音频、PDF 等)。
  4. 检索提取的数据。

提取器

提取器模块是 Indexify 的核心功能。提取器可以从任何模态的非结构化数据中提取和返回结构化信息。例如,从 PDF 中以 JSON 格式获取特定信息,将数据转换为嵌入,以及识别视频中的面部或物体。

提取器通常接收非结构化数据作为输入,并生成内容对象列表和特征作为输出。来自非结构化数据的原始字节存储在 Blob 存储中,而提取的特征存储在向量数据库和结构化存储中以供检索。任何用于处理非结构化数据的模型或算法都可以通过扩展提取器 SDK 中提供的抽象类来实现为提取器。

协调器

Indexify中有一个高性能任务调度器。当数据开始被导入时,它们将任务分配给提取器,从而帮助实现卓越的速度和性能。

开始教程

对于本教程,需要有 Python 3.11 或更高版本以获得最佳性能。其他安装说明将在后面给出。

我将使用 Groq 作为 LLM 引擎。要开始,请访问此页面并创建一个 API 密钥。
在这里插入图片描述

然后安装sdk

pip install groq

对于数据,我已经准备了一些经典论文作为 PDF 文件。当然你也可以使用自己的文档集。

安装和配置 Indexify

在 Linux 系统上设置 Indexify 很容易。只需要 3 个运行的终端窗口。

  • 终端 1:用于下载和运行 Indexify 服务。
  • 终端 2:用于运行 Indexify 提取器,这些提取器处理结构化提取、分块和嵌入。
  • 终端 3:用于运行 Python 脚本以从 Indexify 服务加载和查询数据。

这里可以使用以下命令启动和运行 Indexify 服务。

终端 1

curl https://getindexify.ai | sh
./indexify server -d

服务将在 http://localhost:8900 上运行。接下来,创建一个 Python 环境并安装所有必要的库和提取器。

终端 2

pip3 install indexify-extractor-sdk indexify wikipedia
indexify-extractor download tensorlake/paddleocr_extractor
indexify-extractor download tensorlake/minilm-l6
indexify-extractor download tensorlake/chunk-extractor

下载完成后,使用以下命令运行提取器服务:

终端 2

indexify-extractor join-server

经过以上两个步骤环境就准备好了。在本教程中,我将保持这两个终端运行。

准备文档集

第一步是整理文档集。在本工作流程中,我将使用 PDF 文档。对于多个文档,你可以像这样构建目录:将所有文档作为 PDF 添加到 data 目录。对于其他文件类型,你必须使用其他提取器或定义自定义提取器,我将在本文中稍后讨论。

└──  data├── doc1├── doc2├── doc3├── doc4
├── venv
├── indexify file
├── ingest_document.py
├──  query_doc.py
└──  setup_extraction_graph.py

使用 Indexify 导入和处理文档

设置提取graph

Indexify 可以使用其核心功能(提取器)处理和存储来自任何模态的数据。这些提取器旨在从大量非结构化数据中提取内容。通过将不同的提取器链接在一起,我们可以创建一个pipeline,简化整个数据提取和存储过程。此过程通过创建提取graph来管理。

在本教程中,我将构建以下提取graph:

  • paddle_ocr:用于识别和提取论文中的文本。
  • chunk_extract:用于将数据划分为块以进行 RAG。
  • minilm-l6:用于将数据转换为嵌入。

在这里插入图片描述

配置 Indexify 客户端并以 YAML 格式定义流程,如下所示。

# setup_extraction_graph.pyfrom indexify import ExtractionGraph, IndexifyClient
client = IndexifyClient()
extraction_graph_spec = """name: 'propertyQA'extraction_policies:- extractor: 'tensorlake/paddleocr_extractor'name: 'textextract'- extractor: 'tensorlake/chunk-extractor'name: 'chunker'input_params:chunk_size: 1000overlap: 100content_source: 'textextract'- extractor: 'tensorlake/minilm-l6'name: 'pdfembedding'content_source: 'chunker'
"""
extraction_graph = ExtractionGraph.from_yaml(extraction_graph_spec)
client.create_extraction_graph(extraction_graph)

终端 3

运行命令以创建提取graph。

python3 ./setup_extraction_graph.py

自定义提取器

为了捕获复杂数据,我可以创建自定义提取器并将其添加到我们的提取graph中。你可以使用以下模板定义它们。

from pydantic import BaseModel
from typing import List
from indexify_extractor_sdk import Extractor, Content, Feature
from indexify_extractor_sdk.base_extractor import Content
import jsonclass InputParams(BaseModel):a: int = 0b: str = ""class MyExtractor(Extractor):name = "your-docker-hub-username/MyExtractor"description = "Description of the extractor goes here."# Any python dependencies included in the extractor must be listed here.python_dependencies = ["torch", "transformers"]# Any system dependencies that the python code here depends on needs to be listed here. We use Ubuntu base images, so any ubuntu package can be installed here.system_dependencies = []input_mime_types = ["text/plain"]def __init__(self):super().__init__()def extract(self, content: Content, params: InputParams) -> List[Content]:return [Content.from_text(text="Hello World", feature=Feature.embedding(values=[1, 2, 3])),Content.from_text(text="Pipe Baz", feature=Feature.embedding(values=[1, 2, 3])),Content.from_text(text="Hello World",feature=Feature.metadata(value=json.dumps({"key": "value"})),),]def sample_input(self) -> Content:Content.from_text(text="Hello World")if __name__ == "__main__":MyExtractor().extract_sample_input()`

InputParams 类使用 Pydantic 来定义可用于配置提取器行为的参数。

MyExtractor 是实现提取器的主类。它指定了它可以处理的名称、描述、依赖项和输入类型。导入到 Indexify 的任何与这些 MIME 类型不匹配的内容都不会发送到此提取器。

extract 方法是核心功能。它处理输入内容并返回具有特征(如元数据)的转换后的内容对象列表。sample_input 方法提供了一个示例输入以供测试。

例如,以下是一个自定义提取器,它以 JSON 格式返回论文概要信息。

# custom_extractor.pyfrom pydantic import BaseModel
from typing import List
from indexify_extractor_sdk import Extractor, Content, Feature
from indexify_extractor_sdk.base_extractor import Content
import json
import reclass InputParams(BaseModel):author_regex: str = r"^([\w\s]+)"team_regex: str = r"(Google Brain)"email_regex: str = r"([\w.-]+@[\w.-]+\.[\w]+)"class PropertyExtractor(Extractor):name = "your-docker-hub-username/PropertyExtractor"description = "Extract author,team and email from this article."python_dependencies = ["re"]system_dependencies = []input_mime_types = ["text/plain"]def __init__(self):super().__init__()def extract(self, content: Content, params: InputParams) -> List[Content]:text = content.text()author_match = re.search(params.author_regex, text)team_match= re.search(params.team_regex, text)email_match = re.search(params.email_regex, text)property_info = {"author": author_match.group(1) if author_match else "","team": team_match.group(1) if team_match else "","team": email_match.group(1) if email_match else "",}return [Content.from_text(text=json.dumps(property_info),feature=Feature.metadata(value=json.dumps(property_info)))]def sample_input(self) -> Content:return Content.from_text(text="Ashish Vaswani Google Brain avaswani@google.com")if __name__ == "__main__":PropertyExtractor().extract_sample_input()

你可以将提取器打包到容器中以用于生产,或者使用以下命令在本地安装提取器,并在提取graph中使用它。

indexify-extractor install-local custom_extractor:PropertyExtractor

上传文档

设置提取graph后,data 目录中的每个文档都应该通过pipeline并作为嵌入存储在向量数据库中。Indexify 具有一个内置的向量数据库,你可以使用它来存储、查询和检索数据。

# ingest_document.pyimport os
import requests
from indexify import IndexifyClient# Initialize IndexifyClient
client = IndexifyClient()
folder_path = "data"for filename in os.listdir(folder_path):if filename.endswith(".pdf"):# Construct the full file pathfile_path = os.path.join(folder_path, filename)# Upload the PDF to Indexifyclient.upload_file("propertyQA", file_path)print(f"Uploaded: {filename}")

可以使用 Indexify UI 在 http://localhost:8900/ui 上查看向量数据库和索引。

在这里插入图片描述

你也可以使用客户端访问索引:

from indexify import IndexifyClient
client = IndexifyClient()content_ids = [content.id for content in client.list_content("propertyQA")]extract = client.get_extracted_content(content_ids[1], "propertyQA", "textextract")
embedding = client.get_extracted_content(content_ids[1], "propertyQA", "pdfembedding")

在 Indexify 中,导入的数据也存储在 SQL 表中,允许你使用内置 API 和 SQL 查询来查询数据。

result = client.sql_query("select * from propertyQA;")

输出:

`SqlQueryResult(result=[{'content_id': 'd6e584685d74a21d', 'type': 'text'}, {'content_id': 'e32fd65fc2bbebf3', 'type': 'text'}])`

使用 Indexify 提出复杂问题

语义搜索和查询公式

Indexify 的高级提取引擎使用户能够制定和执行超出基本数据提取的复杂查询。Indexify 可以解释文档的上下文和语义,从而允许更复杂的查询。

Indexify 从创建的索引中检索相关上下文并返回一个 Content 对象。来自此对象的信息可用于构建复杂提示,这些提示可以传递给 LLM 以生成适当的响应。让我们看看它是如何工作的。

results = client.search_index(name=index, query=question, top_k=3)
context = ""
for result in results:context = context + f"content id: {result['content_id']} \n \npassage: {result['text']}\n"

在这里,Indexify 通过索引执行简单的语义搜索,并返回最相关的段落以及元数据(如内容 ID),使你能够理解结果的上下文和重要性。来自 text 参数的数据可用于构建上下文。

检索和分析结果

语义搜索和复杂查询使你能够更深入地挖掘文档集,提取更加深入的答案。

复杂问题的示例:

  • “与传统的基于 RNN 的模型相比,Transformer 模型如何利用自注意力机制来提高序列到序列任务的效率和有效性?”

LLM 可以帮助描述性且准确地回答此类查询。从上一步检索到的上下文可用于构建复杂提示。

"You are an expert in paper interpretation,You must help me interpret the core content of the paper. Answer the question, based on the context. Answer \"Information not found\" if there is no context. Do not hallucinate.  \nquestion: {question}  \ncontext: {context}"

构建的提示然后用于查询 LLM。在本教程中,我使用了来自 Groq 的 gemma-7b 模型。以下是工作流程的完整代码。

`#query_doc.pyfrom indexify import IndexifyClient
from groq import Groqclient = IndexifyClient()
groq_client = Groq(api_key="API_KEY",
)
def get_context(question: str, index: str, top_k=3):results = client.search_index(name=index, query=question, top_k=3)context = ""for result in results:context = context + f"content id: {result['content_id']} \n \npassage: {result['text']}\n"return contextdef create_prompt(question, context):return f"You are an expert in paper interpretation,You must help me interpret the core content of the paper. Answer the question, based on the context. Answer \"Information not found\" if there is no context. Do not hallucinate.  \nquestion: {question}  \ncontext: {context}"def generate_response(prompt):chat_completion = groq_client.chat.completions.create(messages=[{"role": "user","content": prompt,}],model="gemma-7b-it",)return chat_completion.choices[0].message.contentquestion = "How does the Transformer model use self-attention mechanisms to improve the efficiency and effectiveness of sequence-to-sequence tasks compared to traditional RNN-based models?"
context = get_context(question, "propertyQA.pdfembedding.embedding")
prompt = create_prompt(question, context)response = generate_response(prompt)
print(response)`

运行此文件以获取响应。

终端 3

python3 ./query_doc.py
The Transformer model replaces recurrent layers with self-attention mechanisms, allowing for parallelization and capturing dependencies between words regardless of their distance in the sequence. This improves efficiency by reducing the training time and enhances effectiveness by better handling long-range dependencies.

大规模存储和查询数据

使用 LangChain 进行扩展

优化你的系统以实现高效的索引和检索,以管理大量的论文数据和论文分析数据。这涉及配置向量数据库以有效地管理大量嵌入。在生产环境中,Indexify 可以水平扩展到多个服务器实例和协调器,以并行简化实时数据提取和存储。你还可以微调提取graph中的参数(如 chunk_size 和 overlap),以在粒度和性能之间取得平衡。

extractor: 'tensorlake/chunk-extractor'name: 'chunker'input_params:chunk_size: 1000overlap: 100content_source: 'textextract'

Indexify 与流行的 LangChain 框架很好地集成,LangChain 框架是一个高度可扩展的框架,用于构建 AI 应用。

终端 3

pip install indexify-langchain langchain-groq

我正在使用来自 LangChain 的基于 Indexify 的检索器。我将传递我准备好的索引和 top_k 参数。

from indexify import IndexifyClient
client = IndexifyClient()
from indexify_langchain import IndexifyRetriever
params = {"name": "propertyQA.pdfembedding.embedding", "top_k": 2}
retriever = IndexifyRetriever(client=client, params=params)

以下是完整代码:

# langchain_query_doc.pyimport requests
import dotenv# Setup retriever
from indexify import IndexifyClient
from indexify_langchain import IndexifyRetriever
client = IndexifyClient()
params = {"name": "propertyQA.pdfembedding.embedding", "top_k": 2}
retriever = IndexifyRetriever(client=client, params=params)from langchain_groq import ChatGroq
llm = ChatGroq(model="gemma-7b-it",temperature=0,max_tokens=None,timeout=None,max_retries=2,api_key="API_KEY",
)# Setup Chat Prompt Template
from langchain.prompts import ChatPromptTemplatetemplate = """
You are an expert in paper interpretation,You must help me interpret the core content of the paper. Answer the question, based on the context. Answer \"Information not found\" if there is no context. Do not hallucinate.  \nquestion: {question}  \ncontext: {context}
"""
prompt = ChatPromptTemplate.from_template(template)from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser
rag_chain = ({"context": retriever, "question": RunnablePassthrough()}| prompt| llm| StrOutputParser()
)# Queryquery = "How does the Transformer model use self-attention mechanisms to improve the efficiency and effectiveness of sequence-to-sequence tasks compared to traditional RNN-based models?"
print(rag_chain.invoke(query))

这使用 IndexifyRetriever 根据查询检索最相关的段落。然后,它使用 ChatPromptTemplate 创建一个针对上下文的提示。该提示传递给 LLM,模型在其中处理信息并生成响应。

将查询结果存储在数据库中

执行查询并检索结果后,将这些数据存储在结构化数据库中可以确保你可以参考它并执行进一步的分析。

首先,要将查询结果存储在数据库中,请设置一个关系数据库并定义一个模式,该模式可以容纳 Indexify 返回的复杂数据结构。以下是如何将查询结果存储在 PostgreSQL 数据库中的示例:

import psycopg2
# Connect to your PostgreSQL database
conn = psycopg2.connect(dbname="indexify_results",user="your_username",password="your_password",host="localhost",port="5432"
)
cursor = conn.cursor()# Create a table to store query results
cursor.execute("""CREATE TABLE IF NOT EXISTS query_results (id SERIAL PRIMARY KEY,query TEXT,content_id VARCHAR(255),passage TEXT);
""")
conn.commit()# Example function to store results
def store_results(question: str, results: list):for result in results:cursor.execute("""INSERT INTO query_results (query, content_id, passage)VALUES (%s, %s, %s);""", (question, result['content_id'], result['text']))conn.commit()# Retrieve and store query results
question = "How does the Transformer model use self-attention mechanisms to improve the efficiency and effectiveness of sequence-to-sequence tasks compared to traditional RNN-based models?"
results = client.search_index(name="propertyQA.pdfembedding.embedding", query=question, top_k=5)
store_results(question, results)
# Close the database connection
cursor.close()
conn.close()

在定义数据库模式时,请考虑数据的关联关系和复杂性。该模式应该容纳内容 ID 和段落文本以及元数据,例如时间戳、文档来源以及任何相关的标签或类别。

以下是一个你可以考虑的示例模式。

CREATE TABLE query_results (id SERIAL PRIMARY KEY,query TEXT,content_id VARCHAR(255),passage TEXT,timestamp TIMESTAMP DEFAULT CURRENT_TIMESTAMP,document_source VARCHAR(255),tags TEXT[]
);

在这里插入图片描述

总结

我们已经介绍了 Indexify 如何通过解读论文的示例,为需要更深入的实时分析的应用提供高效的数据提取和检索。我们详细介绍了 Indexify 的工作原理,包括如何构建用于数据检索的知识库。此外,我们还考察了如何扩展系统以处理更大的数据集和更高的吞吐量。最后,我们讨论了将结果存储在结构化数据库中以供将来参考和深入分析的方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/417465.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ssm微信小程序的英语学习激励系统论文源码调试讲解

2 关键技术介绍 2.1 SSM框架 开发信息管理系统的主流框架是SSM(Spring Spring MVC MyBatis),SSM框架web层使用Spring MVC框架,使传输前后端数据变得简单;对于业务层使用Spring作为轻量级控制反转和面向切面的容器框…

【Python 千题 —— 算法篇】字符串替换

Python 千题持续更新中 …… 脑图地址 👉:⭐https://twilight-fanyi.gitee.io/mind-map/Python千题.html⭐ 题目背景 在日常编程中,我们经常会遇到需要对字符串中的特定字符或子串进行替换的需求。比如,替换文本中的敏感词汇、…

【Bug】Ubuntu22.04英伟达驱动安装失败,重启后服务器卡在进入系统/grub的页面

目录 报错内容1、安装英伟达驱动:Failed to initialize NVML: Driver/library version mismatch2、重启后卡在系统页面3、在解决完问题2后,尝试继续解决问题1,还是失败4、能ping通服务器但是无法ssh连接 解决方案1、重启后卡在系统页面&#…

kafka的安装和启动

一、kafka介绍 1,kafka简单介绍 kafka是一款分布式、支持分区的、多副本,基于zookeeper协调的分布式消息系统。最大的特性就是可以实时处理大量数据来满足需求。 2,kafka使用场景 1,日志收集:可以用kafka收集各种服务…

【数据结构初阶】二叉树--堆(顺序结构实现)

hello! 目录 一、实现顺序结构二叉树 1.1 堆的概念和结构 1.2 堆及二叉树的性质 1.3 堆的实现 1.3.1 创建堆的结构 1.3.2 初始化和销毁 1.3.3 入堆向上调整算法(创建一个小堆) 1.3.4 出堆向下调整算法(小堆&#x…

行空板上YOLO和Mediapipe视频物体检测的测试

Introduction 经过前面三篇教程帖子(yolov8n在行空板上的运行(中文),yolov10n在行空板上的运行(中文),Mediapipe在行空板上的运行(中文))的介绍,…

欧拉数据库的搭建及其部署

数据库的搭建 进行数据库安装前,必须保证软件yum仓库搭建完成 使用命令 dnf install mariadb-server,发现冲突selinux-policy-targeted-35.5-21.oe2203sp3.noarch有问题 [rootlocalhost yum.repos.d]# dnf install mariadb-server [rootlocalhost y…

鸿蒙轻内核M核源码分析系列五 时间管理

往期知识点记录: 鸿蒙(HarmonyOS)应用层开发(北向)知识点汇总 持续更新中…… 在鸿蒙轻内核源码分析上一篇文章中,我们剖析了中断的源码,简单提到了Tick中断。本文会继续分析Tick和时间相关的源…

法规探讨 | 《医疗器械管理法(草案征求意见稿)》初探(1)

昨日,国家药监局综合司正式公开征求《中华人民共和国医疗器械管理法(草案征求意见稿)》的意见,标志着我国医疗器械管理领域即将进入新的发展阶段。相较于现行的《医疗器械监督管理条例》,《医疗器械法》不仅沿袭了《条…

【深入解析】AI工作流中的HTTP组件:客户端与服务端执行的区别

在当今快速发展的技术环境中,AI工作流的设计和实现变得愈发重要。尤其是在处理HTTP组件时,前端执行与后端执行之间的区别,往往会对系统的安全性和数据的准确性产生深远的影响。今天,我们就来深入探讨这一话题,揭示前端…

vscode+django开发后端快速测试接口(轻量版,免postman安装)

目录 背景 步骤 安装插件 编写测试文件 示例一:get接口类型 示例二:post接口类型 示例三:delete接口类型 如何运行test.http测试文件 背景 在最近工作中涉及到使用Django框架开发后端,写完接口后,不可避免需要…

Java项目: 基于SpringBoot+mysql网上点餐系统分前后台(含源码+数据库+答辩PPT+毕业论文)

一、项目简介 本项目是一套基于SpringBootmysql网上点餐系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 该系统功能完善、界面美观、操作简单、功能齐…

科研绘图系列:R语言差异基因四分图(Quad plot)

文章目录 介绍加载R包导入数据数据预处理画图参考介绍 四分图(Quad plot)是一种数据可视化技术,通常用于展示四个变量之间的关系。它由四个子图组成,每个子图都显示两个变量之间的关系。四分图的布局通常是2x2的网格,每个格子代表一个变量对的散点图。 在四分图中,通常…

2024数学建模国赛A题word版成品论文30页【附带完整解题代码+可视化图表】

0906 0:30 v1.0 问题一、问题二的完整可运行代码,模型建立与求解这一部分的论文。 0906 5:20 v1.1 增加了第三问的完整可运行代码和第二、三问的“模型建立与求解”的论文。(即1-3问的代码、模型建立与求解、算法设计、结果分析) 1-4问完整可…

大数据-119 - Flink Window总览 窗口机制-滚动时间窗口-基于时间驱动基于事件驱动

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

java利用JXL操作excel

通过JXL操作Excel JXL是韩国人所著,目前停止更新,只支持xls格式,即2007之前的版本 import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import java.net.URL; import java…

[数据集][目标检测]玉米病害检测数据集VOC+YOLO格式6000张4类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):6000 标注数量(xml文件个数):6000 标注数量(txt文件个数):6000 标注…

《Linux运维总结:基于X86_64+ARM64架构CPU使用docker-compose一键离线部署consul 1.18.1容器版分布式ACL集群》

总结:整理不易,如果对你有帮助,可否点赞关注一下? 更多详细内容请参考:《Linux运维篇:Linux系统运维指南》 一、部署背景 由于业务系统的特殊性,我们需要面向不通的客户安装我们的业务系统&…

[数据集][目标检测]街道乱放广告牌检测数据集VOC+YOLO格式114张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):114 标注数量(xml文件个数):114 标注数量(txt文件个数):114 标注类别…

【数据结构】顺序表和链表——顺序表(包含丰富算法题)

文章目录 1. 线性表2. 顺序表2.1 概念与结构2.2 分类2.2.1 静态顺序表2.2.2 动态顺序表 2.3 动态顺序表的实现2.4 顺序表算法题2.4.1 移除元素2.4.2 删除有序数组中的重复项2.4.3 合并两个有序数组 2.5 顺序表问题与思考 1. 线性表 线性表(linear list)…