AI交互及爬虫【数据分析】

各位大佬好 ,这里是阿川的博客,祝您变得更强

在这里插入图片描述 个人主页:在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力在这里插入图片描述

阿川水平有限,如有错误,欢迎大佬指正在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Python 初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
数据清洗前 基本技能
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
AI交互爬虫前 必看
数据分析—三前奏:获取/ 读取/ 评估数据
数据分析—数据清洗操作及众所周知
数据分析—数据整理操作及众所周知
数据分析—统计学基础及Python具体实现
数据分析—数据可视化Python实现超详解
数据分析—推断统计学及Python实现
数据分析—线性及逻辑回归模型

目录

  • AI概述
  • AI在编程领域的应用
  • 主流AI
  • AI注意事项
  • 数据分析领域AI作用及爬虫

AI概述

在这个时代 AI 我们每个 息息相关
1956年 在美国召开了第一场人工智能研讨会,由此人类开始了对人工智能道路探索。
在这场会议上纽维尔西蒙演示了一个名为"逻辑学家"的程序充分展示了机器能做类似推理的工作。在这个会议上人工智能获得了定义
1978年 国内第一所 人工智能与智能控制研究组在清华大学成立,并且同年招收了第1批硕士生。那时主要以智能机器人作为主要研究方向。
1990年智能技术与系统国家重点实验室正式建立,标志着中国第1次开始正式开展人工智能相关研究
时间发展至今,人工智能已经有三个阶段第一代人工智能,第二代人工智能,第三代人工智能。
最初的第一代人工智能,让机器像人一样思考,培养从已知知识出发推出新的结论新的知识的能力。
第二代人工智能主要基于人工神经网络模拟人脑脑神经网络的工作原理
但是第二代人工智能由于所有训练的数据 均来自客观世界,从而它的识别只能识别不同的物体,并不能真正的认识物体。
第三代人工智能则是依靠模型和算法来支持发展,并在此过程中发展了一系列人工智能理论
而目前市面上的AI大语言模型,则是将第一代人工智能的知识为驱动,和第二代人工智能的数据以及提炼出的算法和模型以及算力同时运用而成
大语言模型的,来自于两个"大"
第1个"大"是大的人工神经网络
人工神经网络可以用来分类学习数据中间关联关系,也可以用来预测
第2个"大"是大的文本
由于第1个大的发展,导致所有文本不用经过任何预处理就可以学习,所以文本就由最初的GB量级发展为TB量级
大模型的局限性
缺乏主动性(依赖于提示工程)且输出质量不可控(会出现计算机"幻觉"), 且AI工具尚不能准确分辨对错,也难以主动进行自我迭代(也需要不断花钱去砸算力)。
但目前人工智能最大的问题是:
专用人工智能(在 特定 的领域用 特定 的模型完成 特定 的任务)
接下来人工智能将向通用人工智能进行发展
除此以外,人工智能应要具有身体,所以说必须通过机器人与客观世界连在一起
在未来,越来越多的人学习AI是大势所趋,而学习AI的人要么向各行各业转移,为各行各业进行赋能;要么就和其他技术结合,发展出新的产业
各位,人工智能对各行各业都有重大影响,但大多数帮助人类提高工作质量和效率而非取代人类进行工作。(这里应该放一个链接哈)
送上喜欢的一句话:
"让混沌重生,然后掌握混沌"
未来已来不因物喜不以己悲,需要的是坚持不懈的努力天道酬勤

在这里插入图片描述

AI在编程领域的应用

  • 解释概念
    可用详细且易懂的回答,并且尽可能配合简单的例子对不懂的概念进行解释

在这里插入图片描述

  • 解决报错
    报错信息进行分析并修正

在这里插入图片描述

  • 找Bug
    可提交自己写的代码本身预期

在这里插入图片描述

  • 给知识点出题
    可让其提出相应知识点练习并附上答案

在这里插入图片描述

  • 提示代码质量
    提交自己代码问如何改进.
    在这里插入图片描述

主流AI

目前市面上主要的AI有:
1. Open AI官网,访问需翻墙)
2. Meta AI官网,访问需翻墙)
3. 通义千问
4. 智谱清言
5. 文心一言
6. 讯飞星火

AI注意事项

  • 使用AI前先给予AI一个身份 帮助更好提高准确回答质量
    与此同时 衍生出提示工程prompt(一个庞大的领域【截至2024年6月20日,OpenAI、斯坦福等多所机构筛选出1565篇论文发布大模型《提示技术报告》】(要翻墙哈,若不想翻墙,也想看,可以联系我) 可以帮助提高AI回答质量

在这里插入图片描述

在这里插入图片描述

  • AI幻觉
    AI有些时候会一本正经的胡说八道,应该有自己的分辨能力,所以学习和掌握分析相关的技能去检验生成AI生成的结果(例如:可以将AI生成的Python代码去运行,若成功运行且符合预期则表示成功

在这里插入图片描述

数据分析领域AI作用及爬虫

前言
在Jupyter notebook中内置有专门的Jupyter AI

  • 可以直接在写代码的环境中与AI进行交互

安装Jupyter AI(Python版本应高于或等于3.8

  • 输入pip install jupyter_ai
    在这里插入图片描述
    选择AI大模型
    安装相应AI大模型Python库

在这里插入图片描述
例如:安装gpt4all

在这里插入图片描述

具体领域

  • 什么具体指标值得分析

在这里插入图片描述

  • 数据集哪不干净怎么清洗
    在这里插入图片描述

  • 数据集得到什么结论
    在这里插入图片描述

  • 找数据集

    • 官方网站可供下载查看的数据集
      需查看是否开启了网页浏览模式
      若用OpenAI,则先创建OpenAI账户及Open AI密钥和Open AI的Token数量上限

在这里插入图片描述

  • APIA pplication P rogramming Interface 应用程序编程接口) 从官方获取数据
    优点:
    更可靠(因为通常是官方提供的
    更合规爬虫可能违反违规
    易解析( API返回数据更易解析 API返回的格式更结构化
    更准确(有些提供的数据比网页上更加全面和准确
1. **第一步** **确定API端点**(**不同**功能的**API有特定端点**)
2. **第二步**  **请求方法**(绝大部分**API是基于HTTP**  即所有要**知道各个端点所对应的HTTP方法**)

GET方法 requests.get
- 获得数据

   **PUT方法 requests.put**- **更新数据** **POST方法 requests.post**- **提交数据****DELETE方法 requests.delete**- **删除数据**
  1. 第三步 查询参数(指定额外的信息) 请求体数据(比查询参数信息包含更多)

  2. 第四步 响应格式
    响应的格式一般是XMLJSON(常见),用Python实现

在这里插入图片描述

注意有些条件也很关键是否要求认证信息是否只有认证通过,有授权的用户才能访问官方文档会把这些说明清楚,所以搜索和查阅文档是一项很重要的能力

  • 网络爬虫 便捷且低成本获取数据

    1. 第一步获取网页内容
      主要的是Requests库

在这里插入图片描述

HTTPHypertext Transfer Protocol 超文本传输协议请求和响应

在这里插入图片描述

HTTP请求

在这里插入图片描述
User-Agent:

在这里插入图片描述
Accept:

在这里插入图片描述

常用的两种请求方法

  • GET方法
    浏览器向网页获取数据
    request.get(“完整路径”) HTTP请求
    生成一个实例
    head={ }
    可以自定义传入的HTTP的请求头内容
    正常浏览器浏览会发出GTE请求 即会自带浏览器的内容和版本及电脑操作系统等
    正常程序中不会带有浏览器的内容和版本,则此时一些服务器就会拒绝响应该请求,此时就可以更改这个user-Agent,更改成含有浏览器的内容和版本,从而可以将爬虫程序伪装成正常浏览器

在这里插入图片描述

  • POST方法
    创建数据

注意事项

  • 客户端请求数量和频率 不能太多,否则无异于DDOS攻击发送海量请求让网站资源无法服务正常用户,让用户无法正常访问
  • 若网站有反爬机制不要去强行突破
  • 应该查看网站的robots文件,查看了解可爬取的网页路径范围
  • 不要
    • 公民隐私 国家事务/国防 尖端科技领域的计算机系统
      图5

HTTP响应

在这里插入图片描述

状态码主要有
200 OK 客户端请求成功
2表示成功,请求完成
301 Moved Permanently 资源被永久移动到新地址
3表示重定向,需要进一步操作
400 Bad Request 客户端被服务器理解
401 Unauthorized 请求未经授权
403 Forbidden 服务器拒绝提供服务
404 Not Found 请求资源不存在 例如:请求里面有错误 请求的资源无效
4表示客户端错误
500 Internal Server Error 服务器发生不可预期错误
503 Server Unavailable 服务器当前不能处理客户端的请求 例如:出现问题 正在维修
5表示服务器错误

在这里插入图片描述

get实例.status_code 返回回答的编码
get实例.Ok 属性可看请求是否成功
get实例.text字符串形式储存内容

在这里插入图片描述

  1. 第二步解析网页内容 HTML网页结构
    主要是BeautifulSoup库
    pip install bs4 BeautifulSoup 安装BeautifulSoup库

在这里插入图片描述

from bs4 import BeautifulSoup 导入相应的模板

在这里插入图片描述

一个网页有三大技术要素

  • CSS 定义网页的格式(可以增加美观度

  • JavaScript 定义用户和网页的交互逻辑

    • 前两大技术非数据分析重点,这里不加以赘述
  • HTML 定义网页的结构和信息

    • 写HTML一般使用PycharmVscode等主流编辑器,我这里采用Vscode编辑器(打开速度很快)
      若将vscode的编辑器改成中文字体
      在这里插入图片描述
      在这里插入图片描述

HTML 格式

  • < !DOCTYPE HTML> 告知浏览器该文件类型为HTML
  • < html> html文件起始 表示开始(是HTML文档的根
  • < /html> html文件闭合 表示结束
  • < head>…< /head> html标题
    • 一般放 < title>…< /title> 定义HTML网页页面标题
  • < body>…< /body> html主体
    • 一般放html标签

在这里插入图片描述

在这里插入图片描述

HTML 标签
层级类标签
< h1>…< /h1> < h2>…< /h2> < h3>…< /h3> …… < h6>…< /h6> 表示文本层级

在这里插入图片描述

换行类标签
< p>…< /p> 默认换行
< br> 在文本段落中强制换行只有起始标签,没有闭合标签

在这里插入图片描述

顺序类标签
< ol>…< /ol> 表示有序列表的标签
< ul>…< /ul> 表示无序列表的标签

  • < li>…< /li>有序或者无序搭配使用,表示顺序

在这里插入图片描述

文字类标签
< b>…< /b> 进行文字加粗
< i>…< /i>文字变成斜体
< u>…< /u>文字加下划线

在这里插入图片描述

图片类标签
< img src=" 图片路径"> 添加图片

  • width=" " 图片宽度
  • height=" " 图片高度

在这里插入图片描述

表格类标签
< table> …< /table> 表示表格

  • border=“数字”参数表示表格边框的大小 默认为0,即没有边框
    • < thead>…< /thead> 表示表格头部
    • < tbody>…< /tbody> 表示表格主体
    • < tr>…< /tr> 定义表格行
    • < td> 定义表格数据

在这里插入图片描述

链接类标签
< a href=路径”>自定义输出 文字 < /a> 添加超链接

  • target=" " 该参数指定窗口打开方式
    • _self 表示当前页面打开窗口
    • _blank 表示新页面打开窗口

在这里插入图片描述

class属性

  • 定义元素的类名称,从而帮助分组
    例如:
    < pclass=“content”>给岁月以文明< /p>
    < pclass=“content”>而不是给文明以岁月< /p>
    < pclass=“review”>好评!< /p>

在这里插入图片描述

容器类标签
容器 本身不包含任何内容
< div>…< /div> 块级元素独占自己的一块一行最多一个< div>作为其中子元素
< span>…< /span> 内联元素不会独占一块一行可以多个span元素

在这里插入图片描述

HTML元素类型很多
可以在浏览器里点击右键(显示网页源代码

在这里插入图片描述

或者
可以在浏览器点击右键检查再点一下窗口左上角小箭头,这样点击页面任何一个东西都会显示其元素
在这里插入图片描述

在这里插入图片描述

BeautifulSoup函数get实例“html.parser”

  • "html.parser"解析器
  • 生成BeautifulSoup实例
    该实例包含特别多方法和属性
    例如:
    BeautifulSoup实例.p 获取html第1个p元素
    BeautifulSoup实例.img 获取htm还有一个img图片元素

在这里插入图片描述

soup.fillAII() 能根据标签属性等方法找出所有符合要求的元素

  • (“标签”,attrs={“想找的属性”:" 想找的"}) 返回可迭代对象
  • 可迭代对象.string属性标签包围的文字返回 还可以使用切片[ : ]
    find()获取第一个对象
    在这里插入图片描述

爬虫技术要求,要随机应变爬取自己想要的信息,爬虫总需要我们跟网站斗智斗勇

  1. 第三步 储存式分析数据(由于具体需求具体处理,这里不加以赘述)
    若要收集数据集 则将数据储存进数据库
    若要分析数据趋势 则将数据进行可视化
    若要舆情监控 则将AI文本情绪分析

在这里插入图片描述

好的,到此为止啦,祝您变得更强

在这里插入图片描述
想说的话

实不相瞒,写的这篇博客写了13个小时以上(加上自己学习(反复学习了5遍)和纸质笔记(写了满满的6页),共十五小时吧),很累希望大佬支持

在这里插入图片描述

道阻且长 行则将至

个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/359484.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

区块链实验室(37) - 交叉编译百度xuperchain for arm64

纠结了很久&#xff0c;终于成功编译xuperchain for arm64。踩到1个坑&#xff0c;说明如下。 1、官方文档是这么说的&#xff1a;go语言版本推荐1.5-1.8 2、但是同一个页面&#xff0c;又是这么说的&#xff1a;不推荐使用1.11之前的版本。 3、问题来了&#xff1a;用什么版本…

2024年特种设备(门式起重机司机)考试真题题库。

181."ZZ"表示钢丝绳为&#xff08; &#xff09;。 A.右同向捻 B.左同向捻 C.右交互捻 D.左交互捻 答案:A 182.桥式起重机的金属结构主要由起重机桥架&#xff08;又称大车桥架&#xff09;、&#xff08; &#xff09;和操纵室&#xff08;司机室&#xff09;…

提升工作效率的实体和虚拟工具推荐

在现代工作中&#xff0c;我们常常需要利用各种工具来提高工作效率。本文将介绍一款实体工具和一款虚拟工具&#xff0c;它们都能够有效地提升工作效率&#xff0c;让我们更高效地完成任务。 实体工具&#xff1a;金鸣表格文字识别大师 金鸣表格文字识别大师是一款优秀的文字识…

Day 32:503. 下一个更大的元素Ⅱ

Leetcode 503. 下一个更大的元素Ⅱ 给定一个循环数组 nums &#xff08; nums[nums.length - 1] 的下一个元素是 nums[0] &#xff09;&#xff0c;返回 nums 中每个元素的 下一个更大元素 。 数字 x 的 下一个更大的元素 是按数组遍历顺序&#xff0c;这个数字之后的第一个比它…

Ltv 数据粘包处理

测试数据包的生成 校验程序处理结果和原始的日志保温解析是否一致 程序粘包分解正常

【NPS】哑终端设备如何实现域VLAN动态分配

在【NPS】微软NPS配置802.1x&#xff0c;验证域账号&#xff0c;动态分配VLAN&#xff08;有线网络续篇&#xff09;中&#xff0c;已经通过C3PL策略配置实现了802.1x验证没有通过时&#xff0c;自动分配一个Guest VLAN&#xff0c;以确保用户至少能够访问基本的网络服务。问题…

mysql学习——SQL中的DQL和DCL

SQL中的DQL和DCL DQL基本查询条件查询聚合函数分组查询排序查询分页查询 DCL管理用户权限控制 学习黑马MySQL课程&#xff0c;记录笔记&#xff0c;用于复习。 DQL DQL英文全称是Data Query Language(数据查询语言)&#xff0c;数据查询语言&#xff0c;用来查询数据库中表的记…

Windows资源管理器down了,怎么解

ctrlshiftesc 打开任务管理器 文件 运行新任务 输入 Explorer.exe 资源管理器重启 问题解决 桌面也回来了

java基于ssm+jsp 美好生活日志网

1前台首页功能模块 九宫格日志网站&#xff0c;在系统首页可以查看首页、日记信息、美食信息、景点信息、新闻推荐、日志展示、论坛信息、新闻资讯、留言反馈、我的、跳转到后台等内容&#xff0c;如图1所示。 图1前台首页功能界面图 用户注册&#xff0c;在用户注册页面可以填…

MySQL----undo log回滚日志原理、流程以及与redo log比较

回滚日志 回滚日志&#xff0c;保存了事务发生之前的数据的一个版本&#xff0c;用于事务执行时的回滚操作&#xff0c;同时也是实现多版本并发控制&#xff08;MVCC&#xff09;下读操作的关键技术。 如何理解Undo Log 事务需要保证原子性&#xff0c;也就是事务中的操作要…

【CentOS 7】深入指南:使用LVM和扩展文件系统增加root分区存储容量

【CentOS 7】深入指南&#xff1a;使用LVM和扩展文件系统增加root分区存储容量 大家好 我是寸铁&#x1f44a; 【CentOS 7】深入指南&#xff1a;使用LVM和扩展文件系统增加root分区存储容量 ✨ 喜欢的小伙伴可以点点关注 &#x1f49d; 前言 在运行CentOS 7服务器或虚拟机时&a…

【扫雷游戏】C语言详解

Hi~&#xff01;这里是奋斗的小羊&#xff0c;很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~~ &#x1f4a5;&#x1f4a5;个人主页&#xff1a;奋斗的小羊 &#x1f4a5;&#x1f4a5;所属专栏&#xff1a;C语言 &#x1f680;本系列文章为个人学习…

【Python系列】FastAPI 中的路径参数和非路径参数解析问题

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

【计算机网络体系结构】计算机网络体系结构实验-FTP实验

1. 2. 3. wireshark 第一行&#xff1a;帧Frame 545&#xff1a;要发送的数据块&#xff0c;所抓帧的序号为545&#xff0c;捕获字节数等于传送字节数&#xff1a;451字节第二行&#xff1a;源Mac地址为a4:bb:6d:6e:28:9a&#xff1b;目标Mac地址为24:00:fa:e4:df:d8第三行&…

无线麦克风哪个品牌音质最好,一文告诉你无线领夹麦克风怎么挑选

随着直播带货和个人视频日志&#xff08;Vlog&#xff09;文化的兴起&#xff0c;以及自媒体内容创作的蓬勃发展&#xff0c;我们见证了麦克风行业的迅猛发展。在这一浪潮中&#xff0c;无线领夹麦克风以其无与伦比的便携性和操作效率&#xff0c;迅速赢得了广大视频制作者的喜…

如何使用mapXplore将SQLMap数据转储到关系型数据库中

关于mapXplore mapXplore是一款功能强大的SQLMap数据转储与管理工具&#xff0c;该工具基于模块化的理念开发&#xff0c;可以帮助广大研究人员将SQLMap数据提取出来&#xff0c;并转储到类似PostgreSQL或SQLite等关系型数据库中。 功能介绍 当前版本的mapXplore支持下列功能…

「动态规划」如何求最长摆动子序列的长度?

376. 摆动序列https://leetcode.cn/problems/wiggle-subsequence/description/ 如果连续数字之间的差严格地在正数和负数之间交替&#xff0c;则数字序列称为摆动序列。第一个差&#xff08;如果存在的话&#xff09;可能是正数或负数。仅有一个元素或者含两个不等元素的序列也…

ONLYOFFICE 8.1全新升级,智能办公体验再升级,引领未来工作新潮流!

&#x1f4dd;个人主页&#x1f339;&#xff1a;Eternity._ &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; ❀ONLYOFFICE 8.1 &#x1f4d2;1. ONLYOFFICE简介&#x1f4d9;2. ONLYOFFICE特点&#x1f4d5;3. ONLYOFFICE功能⛰️PDF 文件编辑器&#x1…

PDF秒变翻页式电子画册

​在当今数字化时代&#xff0c;将PDF文档转换成翻页式电子画册是一种提升作品展示效果和传播效率的有效方式。以下是将PDF秒变翻页式电子画册的攻略&#xff0c;帮助您轻松掌握数字创作技巧。 首先&#xff0c;选择一个合适的制作工具是关键。目前市场上有多种在线平台和软件可…

保姆级 | Windows 复古风格终端样式设置

0x00 前言 前段时间有朋友询问我 Windows 终端的样式是如何设置的&#xff0c;我也进行了一些简单的回复。在之前的 Windows 11 版本中&#xff0c;系统提供了一个界面按钮&#xff0c;可以直接将终端样式设置为复古风格。然而&#xff0c;系统更新之后&#xff0c;这个按钮好像…