re.findall获取CSDN博文阅读点赞收藏和评论实时数据

学用curl命令获取博文页面源码,学不会爬虫先用re.findall手剥CSDN博文阅读点赞收藏和评论实时数据。


(本文获得CSDN质量评分【92】)

【学习的细节是欢悦的历程】

  • Python 官网:https://www.python.org/

  • Free:大咖免费“圣经”教程《 python 完全自学教程》,不仅仅是基础那么简单……

    地址:https://lqpybook.readthedocs.io/


  自学并不是什么神秘的东西,一个人一辈子自学的时间总是比在学校学习的时间长,没有老师的时候总是比有老师的时候多。
            —— 华罗庚


  • My CSDN主页、My HOT博、My Python 学习个人备忘录
  • 好文力荐、 老齐教室
等风来,不如追风去……


学用curl命令获取博文页面源码
批量收集CSDN博文阅读量
(学不会爬虫先手剥CSDN博文阅读点赞收藏)


本文质量分:

92
本文地址: https://blog.csdn.net/m0_57158496/article/details/129292026

CSDN质量分查询入口:http://www.csdn.net/qc


目 录

  • ◆批量收集CSDN博文阅读量
    • 1、curl url > filename
      • 1.1 保存获取页面源码文本
      • 1.2 将源码文本读入内存
    • 2、抽丝剥茧
      • 2.1 re.findall剥离CSDN博文阅读点赞等数据
      • 2.2 格式化输出
      • 2.3 打开网页报错拦截
    • 3、测试的Url
      • 3.1 测试url的csv文本
      • 3.2 佬的文章
      • 3.3 异常地址
      • 3.4 我的笔记
    • 4、期望即将兑付
    • 5、源码


◆批量收集CSDN博文阅读量


1、curl url > filename

  在C站闲逛的时候,偶然拾得Linux页面源码获取指令“curl”,可以用“>”指令将获取到的页面源码写入磁盘文件。

1.1 保存获取页面源码文本

Linux命令行


curl url > filename


  filename 文件存储路径,最好用相对路径(我用绝对路径是方便我在python安装目录下执行python .py程序),在Linux下cd到代码.py和csdn_get_bloghtml.txt同在的目录,python *.py执行程序。


python代码(用os.system()执行Linux命令行指令)


os.system(f"curl {url} > /sdcard/Documents/csdn_get_bloghtml.txt")

  代码用os模块的system方法执行Linux命令行命令,将curl获取的CSDN博文页面源码,保存到磁盘。(关于os.system 方法执行系统命令行指令,我之前写过一篇学习笔记“Python的系统命令行指令容器”,可以点击蓝色文字跳转翻阅)


1.2 将源码文本读入内存

  用变量text_html接收从磁盘文本文件读取的博文页面源码字符串。

with open('/sdcard/Documents/csdn_get_bloghtml.txt') as f:text_html = f.read()

回页目录

2、抽丝剥茧

  

2.1 re.findall剥离CSDN博文阅读点赞等数据

在这里插入图片描述

为避免笔记不过审,代码上截屏图片,屏蔽了re条件表达式源码。完成源码已上传CSDN文库,可以从我的CSDN主页进入资源列表查阅。

2.2 格式化输出


  获取的博文信息数据,用python 最新格式化方法“插值字符串格式化”做个输出模块,一条print() or input() 格式化输出。(我之前有写过类自然语言的“插值字符串格式化”学习笔记,可以点击蓝色文字跳转康康😋😋)

效果截屏图片
在这里插入图片描述

  调用函数,从博文源码字符串提取博文信息,参数text_html是curl抓取的博文源码。


blog_info = get_article_info(text_html) # 调用函数,从博文源码提取信息。
print('\n'.join(blog_info)) # 打印当前博文信息。

2.3 打开网页报错拦截


  • “302”报错码

  302 Found,原始描述短语为 Moved Temporarily ,是HTTP协议中的一个状态码(Status Code)。可以简单的理解为该资源原本确实存在,但已经被临时改变了位置;换而言之,就是请求的资源暂时驻留在不同的URI下,故而除非特别指定了缓存头部指示,该状态码不可缓存。


  • “404”报错码

  404,是一种HTTP状态码,指网页或文件未找到。\n\n{’’:>4}HTTP 404或Not Found错误信息是HTTP的其中一种“标准回应信息”(HTTP状态码),此信息代表客户端在浏览网页时,服务器无法正常提供信息,或是服务器无法回应且不知原因。


  • 无效Url报错

  无效地址报错。比如空白字符串’’、’ '。


错误代码捕捉代码


def html_error(text_html):''' 获取博文页面源码错误提示 '''if not text_html: # 获取博文页面源码为空。tip = f"{'':>13}请核查Url拼写是否正确!"input(f"\n{'':~^50}\n{' Url错误!':^47}\n{'':~^50}\n\n{tip:>4}\n{'':-^50}\n{' 任意键继续…… ':^45}")returnelse:flag = ''.join(re.findall(r'\d+', text_html))[:3]# 找不至网页报错。if flag == '302' :tip = f"{'':>4}302 Found,原始描述短语为 Moved Temporarily ,是HTTP协议中的一个状态码(Status Code)。可以简单的理解为该资源原本确实存在,但已经被临时改变了位置;换而言之,就是请求的资源暂时驻留在不同的URI下,故而除非特别指定了缓存头部指示,该状态码不可缓存。"input(f"\n{'':~^50}\n{' “302”错误!':^47}\n{'':~^50}\n\n{tip:>4}\n{'':-^50}\n{' 任意键继续…… ':^45}")returnelif flag == '404' :tip = f"\n{'':>4}404,是一种HTTP状态码,指网页或文件未找到。\n\n{'':>4}HTTP 404或Not Found错误信息是HTTP的其中一种“标准回应信息”(HTTP状态码),此信息代表客户端在浏览网页时,服务器无法正常提供信息,或是服务器无法回应且不知原因。"input(f"\n{'':~^50}\n{' “404”错误!':^47}\n{'':~^50}\n\n{tip:>4}\n{'':-^50}\n{' 任意键继续…… ':^45}")returnreturn True # 正常获取博文页面源码,返回真。

报错截屏图片


“302”错误(CSDN博文分享地址)
在这里插入图片描述


“404”错误(故意把地址漏写一个字符)
在这里插入图片描述

空字符串地址错误(用空白’ '字符,测试代码容错能力)
在这里插入图片描述


回页目录

3、测试的Url


3.1 测试url的csv文本

在这里插入图片描述

保存到磁盘的CSV文本文件
在这里插入图片描述
测试博文地址csv文本内容

<font size=1 color=>Url\Title\Url_type
https://blog.csdn.net/qq_44907926/article/details/124723414\《Python全栈系列教程》目录\博文原始地址
https://blog.csdn.net/qq_44907926/article/details/128956704\小说爬取数据入MySql\博文原始地址
https://blog.csdn.net/qq_44907926/article/details/128847035\小说爬取来深入学习CrawlSpider\博文原始地址

https://dream.blog.csdn.net/article/details/12922179\ \故意写错地址
https://blog.csdn.net/weixin_55822277/article/details/128282870\Python编程零基础如何逆袭成为爬虫实战高手之《WIFI破解》(甩万能钥匙十条街)爆赞爆赞\博文原始地址

\空白地址(一个英文空格)\检验程序健壮用
https://blog.csdn.net/weixin_52632755/article/details/122983805\【C语言】一篇速通结构体\博文原始地址
https://le-yi.blog.csdn.net/article/details/128838201\解数独\博文原始地址

~~~~~为不占篇幅,仅列显csv文档部分Url~~~~~

(程序试炼效果截屏图片较长,点此跳过)

3.2 佬的文章


寒佬
在这里插入图片描述


叔叔佬
在这里插入图片描述


哪 咤佬
在这里插入图片描述

呆呆佬
在这里插入图片描述

李肯佬
在这里插入图片描述

wlz249佬
在这里插入图片描述


龙佬
在这里插入图片描述


茅佬
在这里插入图片描述

橡皮擦佬
在这里插入图片描述


木子佬
在这里插入图片描述

二当家佬
在这里插入图片描述


謓泽佬
在这里插入图片描述


码银佬
在这里插入图片描述

nee~
在这里插入图片描述


weixin_39580124
在这里插入图片描述

3.3 异常地址


CSDN博文分享地址
在这里插入图片描述
在这里插入图片描述

故意写错地址
在这里插入图片描述

空白字符’ '地址
在这里插入图片描述

被下架的关于ChatGPT的博文地址(失效地址)
在这里插入图片描述

3.4 我的笔记

在这里插入图片描述

4、期望即将兑付


  我一直都有不定时统计CSDN博文笔记阅读量,从大家的认可度来衡量我对“知识点”的识记程度和“输入→输出”的转化率,以此来“自我肯定”。😊

  当笔记记得多了,一条条查阅,也是件费神的事儿。老想要“自动”,但以我目前的水准,总看不懂爬虫,无法践行。经过对笔记页面源码“手撕”,让我看到了“自动”的希望。


回页目录

5、源码

  为避免笔记不过审,贴出的源码略去了re提取博文信息数据的表达式。完整源码已传CSDN资源文库,有需要可以点击我的主页进入资源列表页面查阅。

(源码较长,点此跳过源码)

#!/sur/bin/nve python
# coding: utf-8
import os
import redef get_article_info(blog):''' 提取CSDN博客文章访问量等信息,返回各项信息格式化字符串元组 '''blog = text_html # 变量别名。# re.findall方法提取各项信息。title = '\n\n标题:' + ''.join(re.findall(r'条件表达式略', text_html))url = '\n地址:' + ''.join(re.findall(r'条件表达式略', text_html)).strip()articleDesc = '\n摘要:' + ''.join(re.findall(r'条件表达式略', text_html))if re.findall(r'\w', articleDesc[-1]): # 句末无标点,加句号。articleDesc += '。'nike = ''.join(re.findall(r'条件表达式略', text_html))first = ''.join([''.join(i) for i in re.findall(r'条件表达式略', text_html)])late = ''.join([''.join(i) for i in re.findall(r'条件表达式略', text_html)])if first and late: # 拼接博文编辑信息。edit = f"\n{nike}{first},{late}。"elif first and not late:edit = f"\n{nike}{first}。"else:edit = ''read = '\n阅读:' + ''.join(re.findall(r'<span class="read-count">(\d+)</span>', text_html))active = re.findall(r'条件表达式略', text_html)active = '\n' + '\n'.join([f"{y}:{x}" if x else f"{y}:0" for x,y in active]) # 格式化博文的点赞、踩、收藏、打赏、评论信息。return title, articleDesc, url, '\n作者:' + nike, edit, read, active # 返回提取的信息数据元组。def html_error(text_html):''' 获取博文页面源码错误提示 '''if not text_html: # 获取博文页面源码为空。tip = f"{'':>13}请核查Url拼写是否正确!"input(f"\n{'':~^50}\n{' Url错误!':^47}\n{'':~^50}\n\n{tip:>4}\n{'':-^50}\n{' 任意键继续…… ':^45}")returnelse:flag = ''.join(re.findall(r'\d+', text_html))[:3]# 找不至网页报错。if flag == '302' :tip = f"{'':>4}302 Found,原始描述短语为 Moved Temporarily ,是HTTP协议中的一个状态码(Status Code)。可以简单的理解为该资源原本确实存在,但已经被临时改变了位置;换而言之,就是请求的资源暂时驻留在不同的URI下,故而除非特别指定了缓存头部指示,该状态码不可缓存。"input(f"\n{'':~^50}\n{' “302”错误!':^47}\n{'':~^50}\n\n{tip:>4}\n{'':-^50}\n{' 任意键继续…… ':^45}")returnelif flag == '404' :tip = f"\n{'':>4}404,是一种HTTP状态码,指网页或文件未找到。\n\n{'':>4}HTTP 404或Not Found错误信息是HTTP的其中一种“标准回应信息”(HTTP状态码),此信息代表客户端在浏览网页时,服务器无法正常提供信息,或是服务器无法回应且不知原因。"input(f"\n{'':~^50}\n{' “404”错误!':^47}\n{'':~^50}\n\n{tip:>4}\n{'':-^50}\n{' 任意键继续…… ':^45}")returnreturn True # 正常获取博文页面源码,返回真。if __name__ == '__main__':# ↓ 此为程序功用微调语句with open('/sdcard/Documents/csdn_get_bloghtml.txt') as f:text_html = f.read()input(f"\n获取的博文信息元组:\n\n{get_article_info(text_html)}\n") # ↑ 此为程序功用微调语句# CSDN博文Url的csv文本文件存储路径。可以用相对路径,但一定要保证执行的py文件和保存CSDN博文Url的文本文件在同一目录,且要先cd到该目录再执行python *.py命令,启动捕获CSDN博文信息作业。filename = '/sdcard/Documents/csdn_blogurl.txt'# 从csv文本解析博文网址,打印从csv文本解析出的CSDN博文Url。with open(filename) as f:blogurl = [i.split('\\')[0] for i in f.read().split('\n')[1:]]print(f"\nCSDN博文Url列表:\n\n{blogurl}\n\n{'测试列表中':9}{len(blogurl)}个CSDN博文页面。\n") # 打印CSDN博文Url列表。for url in blogurl: # 遍历Url列表,依次捕获博文网页源码文本,保存到本地磁盘。print(f"\nUrl:{url}\n")os.system(f"curl {url} > /sdcard/Documents/csdn_get_bloghtml.txt")with open('/sdcard/Documents/csdn_get_bloghtml.txt') as f: # 读取保存的博文页面源码文本。text_html = f.read().split(r'"target="_blank">')[0]if not html_error(text_html): # 获取博文页面源码查错。continueblog_info = get_article_info(text_html) # 调用函数,从博文源码提取信息。#input(f"\n获取的博文信息元组:\n\n{blog_info}\n") # 程序功用微调语句。print('\n'.join(blog_info)) # 打印当前博文信息。print(f"\n{' 我是分割线 ':~^45}\n") # 分割线。

回页首

__上一篇:__ 我的零分周赛(CSDN周赛第30期,成绩“0”分,天然气定单、小艺读书、买苹果🍎、圆桌)
__下一篇:__ 

我的HOT博:

    • New:ChatGPT初体验(ChatGPT国内镜像站初体验,聊天、Python代码生成。)CSDN质量分92。(30687阅读)
    • 尼姆游戏(彩色文字界面版,\033控制码实现。Linux系统有效。)CSDN质量分xx。(1001阅读)
    • 神奇的 \033 ,让打印出彩(1739阅读)
    • 小炼二维数组(1764阅读)
    • 仿真模拟福彩双色球(2622阅读)
    • Python之魔幻切片(1417阅读)
    • 数列求和a, aa, aaa, ..., aa...aa(n个a)(1729阅读)
    • 个人信息提取(2671阅读)
    • 中文字符命名Python变量和函数(1021阅读)
    • 我的Python学习笔记(1021阅读)
    • 十六进制字符串转Python代码(utf-8字符串转十六进制字符串)(1319阅读)
    • 生成100个随机正整数(2489阅读)
    • 给定字符串提取姓名(字符串、list、re“零宽断言”)(1842阅读)
    • 我的 Python.color() (Python 色彩打印控制)(2370阅读)
    • python清屏(3150阅读)
    • 回车符、换行符和回车换行符(3558阅读)
    • Linux 脚本文件第一行的特殊注释符(井号和感叹号组合)的含义(2301阅读)
    • random.sample()将在python 3.9x后续版本中被弃用(2045阅读)
    • pandas 数据类型之 Series(1809阅读)
    • 聊天消息敏感词屏蔽系统(字符串替换 str.replace(str1, *) )(2332阅读)
    • 练习:银行复利计算(用 for 循环解一道初中小题)(2159阅读)
    • pandas 数据类型之 DataFrame(5932阅读)
    • 班里有人和我同生日难吗?(蒙特卡洛随机模拟法)(2921阅读)
    • Python 续行符(\)“拯救”你的超长语句(1502阅读)
    • Python字符串居中显示(4684阅读)
    • 练习:求偶数和、阈值分割和求差( list 对象的两个基础小题)(2331阅读)
    • 用 pandas 解一道小题(2268阅读)
    • 可迭代对象和四个函数(1752阅读)
    • “快乐数”判断(1847阅读)
    • 罗马数字转换器(构造元素取模)(3157阅读)
    • Hot:罗马数字(转换器|罗生成器)(5783阅读)
    • Hot:让QQ群昵称色变的代码(49777阅读)
    • Hot:斐波那契数列(递归| for )(4719阅读)
    • 柱状图中最大矩形(2348阅读)
    • 排序数组元素的重复起止(1964阅读)
    • 电话拨号键盘字母组合(2170阅读)
    • 密码强度检测器(3124阅读)
    • 求列表平衡点(2498阅读)
    • Hot:字符串统计(4581阅读)
    • Hot:尼姆游戏(聪明版首发)(4135阅读)
    • 尼姆游戏(优化版)(1968阅读)

    • 推荐条件 点阅破千


      回页首


      老齐漫画头像

      精品文章:

      • 好文力荐:齐伟书稿 《python 完全自学教程》 Free连载(已完稿并集结成书,还有PDF版本百度网盘永久分享,点击跳转免费🆓下载。)
      • OPP三大特性:封装中的property
      • 通过内置对象理解python'
      • 正则表达式
      • python中“*”的作用
      • Python 完全自学手册
      • 海象运算符
      • Python中的 `!=`与`is not`不同
      • 学习编程的正确方法

      来源:老齐教室


      回页首

      ◆ Python 入门指南【Python 3.6.3】


      好文力荐:

      • 全栈领域优质创作者——寒佬(还是国内某高校学生)博文“非技术文—关于英语和如何正确的提问”,“英语”和“会提问”是学习的两大利器。

      • 【8大编程语言的适用领域】先别着急选语言学编程,先看它们能干嘛

      • 靠谱程序员的好习惯


      CSDN实用技巧博文:

      • 8个好用到爆的Python实用技巧
      • python忽略警告
      • Python代码编写规范
      • Python的docstring规范(说明文档的规范写法)

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9486.html

    如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

    相关文章

    GitLab账号初始密码忘记了, 如何重置?

    如果GitLab对接了类似于LDAP这种统一用户管理系统&#xff0c;可以直接在LDAP中修改。 前两天在通过Terraform 部署的GitLab实例中&#xff0c; 初始的账号密码文件/etc/gitlab/initial_root_password是有时效性的&#xff0c; 需要及时获取初始密码然后进行修改。&#xff08;…

    git账号忘记(重置)密码操作

    目录 1、使用场景 2、实践操作 2.1、在Idea环境之中修改 2.2、最有效修改方式(直接修改windows凭据) 3、成果展现 4、总结 5、参考文章 1、使用场景 最近在使用腾讯的coding&#xff0c;搞个自己的演示demo&#xff0c;因为家事及各种原因&#xff1b;有一段时间未动代码…

    chatgpt赋能python:Python实现计算器:从入门到实现

    Python实现计算器&#xff1a;从入门到实现 计算器是计算机科学中最基础并且实用的东西之一。Python作为一种高级编程语言&#xff0c;它可以用于编写一个功能完整的计算器。在本文中&#xff0c;我们将介绍Python如何实现一个简单的、交互式的计算器&#xff0c;通过使用基本…

    chatgpt赋能python:PythonUDF-知道这些你就能轻松实现自己的需求

    Python UDF - 知道这些你就能轻松实现自己的需求 如果你是一名Python开发者&#xff0c;你肯定知道Python的强大和适用性。在数据分析、机器学习和Web应用程序等领域&#xff0c;Python的使用已经成为了常态。Python的一个重要特点是拥有大量的库和框架&#xff0c;这些库和框…

    用python代码实现的算法题

    每天进步一点点&#xff0c;关注我们哦&#xff0c;每天分享测试技术文章 本文章出自【码同学软件测试】 码同学公众号&#xff1a;自动化软件测试 码同学抖音号&#xff1a;小码哥聊软件测试 01 算法题一 面试题&#xff1a;假设有一个字符串&#xff0c;每个英文单词全部都…

    1行Python代码,对话ChatGPT,网友:太方便了

    大家好&#xff0c;这里是程序员晚枫。 最近ChatGPT火爆全球&#xff0c;哪怕你不是程序员&#xff0c;应该也听过他的大名了。 今天我们就来一起体验一下~1行Python代码就够了&#xff01; 上代码 导入poai这个库后&#xff0c;只需要1行代码poai.chatgpt.chat&#xff0c…

    chatgpt赋能python:Python怎么免费用的?

    Python 怎么免费用的&#xff1f; Python 是一种高级编程语言&#xff0c;自带简洁优美的语法和强大的开发库。因此&#xff0c;它成为了各种应用程序、网站和服务的主要编程语言之一。如果你对编程语言有些了解&#xff0c;那么你应该知道 Python 很适合开发各类工具、脚本和…

    比chatgpt稍逊的ai问答网站phind,专用于编写代码

    介绍&#xff1a; Phind智能网站是一款基于人工智能技术的搜索引擎&#xff0c;提供智能搜索、语音搜索、图像搜索等多种搜索方式。Phind智能网站的搜索结果不仅仅是关键词匹配&#xff0c;更是根据用户的搜索习惯和兴趣推荐相关内容&#xff0c;为用户提供更加个性化的搜索体…

    一分钟学会怎么让chatGPT帮你写python代码(含使用地址)

    一分钟学会怎么让chatGPT帮你写python代码&#xff08;含使用地址&#xff09; 我们用chatGPT做一个python的计算器脚本为例 提出需求 1、给定角色定位 2、提出要求 3、提出要求的细节 标题等待片刻&#xff0c;等待chatGPT生成脚本即可 import tkinter as tkclass Calc…

    为什么要学习Python呢?有了 ChatGPT 还有必要学习 python 吗?

    为什么学习Python呢&#xff1f; 学习 Python 的原因有很多&#xff0c;以下是一些常见的原因&#xff1a; 简单易学&#xff1a; Python 是一门易于学习的编程语言&#xff0c;语法简单、清晰明了&#xff0c;可以快速掌握基本的编程概念。应用广泛&#xff1a; Python 是一…

    Python爬取某平台付费文档,确定不来薅羊毛吗?

    导语&#xff1a; 哈喽&#xff0c;哈喽~当代大学生写作业时&#xff0c;emmmm…先看一眼&#xff0c;ok有点印象。 想翻书时&#xff0c;这是第几页&#xff1f;怎么这么干净&#xff0c;是这里吗… 这时“学小易”就很友好了&#xff0c;但是唯一不足的一点是&#xff0c;…

    chatgpt赋能python:Python是否需要付费?

    Python是否需要付费&#xff1f; Python是一种高级动态编程语言&#xff0c;文件以.py为扩展名。它具有广泛的应用&#xff0c;包括构建网站、数据分析和科学计算等领域。Python是一种免费开源软件&#xff0c;在大多数情况下不需要任何费用。然而&#xff0c;在某些情况下&am…

    python算法面试题(一)

    1、给定一个包含红色、白色和蓝色、共n 个元素的数组nums&#xff0c;原地对它们进行排序&#xff0c;使得相同颜色的元素相邻&#xff0c;并按照红色、白色、蓝色顺序排列。 我们使用整数 0、1 和 2 分别表示红色、白色和蓝色&#xff1b;必须在不使用库的sort函数的情况下解决…

    实用版ChatBing论文阅读助手教程+新测评

    实用版ChatBing论文阅读助手新测评 AI进化&#xff08;更新&#xff09;的速度太快了&#xff01;距离我上次的【Chat嘴硬&#xff01;基于NewBing的论文调研评测报告】&#xff0c;才四天&#xff0c;它已经进化到快能用的地步了&#xff01; 这次是我刷B站看到热门推荐&…

    ChatGPT与Midjourney:用AI在Youtube和抖音上疯狂传播

    释放被动收入和病毒式增长:2023年利用人工智能、YouTube短片、抖音、ChatGPT和Midjourney的力量&#xff0c;解锁被动收入和。病毒式增长:2023年利用人工智能、YouTube短片、抖音、ChatGPT和Midjourney的力量。你渴望挖掘YouTube短片和抖音的病毒潜力吗&#xff1f;想利用ChatG…

    电脑使用代理连接,关掉代理之后连接不了网络的解决方法

    关掉IP代理之后&#xff0c;IE浏览器代理状态还在&#xff0c;没有取消。需要取消的话&#xff0c;方法是点击IE浏览器上面的工具选项&#xff0c;如果是IE9及以上的版本&#xff0c;点击IE浏览器右上角的小齿轮图标。 具体的操作是&#xff1a;工具-Internet选项-连接-局域网设…

    Huggingface的from pretrained的下载代理服务器方法设置

    笔者需要用到下载预训练模型&#xff0c;但是此时TUNA和BSFU的镜像已经停止了&#xff0c;希望有可用的途径下载到位于网上的预训练模型。 此时查找了huggingface的文档Configuration 根据文档&#xff0c;该参数proxies (Dict, optional) A dictionary of proxy servers to …

    内网服务器设置代理访问外网

    内网服务器设置代理访问外网 背景 首先需要两台云服务器&#xff0c;其中服务器A无公网IP&#xff0c;服务器B有公网IP。 AB公网IP/110.40.255.180内网IP172.17.64.11172.17.64.17 配置A代理 直接配置环境变量即可。 cd /etc/profile.d/ vim proxy.sh进入proxy.sh文件后&…

    HttpClient内外访问外网,添加代理(二)

    HttpClient内外访问外网&#xff0c;添加代理&#xff08;二&#xff09; 问题背景HttpClient工具类调用url实例&#xff0c;附源码&#xff08;一&#xff09;HttpClient内外访问外网&#xff0c;添加代理&#xff08;二&#xff09; 项目搭建Lyric&#xff1a; 你已走得很远 …

    Thinkphp5设置反代理

    目的&#xff1a;节省OSS外网访问流出流量 购买了阿里云OSS的存储资源包后&#xff0c;发现还需要外网访问流出费用&#xff0c;内网访问是免费的。 百度得相关方法&#xff0c;即设置反向代理。前提是服务器和OSS存储桶需要属于同一个地区。 一、环境 服务器环境 Nginx 1.20…