【R + Python】iNaturalist 网站图片下载 inat api

图片描述

文章目录

  • 一、iNaturalist 简介
  • 二、R语言API:rinat
  • 三、示例
    • 3.1 获取观测数据
    • 3.2 绘制可视化图像
      • 函数用法
    • 3.4 在区域网格中搜索
    • 3.5 下载图片
      • 3.51 提取图片 url
      • 3.52 下载图片: R语言
      • 3.53 下载图片: python
  • 四、获取详细rinat包的文档

一、iNaturalist 简介

💻网址:https://www.inaturalist.org/

iNaturalist 是一个全球性的自然观察社区和生物多样性数据库,它允许用户记录和分享他们在自然界中的观察。这个平台由加州科学院(California Academy of Sciences)和国家地理学会(National Geographic Society)联合资助,并且得到了微软“AI for Earth”项目的支持,提供云计算资源和人工智能技术帮助提升图像识别能力。

用户可以在iNaturalist上记录他们遇到的各种生物,包括动物、植物、真菌等,并且可以上传相关的图片或描述。这些观察记录可以贡献给科学研究,帮助科学家和资源管理者了解生物多样性的分布和状况。iNaturalist社区鼓励用户参与讨论,鉴定物种,并与其他自然爱好者交流。

此外,iNaturalist还提供了一些额外的功能,比如创建项目(Projects)、运行生物多样性调查活动(Bioblitz)、以及通过图鉴(Life List)来管理和展示个人的自然观察记录。

iNaturalist不仅是一个数据记录平台,它还注重社区的建设和参与。它鼓励用户成为公民科学家,通过参与项目和活动来贡献自己的观察数据,这些数据可以被科学家用于研究和保护生物多样性。

总的来说,iNaturalist是一个强大的工具,它结合了社区的力量和科技的支持,旨在促进自然观察、生物多样性研究和环境保护。

🧩网站图片示例:
在这里插入图片描述

二、R语言API:rinat

R 语言提供了用于该网站的包。

rinat 是一个R语言的包,它提供了一个程序化接口来访问iNaturalist网站提供的API,以便下载由公民科学家提交的物种出现数据。这个包允许用户通过各种搜索参数来检索观察数据,例如物种名称、地点、日期、记录质量等。

以下是一些rinat包的主要功能:

  1. 获取观察数据:使用get_inat_obs()函数,可以根据查询字符串、物种名称、地点、日期等条件来检索iNaturalist上的观察数据。

  2. 项目观察:通过get_inat_obs_project()函数,可以获取特定项目的所有观察数据,如果知道项目的ID或iNaturalist上的slug名称。

  3. 观察详情:使用get_inat_obs_id()函数,可以通过观察ID来检索特定观察的详细信息。

  4. 用户观察get_inat_obs_user()函数允许你获取特定用户的所有观察数据。

  5. 物种统计get_inat_taxon_stats()函数可以获取特定物种的统计信息。

  6. 用户统计get_inat_user_stats()函数可以获取特定用户的统计信息。

  7. 制图功能inat_map()函数可以快速创建基本地图,以可视化搜索结果。

安装rinat包的步骤如下:

  • 通过CRAN安装最新版本:
install.packages("rinat")
  • 或者,从GitHub安装开发版本:
remotes::install_github("ropensci/rinat")

三、示例

3.1 获取观测数据

get_inat_obs函数为例: 参数

参数描述
query查询字符串,用于进行一般搜索。
taxon_name根据 iNaturalist 分类名称进行过滤。注意,这也会选择后代分类单元的观测。名称可能不是唯一的,匹配多个分类时可能返回空结果。
taxon_id根据 iNaturalist 分类 ID 进行过滤。与 taxon_name 类似,也会选择后代分类单元的观测。
place_id根据 iNaturalist 地点 ID 进行过滤。
quality数据的质量等级,必须是 “casual”(随意)或 “research”(研究)。如果留空,则返回所有质量的数据。
geo仅返回有地理参考的结果。如果设置为 TRUE,将排除没有地理参考的数据。
annotation根据注解进行过滤。是一个长度为 2 的向量,第一个元素是术语 ID(例如 “1” 表示生命阶段),第二个元素是值 ID(例如 “2” 表示成体)。
year只返回指定年份的观测结果(只能是一个具体年份,不能是年份范围)。
month根据月份过滤观测结果,必须为 1 到 12 的数字。
day根据日期过滤观测结果,必须为 1 到 31 的数字。
bounds搜索范围的边界框,以经度(-180 到 180)和纬度(-90 到 90)表示。格式为 [南纬, 西经, 北纬, 东经],也可以提供 sf 或 sp 对象来确定边界框。
maxresults返回结果的最大数量,不应超过 10000。
meta布尔值。如果设置为 TRUE,函数输出将是一个包含元数据和数据框的列表;如果为 FALSE(默认),则只返回数据框。

返回值

  • 返回一个包含请求的观测数据的数据框。
  • 如果 meta = TRUE,则返回一个包含元数据和数据框的列表。

这个函数的过滤功能有时可能不稳定,尤其是 query 参数。在某些情况下,使用 taxon 字段进行科学名称过滤可能效果更好。

🟢搜索伦敦,2024年的图片:

library(rinat)
library(sf)# 这是伦敦的行政区划数据文件,我前一篇文章写了
London <- st_read('E:/Analysis/zenodo/data/admin/boundaries/London.shp')observations <- get_inat_obs(bounds = London ,quality ='research',maxresults = 10,year = 2024)

返回结果包含很多信息,打印返回数据的类型和列名:

> class(observations)
[1] "data.frame"
> colnames(observations)[1] "scientific_name"                  "datetime"                         "description"                     [4] "place_guess"                      "latitude"                         "longitude"                       [7] "tag_list"                         "common_name"                      "url"                             
[10] "image_url"                        "user_login"                       "id"                              
[13] "species_guess"                    "iconic_taxon_name"                "taxon_id"                        
[16] "num_identification_agreements"    "num_identification_disagreements" "observed_on_string"              
[19] "observed_on"                      "time_observed_at"                 "time_zone"                       
[22] "positional_accuracy"              "public_positional_accuracy"       "geoprivacy"                      
[25] "taxon_geoprivacy"                 "coordinates_obscured"             "positioning_method"              
[28] "positioning_device"               "user_id"                          "user_name"                       
[31] "created_at"                       "updated_at"                       "quality_grade"                   
[34] "license"                          "sound_url"                        "oauth_application_id"            
[37] "captive_cultivated"              

使用image_url就可以下载该图片。

比如这张:https://static.inaturalist.org/photos/444220864/medium.jpeg

3.2 绘制可视化图像

🟢(1) 简单的plot绘制,根据经纬度绘制点即可:

# 绘制观测点,设置颜色
plot(observations$longitude, observations$latitude, col = "blue",   # 设置点的颜色为蓝色pch = 19,       # 设置点的形状,19 是实心圆点xlab = "Longitude", ylab = "Latitude",main = "iNaturalist Observations in London 2024")  # 设置图形标题

在这里插入图片描述

🟢(2)inat_map函数绘制

map <- inat_map(observations,map = 'world', subregion = "UK")

这个貌似只能精确到国家,比如我搜索的是伦敦的数据,但绘图是英国的。
在这里插入图片描述

inat_map() 函数用于绘制 iNaturalist 观测数据的地图。该函数不仅可以自动绘制地图,还可以返回一个 ggplot 对象,供用户进一步修改和添加图层。

函数用法

inat_map(data, map = "usa", subregion = ".", plot = TRUE)
参数描述
data包含 iNaturalist 观测数据的数据框,通常通过 get_inat_obs() 获取,数据中必须包含经纬度。
map要绘制的地图区域,默认值为 "usa"(美国),可以参考 map 包的文档获取其他区域的名称。
subregion地图子区域名称,默认是 ".",即整个指定区域,也可以根据需求绘制更小的子区域。
plot逻辑值,默认值为 TRUE,表示直接绘制地图。如果为 FALSE,则返回一个 ggplot 对象,用户可以进一步修改。

🟢(3)使用ggplot2

library(ggplot2)# 将观测数据转换为 sf 对象,便于与伦敦边界一起绘制
# 使用 longitude 和 latitude 列作为坐标
observations_sf <- st_as_sf(observations, coords = c("longitude", "latitude"), crs = st_crs(London))# 使用 ggplot2 绘制伦敦边界和观测数据
ggplot() +geom_sf(data = London, fill = "lightgray", color = "black") +    # 绘制伦敦边界geom_sf(data = observations_sf, aes(color = species_guess), size = 3) +  # 绘制观测数据,使用 species_guess 作为颜色scale_color_viridis_d() +  # 使用 Viridis 颜色刻度labs(title = "iNaturalist Observations in London 2024", color = "Species") +  # 添加标题和颜色标签theme_minimal()

在这里插入图片描述

3.4 在区域网格中搜索

将目标区域分为多个网格,在每个网格中进行搜索,这样可以是的搜索结果更加均匀。

注意:网格尺度太大,或者搜索限制太宽松,会导致get_inat_obs函数返回太多值,会报错。

或者错误的边界会返回0个结果(网格区域表示为[南纬, 西经, 北纬, 东经],顺序不能错了)。

在这里插入图片描述

🔹🔹示例代码:

# 加载所需的包
library(rinat)
library(dplyr)
library(sf)
library(ggplot2)gc()# 读取伦敦边界 shapefile
London <- st_read('E:/Analysis/zenodo/data/admin/boundaries/London.shp')grid <- London %>%# 将伦敦边界转换为英国国家网格坐标系(OSGB 1936,EPSG:27700),这是一个常用的投影系统,适合用于测量距离(以米为单位)。st_transform(27700) %>% st_make_grid(cellsize = 10000) %>% st_sf() %>% mutate(cell = seq(1:nrow(.))) %>%select(cell, everything()) %>%st_transform(4326)# 统计每个网格的观测数据
observations_list <- lapply(1:nrow(grid), function(i) {g <- grid[i, ]  # 选择第i个网格bbox <- st_bbox(g)  # 获取边界框bounds <- c(bbox["ymin"], bbox["xmin"], bbox["ymax"], bbox["xmax"])  # [南纬, 西经, 北纬, 东经]print(paste("searching for observations in grid cell",i,"out of",nrow(grid)))# 获取每个网格区域内的 iNaturalist 观测数据,限制为10个obs <- get_inat_obs(bounds = bounds, maxresults = 10,quality = 'research',year = 2024)  print(paste("..success..adding",nrow(obs),"records"))# 检查是否有观测数据返回if (nrow(obs) > 0) {return(obs)} else {return(NULL)  # 没有数据返回NULL}
})# 将观测数据列表转换为数据框,去除NULL值
observations_df <- do.call(rbind, observations_list)# 将观测数据转换为 sf 对象
observations_sf <- st_as_sf(observations_df, coords = c("longitude", "latitude"), crs = st_crs(London))# 过滤观测数据,只保留在伦敦边界内的观测
observations_within_london <- observations_sf[st_intersects(observations_sf, London) %>% lengths > 0,] # 如果有观测数据,转换为 sf 对象
if (nrow(observations_within_london) > 0) {# 使用 ggplot2 绘制伦敦边界和观测数据ggplot() +geom_sf(data = London, fill = "lightgray", color = "black") +    # 绘制伦敦边界geom_sf(data = observations_within_london, aes(color = species_guess), size = 3, show.legend = FALSE) +  # 绘制观测数据scale_color_viridis_d() +  # 使用 Viridis 颜色刻度labs(title = "iNaturalist Observations in London 2024", color = "Species") +  # 添加标题theme_minimal()
} else {print("没有找到任何观测数据。")
}

3.5 下载图片

其实就是根据图片的url下载,很多语言都可以实现的。

3.51 提取图片 url

你也可以根据需要,保存更多的变量,比如经纬度之类的。

# 保存图片的url
inat_urls <- observations_within_london %>%st_drop_geometry() %>%  # 去掉 geometry 列select(id,image_url)%>%mutate(id = paste0("i",id)) %>%filter(!is.na(id) & !is.na(image_url))library(tidyverse)
write_csv(inat_urls, paste0("./inat_urls_1.csv"))

3.52 下载图片: R语言

# 加载必要的包
library(tidyverse)# 读取 CSV 文件
inat_urls <- read_csv("./inat_urls_1.csv")# 确保 URL 列和 ID 列的名称正确
url_column <- "image_url"
id_column <- "id"# 创建一个下载目录(如果没有的话)
dir.create("images", showWarnings = FALSE)# 下载每个 URL 对应的图片
for (i in 1:nrow(inat_urls)) {# 获取当前 URL 和对应的 IDimage_url <- inat_urls[[url_column]][i]image_id <- inat_urls[[id_column]][i]# 生成保存图片的文件名,使用 IDimage_name <- paste0("images/", image_id, ".jpg")  # 假设文件格式为 .jpg,调整为实际格式# 下载图片tryCatch({download.file(image_url, destfile = image_name, mode = "wb")  # mode = "wb" 适用于二进制文件message(paste("Downloaded:", image_name))}, error = function(e) {message(paste("Failed to download:", image_url))})
}

在这里插入图片描述

3.53 下载图片: python

这是论文:Social media and deep learning reveal specific cultural preferences for biodiversity 的参考代码

下载中断后可以继续上次的下载,做法是:下载过的图片,在csv文件中会新增dl列,值设置为Y

在这里插入图片描述

import time
import pandas as pd
import urllib.request
import urllib.error
import http
from io import BytesIOfrom PIL import Image, ImageFileImageFile.LOAD_TRUNCATED_IMAGES = True# csv 文件序号后缀
s = 1# Set directory
proj_dir = "E:/R_Language"# General functionsdef open_image(entry):"""function to open image"""img = []  # empty img list object as defaultimage_url = entry.iloc[1]  # start with lowest resolution imageif image_url != image_url:print("...none available")image_url = []print(f"image found at {image_url}")if len(image_url) != 0:e = None  # empty error objectn = 0  # create request error counterwhile True:try:response = urllib.request.urlopen(image_url)img = Image.open(BytesIO(response.read()))img = img.convert('RGB')img = [img.resize((400, 400))]breakexcept (urllib.error.ContentTooShortError, ConnectionResetError) as ex:print(ex)print('error...retrying...')n += 1if n > 10:  # after ten error messages, move onbreaktime.sleep(1)continueexcept (urllib.error.HTTPError, http.client.IncompleteRead,urllib.error.URLError) as ex:print(ex)if str(ex) in ("HTTP Error 403: Forbidden", "HTTP Error 404: Not Found", "HTTP Error 410: Gone"):print('...does not exist...moving on...')e = exbreakelse:print('...retrying...')time.sleep(2)continuereturn (img)def next_id(df):"""function to load index of last downloaded image"""if 'dl' in df:df = df.iloc[:, 2]i = pd.Series.last_valid_index(df) + 1else:i = 0return (i)def main():# image_urls = pd.read_csv(f"{proj_dir}/data/inat/urls/inat_urls_{s}.csv")image_urls = pd.read_csv(f"{proj_dir}/inat_urls_{s}.csv")# image_dir = f"{proj_dir}/data/inat/imgs"  # results file id (later split between atts and scenes)image_dir = f"{proj_dir}/images"start_i = next_id(image_urls)for i in range(start_i, len(image_urls)):print(f"Analysing image {i + 1} out of {len(image_urls)}")image = open_image(image_urls.iloc[i])if image:  # if list is not emptyprint(f"...image exists, downloading...")image[0].save(f"{image_dir}/{image_urls.iloc[i, 0]}.jpg")image_urls.loc[i, 'dl'] = 'Y'# image_urls.to_csv(f"{proj_dir}/data/inat/urls/inat_urls_{s}.csv", sep=',', index=False)image_urls.to_csv(f"{proj_dir}/inat_urls_{s}.csv", sep=',', index=False)else:print(f"Image for metadata record {i + 1} does not exist, moving on...")image_urls.loc[i, 'dl'] = 'N'# image_urls.to_csv(f"{proj_dir}/data/inat/urls/inat_urls_{s}.csv", sep=',', index=False)image_urls.to_csv(f"{proj_dir}/inat_urls_{s}.csv", sep=',', index=False)if __name__ == '__main__':main()

四、获取详细rinat包的文档

在R的控制台输入相关函数的帮助,即可查看全部参数和详细说明:

如:

help(get_inat_obs)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/456961.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

8.three.js相机详解

8.three.js相机详解 1、 认识相机 在Threejs中相机的表示是THREE.Camera&#xff0c;它是相机的抽象基类&#xff0c;其子类有两种相机&#xff0c;分别是正投影相机THREE.OrthographicCamera和透视投影相机THREE.PerspectiveCamera&#xff1a; 正投影和透视投影的区别是&am…

深度学习技术演进:从 CNN、RNN 到 Transformer 的发展与原理解析

深度学习的技术演进经历了从卷积神经网络&#xff08;CNN&#xff09;到循环神经网络&#xff08;RNN&#xff09;再到 Transformer 的重要发展。这三个架构分别擅长处理图像、序列数据和多种任务的特征&#xff0c;标志着深度学习在不同领域取得的进步。 1. 卷积神经网络&…

java智能物流管理系统源码(springboot)

项目简介 智能物流管理系统实现了以下功能&#xff1a; 智能物流管理系统的主要使用者分为管理员&#xff0c;顾客&#xff0c;员工&#xff0c;店主。功能有个人中心&#xff0c;顾客管理&#xff0c;员工管理&#xff0c;店主管理&#xff0c;门店信息管理&#xff0c;门店…

Go 语言中的 for range 循环教程

在 Go 语言中&#xff0c;for range 循环是一个方便的语法结构&#xff0c;用于遍历数组、切片、映射和字符串。本教程将通过示例代码来帮助理解如何在 Go 中使用 for range 循环。 package mainimport "fmt"func main() {// 遍历切片并计算和nums : []int{2, 3, 4}…

OpenCV视觉分析之目标跟踪(1)计算密集光流的类DISOpticalFlow的介绍

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 这个类实现了 Dense Inverse Search (DIS) 光流算法。更多关于该算法的细节可以在文献 146中找到。该实现包含了三个预设参数集&#xff0c;以提…

Visual studio 下载安装

1&#xff0c;Visual stutdio 网址 下载 Visual Studio Tools - 免费安装 Windows、Mac、Linux 2&#xff0c;下划页面&#xff0c;点击 较早的下载 3&#xff0c;选择对应的版本进行下载

蓝牙技术的多种模式详解

蓝牙作为一种广泛应用的无线通信技术&#xff0c;已经在我们的日常生活中无处不在。随着技术的发展&#xff0c;蓝牙已经不再仅限于传统的音频传输&#xff0c;而是扩展到了各种应用领域。本文将深入探讨蓝牙的各种模式及其应用场景。 1. 经典蓝牙&#xff08;BR/EDR&#xff…

单链表OJ题:移除链表元素(力扣)

目录 解法一&#xff1a;带头节点的新链表 解法二&#xff1a;不带头节点的新指向关系链表 总结 这是一道简单的力扣题目&#xff0c;关于解法的话&#xff0c;这里提供了二种思路&#xff0c;重点解释前两种&#xff0c;还有一种思路好想&#xff0c;但是时间复杂度为O(n^2…

一站式学习 Shell 脚本语法与编程技巧,踏出自动化的第一步

文章目录 1. 初识 Shell 解释器1.1 Shell 类型1.2 Shell 的父子关系 2. 编写第一个 Shell 脚本3. Shell 脚本语法3.1 脚本格式3.2 注释3.2.1 单行注释3.2.2 多行注释 3.3 Shell 变量3.3.1 系统预定义变量&#xff08;环境变量&#xff09;printenv 查看所有环境变量set 查看所有…

SMT 生产可视化:提升电子组装流程效率

通过图扑 HT 对表面贴装技术&#xff08;SMT&#xff09;生产线的实时数据采集与可视化分析&#xff0c;实现对产品质量、产能利用率和流程优化的有效监控&#xff0c;助力生产效率最大化与质量提升。

听见文本的魅力:AI 与未来的语音交互

AI 与未来的语音交互 引言什么是文本转语音&#xff08;TTS&#xff09;&#xff1f;当前 TTS 技术现状国内海外文本转语音能力调研文本转语音能力说明多情感风格SSML语音合成标记语言 未来趋势 引言 随着人工智能&#xff08;AI&#xff09;技术的迅猛发展&#xff0c;文本转…

OpenCV视觉分析之运动分析(4)背景减除类:BackgroundSubtractorKNN的一系列set函数的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 BackgroundSubtractorKNN类有一系列的set函数&#xff0c;下面我们一一列举他们的名字和用法。 一系列set函数 函数setDetectShadows() setDe…

笔记整理—linux驱动开发部分(1)驱动梗概

驱动可以分为广义上的和狭义上的驱动。广义上的驱动是用于操作硬件的代码&#xff0c;而狭义上的驱动为基于内核系统之上让硬件去被操作的逻辑方法。 linux体系架构&#xff1a; 1.分层思想 &#xff1a;在OS中间还会有许多层。 : 2.驱动的上面是系统调用&#xff08;API&…

JavaScript网页设计案例教程:从零开始构建一个响应式网页

JavaScript网页设计案例教程&#xff1a;从零开始构建一个响应式网页 前言 在当今互联网时代&#xff0c;网页设计已成为一项重要技能。JavaScript作为网页开发的核心技术之一&#xff0c;能够让网页变得更加生动和交互。本文将带您通过一个实际案例&#xff0c;逐步学习如何…

万字图文实战:从0到1构建 UniApp + Vue3 + TypeScript 移动端跨平台开源脚手架

&#x1f680; 作者主页&#xff1a; 有来技术 &#x1f525; 开源项目&#xff1a; youlai-mall &#x1f343; vue3-element-admin &#x1f343; youlai-boot &#x1f343; vue-uniapp-template &#x1f33a; 仓库主页&#xff1a; Gitee &#x1f4ab; Github &#x1f…

【C语言】控制台学生成绩管理系统

文章目录 C语言编程&#xff1a;学生成绩管理系统一、程序概述二、代码实现三、程序解释 C语言编程&#xff1a;学生成绩管理系统 在这篇文章中&#xff0c;我们将一起探讨如何使用C语言来创建一个简单的学生成绩管理系统。这个系统将允许用户输入学生数量、学号和成绩&#x…

钉钉录播抓取视频

爬取钉钉视频 免责声明 此脚本仅供学习参考&#xff0c;切勿违法使用下载他人资源进行售卖&#xff0c;本人不但任何责任! 仓库地址: GItee 源码仓库 执行顺序 poxyM3u8开启代理getM3u8url用于获取m3u8文件userAgent随机请求头downVideo|downVideoThreadTqdm单线程下载和…

水轮发电机油压自动化控制系统解决方案介绍

在现代水电工程中&#xff0c;水轮机组油压自动化控制系统&#xff0c;不仅直接关系到水轮发电机组的安全稳定运行&#xff0c;还影响着整个水电站的生产效率和经济效益。 一、系统概述 国科JSF油压自动控制系统&#xff0c;适用于水轮发电机组调速器油压及主阀&#xff08;蝶…

Golang | Leetcode Golang题解之第503题下一个更大元素II

题目&#xff1a; 题解&#xff1a; func nextGreaterElements(nums []int) []int {n : len(nums)ans : make([]int, n)for i : range ans {ans[i] -1}stack : []int{}for i : 0; i < n*2-1; i {for len(stack) > 0 && nums[stack[len(stack)-1]] < nums[i%…

01 springboot-整合日志(logback-config.xml)

logback-config.xml 是一个用于配置 Logback 日志框架的 XML 文件&#xff0c;通常位于项目的 classpath 下的根目录或者 src/main/resources 目录下。 Logback 提供了丰富的配置选项&#xff0c;可以满足各种不同的日志需求。需要根据具体情况进行配置。 项目创建&#xff0…