内容安全复习 2 - 网络信息内容的获取与表示

文章目录

  • 信息内容的获取
    • 网络信息内容的类型
    • 网络媒体信息获取方法
  • 信息内容的表示
    • 视觉信息
    • 视觉特征表达
    • 文本特征表达
    • 音频特征表达

信息内容的获取

网络信息内容的类型

  • 网络媒体信息
    传统意义上的互联网网站公开发布信息,网络用户通常可以基于网络浏览器获得。网络媒体、网页信息
  • 网络通讯信息
    互联网用户使用除网络浏览器以外的专用客户端软件,实现与特定点通信或进行点对点通信时所交互的信息。电子邮件、网上聊天

网络媒体信息获取方法

  • 静态媒体发布信息获取
    按信息发布方式,网络媒体信息可以分为直接匿名浏览信息和需身份认证网络信息;
    按网页具体形态可分为静态网页动态网页两种。
  • 基于自然人网络浏览行为模拟的信息获取
    自然人网络浏览行为模拟技术在网络媒体信息获取环节得到广泛应用。
  • 大模型信息获取重点,好好看看
    步骤如下:
    (1)用户提问:可以通过提出问题开始。
    (2)模型评估:基于问题,模型评估能否根据已有知识库回答,否则需要使用浏览器工具。
    (3)使用浏览器工具:如需最新消息,会使用内置的浏览器工具。
    (4)回答用户:将整理好的信息以回答的形式提供给用户。
    (5)反馈和调整:用户可以进行反馈,模型调整搜索策略或解释信息。

信息内容的表示

视觉信息

  • 处理过程
    获取、压缩、传输、重建、处理。
  • 视觉感知器
    柱状细胞、锥状细胞。
    其中锥状细胞对亮度不敏感,在高亮工作;刺激响应快。柱状细胞反之。
  • 三原色
    红、绿、蓝。
  • 计算机视觉信息
    一幅图像可以用矩阵表示,一个像素点对应矩阵中的一个元素。
    在这里插入图片描述
    彩色图像转化成灰度图像: Y = ( R + G + B ) / 3 Y = (R+G+B) / 3 Y=(R+G+B)/3
    对于视频,视频实际是其内容随时间变化的一组动态图像,又叫运动图像或活动图像。

视觉特征表达

图像特征表达是理解图像内容的基础,把图像从非结构化数据变成结构化数据,使得其相关性可以被有效度量。

应用:图像相似度计算(图像检索、匹配)。

  • 颜色特征
    在这里插入图片描述
    首先选择颜色空间,并将颜色空间划分成若干个小的区域,即颜色量化。
    统计其颜色落入每个小区间的像素数目可以得到颜色直方图。
    优点: 计算简单,一定场景下能反映图片内容;缺点:丢失空间信息。如下图示例。
    在这里插入图片描述
  • 纹理特征
    纹理是一种普遍存在的视觉现象,尚无广泛接受的定义。纹理是图像灰度或色彩在空间上的变化或重复。
    (1)局部二值模式(LBP)。
    (2)梯度直方图特征(HOG)。
    (3)尺度不变特征变换(SIFT)。
    (4)后SIFT时代的其他局部特征。

文本特征表达

重点

  • 将词语表达成向量
    首先,我们用 1-of-N Encoding 方法,如下所示。
    在这里插入图片描述
    只有这个方法是不够的。肉眼可见的维数爆炸,词语越多维数越多。因此在这一步后加入了 Word Class 和 Word Embedding 两个步骤,如下。
    在这里插入图片描述
    在 Word Class 中,我们对具有相同特征的词做聚类,将他们分为同一个类(Class),用所属类来表达该词。
    在 Word Embedding 中,我们把每一个词都投影到高维空间上,当然,这个空间的维度远小于第一步 1-of-N Encoding 的维度。因此这实际上是一个降维的过程。
  • 将文本表达成向量
    (1)词频(TF):词频指一个词在文本中出现的次数。通过词频进行特征选择实际上是将某一频率区间外的值去掉从而降维。
    (2)文档频数(DF):指数据集中有多少文本包含某个单词。
    (3)TF-IDF:
    TF = 某个词在文章中的出现次数 / 文章的总词数;
    IDF(逆文档频率)= log(语料库的文档总数 / (包含该词的文档数+1))。
    TF-IDF = TF * IDF。

音频特征表达

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/355416.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql8.0找不到my.ini

报错问题解释: MySQL 8.0 在Windows系统中通常不需要 my.ini 文件,因为安装程序会在 %PROGRAMDATA%\MySQL\MySQL Server 8.0\ (通常是 C:\ProgramData\MySQL\MySQL Server 8.0\)创建默认的配置文件。如果你的系统中找不到 my.ini…

ArcGIS查找相同图斑、删除重复图斑

​ 点击下方全系列课程学习 点击学习—>ArcGIS全系列实战视频教程——9个单一课程组合系列直播回放 点击学习——>遥感影像综合处理4大遥感软件ArcGISENVIErdaseCognition 这次是上次 今天分享一下,很重要却被大家忽略的两个工具 这两个工具不仅可以找出属性…

解决电脑关机难题:电脑关不了机的原因以及方法

在使用电脑的日常生活中,有时会遇到一些烦人的问题,其中之一就是电脑关不了机。当您尝试关闭电脑时,它可能会停留在某个界面,或者根本不响应关机指令。这种情况不仅令人困惑,还可能导致数据丢失或系统损坏。 在本文中…

编译xlnt开源库源码, 使用c++读写excel文件

编译xlnt开源库源码,在linux平台使用c读写excel文件 下载xnlt源码 官方网站https://tfussell.gitbooks.io/xlnt/content/ 下载地址https://github.com/tfussell/xlnt 下载libstudxml开源库源码 下载地址https://github.com/kamxgal/libstudxml 下载xnlt源码 官方网站https://…

Walrus:去中心化存储和DA协议,可以基于Sui构建L2和大型存储

Walrus是为区块链应用和自主代理提供的创新去中心化存储网络。Walrus存储系统今天以开发者预览版的形式发布,面向Sui开发者征求反馈意见,并预计很快会向其他Web3社区广泛推广。 通过采用纠删编码创新技术,Walrus能够快速且稳健地将非结构化数…

C++的动态内存分配

使用new/delete操作符在堆中分配/释放内存 //使用new操作符在堆中分配内存int* p1 new int;*p1 2234;qDebug() << "数字是&#xff1a;" << *p1;//使用delete操作符在堆中释放内存delete p1;在分配内存的同时初始化 //在分配内存的时初始化int* p2 n…

海外云手机自动化管理,高效省力解决方案

不论是企业还是个人&#xff0c;对于海外社媒的营销都是需要自动化管理的&#xff0c;因为自动化管理不仅省时省力&#xff0c;而且还节约成本&#xff1b; 海外云手机的自动化管理意味着什么&#xff1f;那就是企业无需再投入大量的人力和时间去逐一操作和监控每一台设备。 通…

k8s学习--OpenKruise详细解释以及原地升级及全链路灰度发布方案

文章目录 OpenKruise简介OpenKruise来源OpenKruise是什么&#xff1f;核心组件有什么&#xff1f;有什么特性和优势&#xff1f;适用于什么场景&#xff1f; 什么是OpenKruise的原地升级原地升级的关键特性使用原地升级的组件原地升级的工作原理 应用环境一、OpenKruise部署1.安…

Python自动化(5)——ocr识字

Python自动化(5)——ocr识字 通过网络识字 网络识字的平台有很多&#xff0c;主要有百度以及科大讯飞&#xff0c;这里以百度智能云来简单示例。 首先需要在百度智能云上注册一个账号&#xff0c;并创建一个应用&#xff0c;网址&#xff1a; https://console.bce.baidu.com/…

高速异地组网怎么办理?

在当今信息化时代&#xff0c;跨地域的远程办公、远程教育、远程医疗等需求越来越多。而高速异地组网作为一种解决不同地区之间快速组建局域网的方法&#xff0c;被广泛应用。本文将介绍一款异地组网内网穿透产品——【天联】&#xff0c;并提供其办理流程。 【天联】组网是什…

LoRa126X系列LoRa模块:专为物联网设计而生

LoRa126X是思为无线研发的一款应用于物联网应用的LoRa 前端模块系列&#xff0c;采用 Semtech 公司的 SX1262和SX1268 芯片。该系列模块具有小体积、低功耗&#xff0c;高灵敏度等特点&#xff0c;并且严格遵循无铅工艺生产和测试流程&#xff0c;符合 RoHS 和 Reach 环保标准。…

oracle发送http请求

UTL_HTTP包让SQL和PLSQL能够调用超文本传输协议&#xff08;HTTP&#xff09;&#xff0c;也就是说可以使用它在Internet上访问数据。 当包用HTTPS从Web site获取数据时&#xff0c;要使用Oracle Wallet&#xff0c;它是由Oracle Wallet Manager或者orapki utility创建。非HTT…

购物网站系统

摘 要 随着互联网的快速发展&#xff0c;不同的平台软件也不断涌出市场&#xff0c;在众多的平台中&#xff0c;购物网站深受人们的欢迎&#xff0c;也成为生活中不可缺少的一部分。经过对国内外购物情况的调查&#xff0c;社区购物在近几年来成为电商发展的新趋势&#xff0c…

VB实现加法计算

textbox1失去焦点&#xff0c;检查输入的值是否为数字。 textbox2中按下Enter键&#xff0c;检查输入的值是否为数字。 textbox3获得焦点&#xff0c;计算textbox1和textbox2的和。 Public Class Form1Private Sub TextBox1_LostFocus(sender As Object, e As EventArgs) Hand…

【AI大模型】Transformers大模型库(十一):Trainer训练类

目录 一、引言 二、Trainer训练类 2.1 概述 2.2 使用示例 三、总结 一、引言 这里的Transformers指的是huggingface开发的大模型库&#xff0c;为huggingface上数以万计的预训练大模型提供预测、训练等服务。 &#x1f917; Transformers 提供了数以千计的预训练模型&am…

千呼新零售2.0【更新日志】持续更新ing

千呼新零售2.0系统是零售行业连锁店一体化收银系统&#xff0c;包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体&#xff0c;线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货等连锁店使用。 详细介绍请查看下…

Mybatis中BaseEntity作用

新建各种对象的时候&#xff0c;一般来说&#xff0c;有几个属性是所有对象共有的&#xff0c;比如说id,is_del&#xff0c;is_enable这些&#xff0c;然后设置一个基础对象&#xff0c;以后新建所有对象的时候都继承它&#xff0c;就省的每次都要写这些共有的属性了

GPT-4系列模型,在文档理解中的多维度评测

著名云数据平台Snowflake的研究人员发布了一篇论文&#xff0c;主要对OpenAI的GPT-4系列模型进行了研究&#xff0c;查看其文本生成、图像理解、文档摘要等能力。 在DocVQA、InfographicsVQA、SlideVQA和DUDE数据集上对GPT-4、GPT-4 V、GPT-4 Turbo V OCR等进行了多维度测试。…

SD3发布,送你3个ComfyUI工作流

大家好&#xff0c;我是每天分享AI应用的萤火君&#xff01; 这几天AI绘画界最轰动的消息莫过于Stable Diffusion 3&#xff08;简称SD3&#xff09;的发布。SD3是一个多模态的 Diffusion Transformer 模型&#xff0c;其在图像质量、排版、复杂提示理解和资源效率方面具有显著…

计算机考研|408第二轮复习是二刷王道还是先看强化课?

在基础复习完一轮后&#xff0c;大部分人会把前面的内容忘掉很多&#xff01;这个时候不要着急进入强化&#xff0c;在强化阶段之前先把4本书再重新整理复习一遍&#xff0c;查缺补漏。然后再看王道强化课&#xff01; 对于408这门具有大量知识需要学习的专业课&#xff0c;有…