【大模型科普】AIGC技术发展与应用实践(一文读懂AIGC)

在这里插入图片描述

【作者主页】Francek Chen
【专栏介绍】 ⌈ ⌈ 人工智能与大模型应用 ⌋ ⌋ 人工智能(AI)通过算法模拟人类智能,利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络(如ChatGPT),经海量数据训练后能完成文本生成、图像创作等复杂任务,显著提升效率,但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合,未来需平衡技术创新与伦理风险,推动可持续发展。

文章目录

    • 一、AIGC概述
      • (一)什么是AIGC
      • (二)AIGC与大模型的关系
      • (三)常见的AIGC应用场景
      • (四)AIGC技术对行业发展的影响
      • (五)AIGC技术对职业发展的影响
      • (六)常见的AIGC大模型工具
      • (七)AIGC大模型的提示词
    • 二、文本类AIGC应用实践
      • (一)案例1:与DeepSeek进行对话
      • (二)案例2:与百度文心一言进行对话
      • (三)案例3:使用讯飞智文生成PPT
    • 三、图片类AIGC应用实践
      • (一)图片类AIGC应用场景
      • (二)图片类AIGC案例实践
    • 四、语音类AIGC应用实践
      • (一)语音类AIGC应用场景
      • (二)语音类AIGC案例实践
    • 五、视频类AIGC应用实践
      • (一)视频类AIGC应用场景
      • (二)代表性视频类AIGC大模型
      • (三)视频类AIGC案例实践
    • 六、AIGC在辅助编程中的应用
    • 七、AI搜索
    • 八、AI智能办公
    • 小结


一、AIGC概述

(一)什么是AIGC

AIGC的全称为“Artificial Intelligence Generated Content”,中文翻译为“人工智能生成内容”。这是一种新的创作方式,利用人工智能技术来生成各种形式的内容,包括文字、音乐、图像、视频等。

  • AIGC是人工智能进入全新发展时期的重要标志,其核心技术包括生成对抗网络(GAN,Generative Adversarial Networks)、大型预训练模型、多模态技术等。
  • AIGC的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导,生成与之相关的内容。例如,通过输入关键词、描述或样本,AIGC可以生成与之相匹配的文章、图像、音频等。
  • AIGC技术不仅可以提高内容生产的效率和质量,还可以为创作者提供更多的灵感和支持。在文学创作、艺术设计、游戏开发等领域,AIGC可以自动创作出高质量的文本、图像和音频等内容。同时,AIGC也可以应用于媒体、教育、娱乐、营销、科研等领域,为用户提供高质量、高效率、高个性化的内容服务。

(二)AIGC与大模型的关系

大模型与AIGC之间的关系可以说是相辅相成、相互促进的。大模型为AIGC提供了强大的技术基础和支撑,而AIGC则进一步推动了大模型的发展和应用,具体如下:

  1. 大模型为AIGC提供了丰富的数据资源和强大的计算能力
  2. AIGC的需求也推动了大模型的发展
  3. 大模型和AIGC的结合,也带来了广泛的应用前景

(三)常见的AIGC应用场景

AIGC可以应用于各行各业,主要包括但不限于生成文字、图像、音频、视频等,具体如下:

表1 常见的AIGC应用场景
应用场景描述
电商生成商品标题、描述、广告文案和广告图。
办公写周报日报,写方案,写运营活动,制作PPT,写读后感,写代码。
游戏生成场景原画,生成角色形象,生成世界观,生成数值,生成3D模型,生成NPC对话,音效生成。
娱乐头像生成,照片修复,图像生成,音乐生成。
影视生成分镜头脚本,生成剧本脚本,台词润色,生成推广宣传物料,音乐生成。
动漫原画绘制,动画生成,分镜生成,音乐生成。
艺术写诗,写小说,生成艺术创作品,草图生成,艺术风格转换,音乐创作。
教育批改试卷,试卷创建,搜题答题,课程设计,课程总结,虚拟讲师。
设计UI设计,美术设计,插画设计,建筑设计。
媒体软文撰写,大纲提炼,热点撰写。
生活制定学习计划,做旅游规划。

(四)AIGC技术对行业发展的影响

AIGC技术对行业发展的影响深远且广泛,主要体现在以下几个方面:

  • 内容创作领域的革新:AIGC技术能够自动生成高质量的文本、图像、音频和视频等内容,极大地提高了内容创作的效率。在新闻、广告、自媒体等领域,AIGC已经实现了广泛应用,帮助创作者快速生成多样化、个性化的内容,满足市场需求。这种技术革新不仅降低了内容创作的成本,还激发了创作者的创新灵感,推动了内容产业的繁荣发展。
  • 生产力提升与成本降低:AIGC技术在多个行业中展现了其提升生产力和降低成本的潜力。例如,在游戏开发领域,AIGC技术可以用于场景构建、角色互动等,减少人工制作的工作量,提高开发效率。在制造业中,AIGC技术可以辅助设计、优化生产流程,降低生产成本。这些应用使得企业能够更快地响应市场变化,提升竞争力。
  • 用户体验的升级:AIGC技术通过提供个性化、定制化的内容和服务,显著提升了用户体验。在智能客服、在线教育等领域,AIGC技术可以根据用户的需求和偏好提供精准的服务,满足用户的个性化需求。这种以用户为中心的服务模式不仅增强了用户的满意度和忠诚度,还为企业带来了更多的商业机会。
  • 推动行业创新与转型:AIGC技术的快速发展为传统行业带来了转型升级的契机。通过与AIGC技术的深度融合,传统行业可以探索新的商业模式和服务模式,实现创新发展。例如,在零售业中,AIGC技术可以用于智能推荐、虚拟试衣等场景,提升购物体验并促进销售增长。在金融领域,AIGC技术可以应用于投资策略优化、风险管理等方面,提高金融机构的决策效率和准确性。

(五)AIGC技术对职业发展的影响

AIGC技术对职业发展产生了深远的影响,主要体现在以下几个方面:

  • 新兴职业的出现:随着AIGC技术的快速发展,一系列与该技术相关的新兴职业应运而生。例如,AI训练师、机器学习工程师、数据标注员等职业需求激增。这些新兴职业不仅要求从业者具备扎实的技术基础,还需要不断学习和掌握最新的AIGC技术动态。
  • 传统职业的转型升级:AIGC技术也为传统职业的转型升级提供了契机。许多传统职业如编辑、设计师、教师等,在AIGC技术的辅助下,工作效率和创作质量得到了显著提升。同时,这些职业也需要从业者不断适应技术变革,掌握新的技能和工具,以适应市场需求的变化。
  • 工作方式的变革:AIGC技术改变了传统的工作方式,使得远程工作、灵活办公成为可能。许多企业开始采用AIGC技术来优化工作流程,减少人力成本,提高工作效率。这种变革不仅为员工提供了更加灵活的工作方式,也为企业带来了更大的经济效益。
  • 职业发展路径的多样化:AIGC技术的发展为职业发展路径提供了更多的可能性。从业者可以根据自己的兴趣和特长,选择适合自己的职业发展方向。例如,一些对AI技术感兴趣的从业者可以选择成为AI训练师或机器学习工程师,而一些具有创意和设计才能的从业者则可以利用AIGC技术来提升自己的创作能力。
  • 持续学习与技能提升:面对AIGC技术的快速发展,从业者需要不断学习和提升自己的技能水平。通过参加培训课程、阅读专业书籍、参与技术论坛等方式,从业者可以紧跟技术前沿,保持自己的竞争力。

(六)常见的AIGC大模型工具

常见的AIGC大模型工具包括:OpenAI的ChatGPT、DeepSeek、科大讯飞的讯飞星火、阿里的通义千问、百度文心一言、字节跳动豆包和Kimi等等。

这些工具基于大规模语言模型技术,具备文本生成、语言理解、知识问答、逻辑推理等多种能力,可广泛应用于写作辅助、内容创作、智能客服等多个领域。通过不断迭代和优化,为用户提供更加智能、高效的内容生成解决方案。

(七)AIGC大模型的提示词

AIGC大模型的提示词(Prompt)是指用户向大模型输入的文本内容,用于触发大模型的响应并指导其如何生成或回应。这些提示词可以是一个问题、一段描述、一个指令,甚至是一个带有详细参数的文字描述。它们为大模型提供了生成对应文本、图片、音频、视频等内容的基础信息和指导方向。

提示词的重要作用如下:引导生成、提高准确性、增强交互性。

使用提示词需要注意一些技巧,这样可以从大模型获得更加符合我们预期要求的结果,主要技巧如下:简洁明确、考虑受众、分解复杂任务、使用肯定性指令、示例驱动、明确角色、遵守规则、自然语言回答。

二、文本类AIGC应用实践

(一)案例1:与DeepSeek进行对话

1. 快速体验DeepSeek

访问DeepSeek官网(https://chat.deepseek.com/),会出现如图1所示对话界面,在提示词输入框的底部,有两个按钮,即“深度思考(R1)”和“联网搜索”,可以用鼠标点击来选中或取消,默认情况下,“深度思考(R1)”按钮是处于选中状态,“联网搜索”则处于未选中状态。两个按钮的功能如下:

  • 深度思考(R1):表示触发更复杂的多步推理能力,适合需要逻辑链分析的场景,典型使用场景包括数学题/物理题推导、文学作品的隐喻分析、编程问题的架构设计、需要分步骤解释的操作指南等。
  • 联网搜索:表示实时获取最新网络信息,适合时效性强的查询,典型使用场景包括查询实时股价/汇率、验证最新科研成果、获取突发事件进展、检索特定网页内容等。

在这里插入图片描述

图1 DeepSeek对话界面

在提示词输入框中输入“请模仿李白的《望庐山瀑布》做一首诗,题目是《望连云港花果山》”,然后回车,或者用鼠标点击提示词输入框右侧的箭头按钮,向DeepSeek发起提问。DeepSeek给出的回答如图2所示,需要注意的是,大模型属于概率模型,每次生成的回答内容可能不完全相同。

在这里插入图片描述

图2 DeepSeek生成《望连云港花果山》

2. DeepSeek的基本用法

(1)基本原则:简单直接,自然表达。
① 无需复杂结构。直接描述需求即可,无需添加“角色扮演”(如“假设你是专家”)或复杂指令(如“用学术语言分三点回答”)。比如,你可以直接向DeepSeek提问“什么是光合作用?”、“如何用Python写一个计算器程序?”,而不建议使用提示词“请以生物学教授的身份,用三个段落解释光合作用,每段不超过100字”。
② 多轮对话优化结果。如果首次回答不完整,可通过追问补充细节,无需一次性给出完美提示。比如,第一轮提问“写一首关于秋天的诗”,第二轮提问“加入一些悲伤的情绪”,第三轮提问“把‘落叶’换成比喻句”。

(2)不同场景的提问技巧(非必需,但可提升效率)。虽然简单提问即可满足大多数需求,但在复杂任务中,适当提供背景信息或明确需求会让结果更精准,具体技巧包括:
① 知识类问题。比如,基础提问是“量子力学的基本原理是什么?”,优化后的提问是“用通俗易懂的语言解释量子纠缠,适合高中生理解”。
② 创作类任务(写作、编程等)。比如,基础提问是“写一个关于人工智能的科幻短篇故事”,优化后的提问是“写一个反乌托邦主题的科幻故事,主角是女性工程师,结局有反转”。
③ 实用建议(学习、工作等)。比如,基础提问是“如何提高英语听力?”,优化后的提问是“我每天只有30分钟学习时间,有哪些高效的英语听力练习方法?”。
④ 复杂任务(数据分析、代码调试)。比如,基础提问是“这段Python代码报错了,帮我看看问题”,优化后的提问是“我的代码目标是爬取网页数据,但遇到SSL证书错误。报错信息如下:[粘贴代码]”。

作为初学者,DeepSeek的一些“魔法”指令也很有用,比如,你可以输入“/步骤 如何用手机拍摄旅游照片”,DeepSeek返回的回答结果就会按照步骤详细给出拍摄旅游照片的说明,再比如,你可以输入“请解释量子计算,然后/简化”,它就会返回比较简明扼要的回答。

表2 DeepSeek的"魔法"指令
指令功能
/续写当回答中断时⾃动继续⽣成
/简化将复杂内容转换成⼤⽩话
/⽰例要求展⽰实际案例(特别是写代码时)
/步骤让AI分步骤指导操作流程
/检查帮你发现⽂档中的错误

3. 使用DeepSeek处理文档

点击DeepSeek界面中的「回形针」图标上传⽂件,支持的文件类型包括文本类(PDF、DOCX、TXT、Markdown)、数据类(CSV、XLSX)和图像类(JPG、PNG)。然后,就可以在对话框中输入提示词,比如,可以输入“总结这份年报的三个核⼼要点”、“提取合同中的责任条款制成表格”、“对⽐⽂档A和⽂档B的市场策略差异”、“从实验报告中整理所有温度数据”、“请识别图片中的文字”等。也可以使用一些指令来处理文档,如表3所示。

表3 用于文档处理的DeepSeek指令
功能指令模板应用场景
内容摘要/总结 [文件名] 生成500字摘要快速把握长篇文档核心内容
问答提取/问答 [文件名] 第三章提到的技术参数是?精准定位特定信息
数据可视化/可视化 [文件名] 将销售数据生成折线图转化表格数据为图形分析
跨文档对比/对比 文件A vs 文件B 的政策差异合同/论文查重对比

还可以要求DeepSeek对回答结果进行结构化输出,比如,可以输入如下提示词:

/解析文件 年度报告.docx  
输出要求:  
(1)按"营收/利润/成本"分类  
(2)用Markdown表格对比近三年数据  
(3)关键增长点用✅标注

(二)案例2:与百度文心一言进行对话

1. 告诉文心一言你要的风格

访问文心一言官网(https://yiyan.baidu.com/),在输入提示词时,明确指定你希望生成的文本内容的风格。这样,文心一言在理解并处理你的请求时,会更有针对性地调整其生成内容的风格,以满足你的具体需求。比如,可以使用提示词:

请按照要求写一篇200字左右关于云计算的介绍。注意事项:文章的受众是中学生,需要通俗易懂,语言风格需要幽默、风趣一些

想要生成不同语气风格的文字,可以在问题描述中加入你想要的语气风格作为限定条件,提示文心一言按照你的要求去输出。比如,如果你需要正式语气,可以在提示词中加入“请采用正式的词汇和语法结构,使内容显得庄重、严肃和专业”;如果你需要抒情语气,请在提示词中加入“请使用富有感情和表达感情的词汇,使内容产生共鸣和情绪共振”;如果你需要口语化语气,请在提示词中加入“请运用口语化的表达方式,例如俚语、俗语和口头禅,使内容更加轻松和亲切”。

2. 告诉文心一言你要的结构

在构建提示词时,应明确指定期望的输出结构。比如,如果是要求生成一篇文章,可以在提示词中明确指出“请按照引言-正文-结论的结构来撰写”。这样,文心一言在生成内容时,会遵循这一结构框架,使得输出更加条理清晰、逻辑严密。再比如,如果要撰写给上级领导的方案、报告、总结时,可以使用提示词:

请按照【现状/问题/解决方案,数据洞察/问题概览/调研方向,数据/亮点/问题/经验】这个结构撰写一份关于我国芯片行业的总结报告

3. 告诉文心一言你要的角色

在提示词中可以设定具体的角色或视角。例如,在要求创作故事时,可以明确指定“以一位勇敢探险家的视角讲述这段经历”。这样的提示能引导文心一言在生成内容时,从特定角色的角度出发,赋予文本独特的情感色彩和叙事风格。此技巧有助于增强生成内容的代入感和故事性,使内容更加丰富和引人入胜。下面是一段提示词实例:

请你作为一个小红书文案撰写高手,为我生成一篇爆款小红书文案,要求:突出酒店的特色,包括海景房、豪华单间、最新装修、免费早餐、无线上网等

下面是另一段提示词实例:

我希望你能扮演记者的角色,按照我的要求撰写一份新闻调查,要求:调查油罐车不清洗直接运送食用油的事情,不要出现具体企业名称,要给出政府部门的处理态度

4. 告诉文心一言你的内容要求

可以通过详细具体的提示词明确表达内容要求。无论是希望生成的文章主题、关键词汇,还是期望涵盖的信息点、情感倾向,都应在提示词中清晰呈现。这样做能让文心一言更准确地理解用户需求,生成更符合期望的内容。比如,可以通过如下提示词表达自己的内容要求:

在6G专利申请方面,中国已经遥遥领先。2021年的数据显示,中国的6G专利申请量占比高达40.3%,稳坐世界第一的宝座。
请把上面的数据更新到目前最新的数据

如果对输出的内容有比较多的要求或限制,不妨在输入框中将这些内容要求一条一条明确告诉文心一言,比如,可以采用类似如下的提示词:

请以小红书的风格,按照以下要求帮我为“海景美食餐厅”写一篇小红书种草文案;
内容要求:
(1)要有标题、正文
(2)标题字数:不超过20个字;尽量简短精炼,要足够吸引眼球,用词浮夸
(3)正文分段,层次分明,每段最少100字
(4)要用“首先、其次、最后”这种模式
(5)整篇文案不要超过1000个字

5. 告诉文心一言你想写的文体

明确指定文体,如散文、小说、诗歌、科技文等,让大模型理解并模拟该文体的语言特点、结构安排和表达习惯,从而输出更具针对性的文本。比如,可以采用提示词“请写一段[中秋赏月]的朋友圈文案,需要采用藏头诗的形式”。

在这里插入图片描述

图3 文心一言生成[中秋赏月]藏头诗

6. 指导文心一言分步解决问题

将复杂问题拆解成多个简单、具体的步骤,作为提示词输入给文心一言。这样不仅能降低问题的处理难度,使文心一言更容易理解和响应,还能确保解决问题的过程更加系统、有条理。通过逐步引导,可以逐步逼近问题的解决方案,提高答案的准确性和实用性。比如,如果想让文心一言帮你制定一份旅行规划,可以使用类似如下的提示词:

请为我规划一次为期一周的连云港自由行;
(1)第1步:列出必去的景点,如江苏海洋大学、花果山、连岛景区、云台山、桃花涧风景区、海州古城;
(2)第2步:根据景点位置安排每日行程,确保交通便利;
(3)第3步:推荐几家当地的特色餐厅,包括早餐、午餐和晚餐;
(4)第4步:提供一家性价比高的酒店住宿建议,并考虑其位置是否便于游览。

7. 告诉文心一言你要的示例

明确沟通意图,通过具体示例引导大模型理解你的需求。这有助于文心一言更准确地捕捉你的思维框架和期望结果,减少误解。比如,可以使用类似如下的提示词:

我是一位高校学生,请帮我写一份实习周报,内容尽量简洁精炼,下面是我本周的实习内容:
(1)完成了3个项目书的修改
(2)撰写了一篇博客“AIGC应用与实践”
输出要求示例:
【本周实习周报】
【本周实习进展】本周做了哪些事,产生了哪些结果
【下周实习安排】基于本周的结果下周要推进哪些事
【思考总结】简要说说本周的收获和反思

8. 告诉文心一言你要的场景

在输入提示词时,应明确描述所需的上下文或环境背景,如“在科幻电影中描述一个未来城市的景象”或“请撰写一封给朋友的生日祝福信,场景设定在海边日落时”。这样做有助于文心一言更好地理解你的需求,生成更符合场景氛围和情境的内容,从而提升输出内容的贴切性和情感共鸣。

在这里插入图片描述

图4 文心一言描述未来城市

(三)案例3:使用讯飞智文生成PPT

讯飞智文是科大讯飞公司旗下的AI一键生成PPT/WORD的网站平台,是基于科大讯飞星火认知大模型技术基础上开发的一个具体应用,主要功能有文档一键生成、AI 撰写助手、多语种文档生成、AI自动配图、模板图示切换功能。这里介绍如何使用讯飞智文快速生成PPT。

请首先准备一个包含文本内容的PDF文件,比如,可以从网络新闻报道中复制一段关于2024年7月19日微软蓝屏事件的内容保存到一个WORD文档中,命名为“微软蓝屏.docx”,然后,使用WPS软件打开“微软蓝屏.docx”,把该WORD文档保存成PDF格式,生成“微软蓝屏.pdf”。

访问讯飞智文官网(https://zhiwen.xfyun.cn/),在首页(如图5所示)中点击“免费使用”,然后按照网页提示完成注册(推荐使用手机号注册)。

在这里插入图片描述

图5 讯飞智文官网

在页面中(如图6所示)选择AI PPT的“文档创建”。然后,在出现的页面中(如图7所示),点击“点击上传”,把本地文件“微软蓝屏.pdf”文件上传上去(当然,也可以上传“微软蓝屏.docx”)。

然后,在出现的页面中(如图8所示),点击“开始解析文档”。之后,页面会显示提示文字“好的,已收到您的要求,让我先为您生成PPT标题和大纲”。过一会儿,就会显示自动生成的PPT标题和大纲,如果你不满意,可以点击页面底部的“重新生成”,如果满意,可以直接点击“下一步”。

在这里插入图片描述

图6 选择AI PPT中的“文档创建”

在这里插入图片描述

图7 上传文件

在这里插入图片描述

图8 开始解析文档

在出现的页面中(如图9所示),选择你想要的模板配色,然后点击页面顶部的“开始生成”。经过一段时间以后,页面就会显示自动生成的PPT(如图10所示),点击页面右上角的“下载”,就可以把PPT保存到本地电脑中,然后,可以根据自己的需求,自己对PPT继续进行修改和完善。在本地电脑中打开自动生成的PPT,可以看出,AI制作PPT的水平非常专业,逻辑清晰,配图精美,超过了很多PPT初级者的制作水平,可以大大提高普通用户制作PPT的效率和水平。

在这里插入图片描述

图9 选择模板配色

在这里插入图片描述

图10 下载生成的PPT

三、图片类AIGC应用实践

(一)图片类AIGC应用场景

图片类AIGC是一种基于人工智能技术生成图片的方法,它利用深度学习、生成对抗网络(GAN)等先进算法,通过学习和模仿大量图像数据,能够自动创作出高度真实和艺术化的图片。AIGC在图像生成、修复、风格转换、艺术创作等领域展现出强大能力,为数字艺术、设计、游戏、电影等多个行业带来创新解决方案。其优势包括高效性、多样性和自动化,能够快速生成大量高质量的图像内容,满足各种复杂需求。

在这里插入图片描述

图11 AIGC作品图

图片类AIGC的应用场景非常广泛,‌主要包括图像生成、‌图像修复、‌图像增强和图像识别等方面:

  • 图像生成:AIGC‌能够生成高度逼真的图像,‌如人脸、‌动物、‌建筑物等。‌例如,‌OpenAI发布的DALL-E可以根据文本提示词创作出全新的、‌原创的图像,‌展示了AI在图像创作方面的强大能力。‌
  • 图像修复:AIGC还可以修复损坏的图像,‌如去除噪声、‌填充缺失的部分等。‌这项技术对于保护和恢复古老的艺术作品、‌修复损坏的照片等具有重要意义。
  • 图像增强:通过对图像进行增强处理,‌AIGC可以增加图像的饱满感和增强细节,‌使图像质量得到提升。‌这在提升照片的视觉效果、‌改善图像的清晰度和细节方面非常有用。
  • 图像识别:AIGC在图像识别方面也有广泛应用,‌可以识别图像中的对象、‌场景和特征,‌如人脸识别、‌车牌识别等。‌这项技术对于安防监控、‌智能搜索、‌自动驾驶等领域的发展至关重要。

(二)图片类AIGC案例实践

图片类AIGC大模型主要包括Midjourney、Stable Diffusion SDXL、百度文心一格等。这里以百度文心一格为例介绍图片类AIGC的使用方法。文心一格是一款由百度公司研发的AI绘画工具,‌为用户提供了丰富的创意空间。‌使用文心一格进行AI绘画的步骤包括注册账户、‌选择创作模式、输入提示词、设置画面类型、设置比例、设置数量以及生成图片等,具体如下:

  1. 注册账户:‌访问文心一格官网(https://yige.baidu.com/),‌点击“注册”按钮,‌完成注册过程。
  2. 选择创作模式:进入文心一格首页以后,‌点击“立即创作”。在出现的界面中,在界面左上角位置选择“AI创作”,可供选择的模式包括推荐、自定义、商品图、艺术字、海报,可以满足不同的创作需求。这里可以选择默认的模式“推荐”。
  3. 输入提示词:在提示词输入框中输入提示词,比如输入“请绘制一张图片,一个9岁的女孩子在海边沙滩上挖沙子”。
  4. 设置画面类型:可以选择智能推荐、唯美二次元、中国风等各种类型。
  5. 设置比例:可以选择竖图、方图、横图。
  6. 设置数量:设置想要生成的图片的数量,比如设置为1。
  7. 生成图片:点击“立即生成”,就可以生成相应的图片(如图所示)。图片生成以后,可以点击图片底部的“编辑本图片”,对图片进行编辑。

在这里插入图片描述

图12 文心一格操作界面

文心一格提供了丰富的AI编辑功能,可以对图片进行各种智能化处理,包括图片扩展、图片变高清、涂抹消除、智能抠图、涂抹编辑、图片叠加等。

在这里插入图片描述

图13 文心一格生成图片结果

四、语音类AIGC应用实践

语音类AIGC是一种利用人工智能技术(特别是语音识别、自然语言处理和语音合成技术),自动生成和处理语音内容的技术。它能够模拟人类语音,实现语音到文本的转换、文本到语音的合成,以及语音情感分析等功能,广泛应用于智能语音助手、智能客服、语音翻译等多个领域。

(一)语音类AIGC应用场景

语音类AIGC的应用场景非常丰富,涵盖了多个领域,从日常生活到专业应用,都展现出了其独特的价值和潜力,以下是一些主要的语音类AIGC应用场景:智能语音助手,智能客服,语音合成与转换,虚拟人物与数字人,语音翻译,语音分析与情感识别,智能驾驶舱与车载语音助手。

(二)语音类AIGC案例实践

豆包大模型的语音类功能用法

一般情况下,普通用户在手机上使用语音类AIGC大模型的场景比较多,因此,这里介绍手机版豆包的使用方法。

在智能手机上下载并安装“豆包APP”。启动进入豆包APP,会出现如图所示的对话界面,按住“语音按钮”(图中箭头指向的位置)不要松开,然后就可以对着手机说话,把自己的需求说出来,比如,可以说“请介绍一下苏州大学”,然后松开“语音按钮”,豆包就可以立即开始回答你提出的问题。豆包可以支持实时翻译,你可以语音输入“苏州大学的英文名称是什么”,豆包会马上给出翻译结果。

在这里插入图片描述

图14 豆包的对话界面

豆包不仅支持语音输入,也可以支持文字输入,只要在文字输入框内输入提示词,豆包就会给出回答。豆包也支持AI绘图功能,你可以用手指点击界面上的“图片生成”按钮,然后输入提示词,比如通过文字或者语音输入“请帮我绘制一张图片,一个9岁的小女孩在海边沙滩上玩沙子”,然后,豆包就会自动绘制生成满足你要求的图片。

在这里插入图片描述

图15 小女孩在海边沙滩上玩沙子

豆包还有一个很实用的功能,就是可以帮助你进行英语口语对话练习。在豆包的操作界面的底部,用手指点击“对话”,在出现的功能选择界面中,选择“英语口语聊天搭子”就可以进入英语口语聊天界面(如图16所示),按住界面右下角的“语音按钮”,就可以开始用英语语音聊天了,你说完一句英语,松开语音按钮,豆包就会自动用英语语音回答你,然后你可以继续输入语音进行后续对话。

在这里插入图片描述

图16 豆包的功能选择界面和英语口语聊天界面

五、视频类AIGC应用实践

视频类AIGC是指利用人工智能技术,特别是深度学习、机器学习等算法,自动创建或处理视频内容的技术。它能根据给定的文本、图像或其他数据,自动生成符合描述的视频内容,涵盖文生视频、图生视频、视频风格化、人物动态化等多个方向。这一技术在创意设计、影视制作等领域潜力巨大,极大地提升了视频内容的生产效率和质量。

(一)视频类AIGC应用场景

视频类AIGC在多个领域拥有广泛的应用场景,以下是一些主要的应用方向:

在这里插入图片描述

图17 视频类AIGC的应用场景

(二)代表性视频类AIGC大模型

视频类AIGC大模型发端于Sora。2024年2月,美国的Open AI发布了全球第一款文生视频大模型Sora(这里的“文生视频”是指由输入的文本内容生成相应的视频),迅速引起了业界的广泛关注和讨论,因其能够快速生成高质量的广告宣传视频及商品演示视频,从而大幅降低广告相关内容的制作成本及时间。我国的视频类AIGC大模型主要包括:

  • 可灵:由快手推出,被誉为中国版Sora,视频生成时长可达120秒,支持文生视频、图生视频、视频续写、镜头控制等功能,表现出色。
  • Vidu:生数科技联合清华大学发布,是中国首个长时长、高一致性、高动态性视频大模型,支持一键生成16秒高清视频,性能对标国际顶尖水平。
  • 书生·筑梦:由上海人工智能实验室研发,可生成分钟级视频,已用于央视AI动画片《千秋诗颂》的制作,具备中国元素和高清画质。

由于视频类AIGC大模型在使用时,会消耗大量的算力资源,使用成本很高,所以,目前国内的视频类AIGC大模型大多数没有免费开放给大众使用,即使是免费使用,也只能生成很短时间长度的视频。

(三)视频类AIGC案例实践

案例:使用腾讯智影生成数字人播报视频

步骤1:登录腾讯智影平台。在浏览器地址栏中输入网址“https://zenvideo.qq.com/”,进入“腾讯智影”平台,点击“登录”(如图18所示),可以使用微信扫码登录、也可以手机号登录或者QQ扫码登录,任选一种方式登录即可。登录成功后,点击平台首页“智能小工具”栏目中的“数字人播报”按钮(如图19所示)或者“智能小工具”上方的“数字人播报”按钮,进入“数字人播报”功能界面。

在这里插入图片描述

图18 腾讯智影登录界面

在这里插入图片描述

图19 "数字人播报"功能入口

步骤2:上传PPT。进入“数字人播报”功能界面后(如图20所示),在左侧工具栏,点击“PPT模式”,平台会出现“上传PPT或PDF”的界面,点击“上传”按钮,上传需要播报的PPT,这里上传“数字人播报PPT.ppt”文件。

在这里插入图片描述

图20 "PPT模式"上传PPT入口

步骤3:选择数字人。PPT上传结束后,点击左侧工具栏“数字人”按钮,会出现“数字人”设置界面,包括“预置形象”和“照片播报”两大板块(如图21左所示)。“预置形象”分为“2D数字人”和“3D数字人”;“照片播报”分为“照片主播”和“AI绘制主播”两种(如图21右所示)。这里选择“预置形象”里面的“2D数字人”——卓妤数字人,作为PPT播报的数字人。

在这里插入图片描述

图21 "预置形象"的数字人(左)和"照片播报"的数字人(右)

步骤4:调整数字人的位置、大小和服装类型。选用的数字人确认后,可以点击PPT上的“数字人”,进入“数字人”设置界面,点击“数字人编辑”按钮(如图22所示),对“数字人”进行编辑,可以重新换服装以及选择数字人出现的“形状”;点击“画面”按钮,可以通过坐标设置来调整数字人的位置和大小(如图23所示),也可以点击数字人的边框,通过拖动鼠标来调整数字人的位置和大小。这里可以根据PPT画面的布局来调整“数字人”的位置和大小,尽量避免数字人遮挡文字。

在这里插入图片描述

图22 "数字人编辑"功能界面确认服装和形状

在这里插入图片描述

图23 进入"画面"功能界面调整数字人的位置和大小

步骤5:输入播报内容和设置字幕样式。数字人调整完成后,点击右侧工具栏的“播报内容”按钮,输入播报内容,播报内容可以AI自动生成,也可以手动输入或导入文件(字数不超过5000字),这里选择“手动输入”每页PPT的播报内容。点击右侧工具栏的“字幕样式”按钮(如图24所示),设置视频字幕的样式并打开字幕显示按钮,通过鼠标拖动把字幕放置画面的合适位置。

在这里插入图片描述

图24 设置字幕样式并打开字幕按钮

步骤6:根据需要添加“背景”、“贴纸”、“音乐”并选择播报音色。输入完播报内容后,可以点击左侧工具栏的“背景”、“贴纸”和“音乐”等功能(如图25所示),根据需要添加,这里选择不添加背景、贴纸和音乐。确认后,点击“播报内容”输入框下方的“音色”按钮,选择合适的音色。这里选择“如云”音色作为PPT的数字人播报音色(如图26所示)。

在这里插入图片描述

图25 根据需要添加"背景"“贴纸"和"音乐”

在这里插入图片描述

图26 选择播报音色

步骤7:保存并生成播报。选择完音色后,点击“音色”下方的“保存并生成播报”按钮(如图27所示),选中每一页PPT,逐一点击保存并生成播报,注意,平台此时生成的数字人播报效果预览,暂不支持口型对齐预览,合成后可查看完整动态效果。

在这里插入图片描述

图27 保存并生成播报

步骤8:合成并下载视频。保存并生成每页的PPT的播报后,点击页面右上方的“合成视频”按钮,然后设置合成视频输出的参数(如图28所示),设置完成后点击“确认”按钮,系统后台会自动合成数字人播报视频,等待合成结束后,点击“下载”按钮(如图29所示),下载合成的数字人播报视频。最后,播放合成的视频文件,检查视频画面是否符合预期。如有需要,可以根据反馈调整参数,重新生成。

在这里插入图片描述

图28 合成视频参数设置

在这里插入图片描述

图29 下载数字人播报视频

六、AIGC在辅助编程中的应用

AIGC技术在辅助编程中的应用日益广泛,它能够自动生成高质量的代码,从而显著提高开发效率,主要包括以下几种应用场景:代码自动生成,代码优化与重构,代码补全与提示,代码风格统一。

能够提供辅助编程服务的AIGC大模型包括Codex、GitHub Copilot、CodeGeeX、aiXcoder、豆包、通义灵码等。这里以我国的字节跳动公司研发的豆包大模型为例介绍使用方法。

编程工作一般是在电脑上进行,所以这里使用电脑端的豆包大模型(手机端的豆包APP也提供了编程辅助功能)。

访问豆包大模型官网(https://www.doubao.com/),注册用户以后,进入大模型操作首页,点击“我的智能体”,再点击“编程助理”,然后,在页面中输入提示词,比如输入“请编写一段Python代码,使用turtle库,绘制一个五角星”,然后,豆包就会自动生成一段Python代码(如图所示)。在Python中运行这段代码,就可以成功绘制一个五角星。

在这里插入图片描述

图30 豆包自动生成的Python代码

七、AI搜索

AI搜索,即人工智能搜索引擎,是一种利用先进的人工智能技术,特别是深度学习和自然语言处理(NLP),来理解和响应用户的查询需求的新型搜索工具。它不仅仅是传统搜索引擎(比如百度)的简单升级,而是通过模拟人类的思维方式和行为模式,为用户提供更加精准、个性化且高效的信息检索服务。AI搜索通过收集和分析用户的历史搜索数据和行为模式,构建用户画像,从而实现更加精准的个性化搜索服务。这种数据驱动的智能决策机制,使得AI搜索能够不断自我优化,提升用户体验。

纳米AI搜索(https://so.n.cn/)是360公司在2024年12月推出的全新AI搜索应用,结合了自然语言处理、机器学习以及专家协同技术,致力于打破传统搜索引擎的局限,提供智能化、多样化的搜索体验。其核心特点包括:
(1)多模态搜索:支持文字、语音、拍照、视频等多种输入方式,满足不同场景下的需求,实现“一切皆可搜索”。
(2)智能工具集成:内置16款顶尖大模型,如豆包、文心一言等,为用户提供一站式AI智慧体验。
(3)慢思考模式:通过专家协同和多模型协作,深入分析复杂问题,提供更专业、更全面的答案。

在这里插入图片描述

图31 纳米AI搜索入口

八、AI智能办公

在人工智能时代,AI智能办公正以前所未有的态势重塑我们的工作模式与体验,成为推动办公效率提升和办公方式变革的核心力量。AI智能办公将人工智能技术深度融入办公场景的各个环节,例如文档处理、数据分析、演示制作等。

在文档处理领域,AI智能办公带来了前所未有的变革。以往需要人工手动输入文字、排版以及校对纠错等工作需要耗费大量时间和精力,如今AI文档处理技术极大地提升了这些任务的效率与质量。具体如下:
(1)生成式文本。通过对大量文本数据的学习,AI能够根据用户提供的提示词、主题或简单描述,快速生成内容完整、逻辑连贯的文档初稿。无论是新闻稿件、公告通知还是学术论文,都能借助这一功能节省撰写时间。例如,市场调研公司在需要撰写季度报告时,AI可以迅速整合数据和市场趋势信息,生成报告框架与初步内容,供使用者进一步完善。
(2)文档智能排版。AI能够自动识别文档内容的结构,如标题、段落、列表等,并根据用户预设的格式模板进行快速排版。这不仅提高了排版效率,还确保了文档格式的一致性和规范性。对于需要处理大量文档的办公人员来说,这一功能大大减轻了工作负担。

数据分析是办公场景中的重要环节。传统的数据分析需要人工进行数据收集、清洗、分析和可视化,过程烦琐且容易出错。而借助人工智能技术,这些工作可以更加高效、精准地完成。通过大模型算法,AI能够从海量数据中发现潜在的模式、趋势和关联关系。例如,电商企业可以利用AI分析用户的购买行为、浏览记录和搜索关键词,挖掘出用户的潜在需求和消费偏好,从而制定精准的营销策略。自动数据可视化功能让数据分析结果的呈现更加直观、清晰。AI能够根据数据分析结果自动生成各种类型的表格图表和图形,如柱状图、折线图、饼图等,并进行合理的布局和配色。办公人员无需花费大量时间手动制作图表,就能快速将数据转化为易于理解的可视化信息,为决策提供有力支持。

WPS提供以下AI助手功能:

  • AI写作助手(帮我写、帮我改、AI伴写)
  • AI设计助手(AI排版、AI格式)
  • AI阅读助手(全文总结、文档问答、划词解释和翻译)
  • AI数据助手(AI写公式、AI数据分析)

在这里插入图片描述

图32 WPS AI功能

小结

本文系统梳理了人工智能生成内容(AIGC)的技术框架与实践路径,构建了"理论认知-场景应用-行业影响"的三维知识体系。在理论层面,开篇明确定义了AIGC作为新型内容生产范式的技术内涵,揭示其依托大模型突破传统AI任务边界的技术特征,通过列举文本生成、图像创作等六大典型应用场景,展现技术落地的广度与深度。更从产业变革角度,深入剖析AIGC对传统行业运作模式的重构逻辑,以及由此催生的新型职业机遇与技能转型需求。

实践维度则以"模态融合"为轴线,分设文本、图像、语音、视频四大应用板块,构建从基础对话到复杂创作的阶梯式案例矩阵。通过DeepSeek对话系统、讯飞智文PPT自动生成等具体案例,演示不同技术工具在办公场景中的协同应用。特别在跨模态创作领域,系统解构了Stable Diffusion等代表性模型的运作机理,呈现从文字描述到视觉表达的转化逻辑。

最后篇章聚焦AI搜索与智能办公的前沿融合,预示下一代人机协作的新图景。全文贯穿"工具理性与人文思考"的双重视角,既提供Prompt工程等实用技巧,也辩证分析技术应用中的伦理边界。通过构建"认知-操作-反思"的完整学习路径,为不同层次的读者搭建理解AIGC技术生态的认知框架,为数字化转型中的组织与个人提供可操作的实践指南。这种结构化知识体系,既可作为AIGC应用的入门导航,也可作为深度开发的技术图谱,展现人工智能时代内容生产革命的完整图景。

欢迎 点赞👍 | 收藏⭐ | 评论✍ | 关注🤗

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32535.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构与算法:归并排序

目录 归并排序的基本思想 归并排序的特性总结 代码 归并排序的非递归版 归并排序的基本思想 归并排序是建立在归并操作上的一种有效的排序算法。改算法是采用分治法的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列…

阿里云操作系统控制台评测:国产AI+运维 一站式运维管理平台

阿里云操作系统控制台评测:国产AI运维 一站式运维管理平台 引言 随着云计算技术的飞速发展,企业在云端的运维管理面临更高的要求。阿里云操作系统控制台作为一款集运维管理、智能助手和系统诊断等多功能于一体的工具,正逐步成为企业高效管理…

爬虫案例十三js逆向模拟登录中大网校

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、网站分析二、代码 前言 提示:这里可以添加本文要记录的大概内容: js 逆向模拟登录中大网校 提示:以下是本篇文章正文内…

sql靶场--布尔盲注(第八关)保姆级教程

目录 布尔盲注(第八关) 1.判断 2.确认布尔盲注 3.手工尝试布尔盲注 表名字符 表数 表名长度 表字符 字段数 字段名长度 字段字符 4.脚本布尔盲注注入 布尔盲注(第八关) 1.判断 布尔盲注了,这种页面只会有…

【C++入门】变量和基本类型

目录 一、 基本内置类型 1.1. 整型(Integer Types) 1.2. 浮点型(Floating-point Types) 1.3. 字符型(Character Type) 1.4. 布尔型(Boolean Type) 1.5. 示例代码 二、变量声明…

JVM内存结构笔记03-方法区

文章目录 方法区1.定义2.组成方法区与永久代和元空间的关系为什么要将永久代 (PermGen) 替换为元空间 (MetaSpace) 呢? 3.方法区常用参数4.运行时常量池常量池运行时常量池定义查看class文件 方法区 1.定义 方法区属于是 JVM 运行时数据区域的一块逻辑区域,是各个…

数据库语句

环境变量path下的目录是系统目录。 #include <iostream> #include <mysql.h> #pragma comment(lib,"libmysql.lib")//链接libmysql.dll动态库的中间桥 // MYSQL* conn;//数据库句柄。后面还有网络句柄&#xff08;用来网络收发数据&#xff09; bool co…

Word 小黑第15套

对应大猫16 修改样式集 导航 -查找 第一章标题不显示 再选中文字 点击标题一 修改标题格式 格式 -段落 -换行和分页 勾选与下段同页 添加脚注 &#xff08;脚注默认位于底部 &#xff09;在脚注插入文档属性&#xff1a; -插入 -文档部件 -域 类别选择文档信息&#xff0c;域…

【从零开始学习计算机科学】编译原理(七)运行时刻环境

【从零开始学习计算机科学】编译原理(七)运行时刻环境 运行时刻环境存储组织空间的栈式分配活动树活动记录和控制栈简单栈式存贮分配C语言的过程调用和过程返回时的存贮管理堆式存储分配堆式存储分配的功能垃圾回收基于跟踪的垃圾回收短停顿垃圾回收运行时刻环境 存储组织 …

一维下料之 *贪心算法* —— CAD c#二次开发

一维下料之贪心算法&#xff0c;需求如下 已知条件 我们有一批长度为 380 米 的原材料&#xff08;例如钢管、木材等&#xff09;。 切割需求 需要从这些原材料中切割出以下长度的小段&#xff1a;42 米&#xff1a;需要 13 段 140米&#xff1a;需要 23 段 130 米&#xff1a…

刷leetcode hot100--动态规划3.12

第一题乘积max子数组[1h] emmmm感觉看不懂题解 线性dp【计划学一下acwing&#xff0c;挨个做一下】 线性动态规划 相似题解析 最长上升子序列 最大上升子序列和 最大连续子段和 乘积最大子数组_哔哩哔哩_bilibili 比较奇怪的就是有正负数和0&#xff0c;如何处理&#xff1f…

Linux安装升级docker

Linux 安装升级docker Linux 安装升级docker背景升级停止docker服务备份原docker数据目录移除旧版本docker安装docker ce恢复数据目录启动docker参考 安装找到docker官网找到docker文档删除旧版本docker配置docker yum源参考官网继续安装docker设置开机自启配置加速测试 Linux …

pycharm + anaconda + yolo11(ultralytics) 的视频流实时检测,保存推流简单实现

目录 背景pycharm安装配置代码实现创建本地视频配置 和 推流配置视频帧的处理和检测框绘制主要流程遇到的一些问题 背景 首先这个基于完整安装配置了anaconda和yolo11的环境&#xff0c;如果需要配置开始的话&#xff0c;先看下专栏里另一个文章。 这次的目的是实现拉取视频流…

LLM:了解大语言模型

大型语言模型&#xff08;Large language models&#xff0c;LLMs&#xff09;&#xff0c;如 OpenAI 的 ChatGPT &#xff0c;或者 DeepSeek 等&#xff0c;是过去几年中开发出来的深度神经网络模型。它们为自然语言处理&#xff08;natural language processing&#xff0c;N…

Linux多进程学习

一、什么是多进程 1.多任务程序能够同时做多件事情&#xff0c;如QQ同时聊天和上传下载。 2.多任务程序在应用开发中非常普遍&#xff0c;是必须掌握的基本概念。 二、进程的创建与资源分配 1.操作系统在创建进程时会分配内存资源、CPU资源和时间片。 2.进程的内容包括代码、…

「Unity3D」UGUI将元素固定在,距离屏幕边缘的某个比例,以及保持元素自身比例

在不同分辨率的屏幕下&#xff0c;UI元素按照自身像素大小&#xff0c;会发生位置与比例的变化&#xff0c;本文仅利用锚点&#xff08;Anchors&#xff09;使用&#xff0c;来实现UI元素&#xff0c;固定在某个比例距离的屏幕边缘。 首先&#xff0c;将元素的锚点设置为中心&…

STM32 内置的通讯协议

数据是以帧为单位发的 USART和UART的区别就是有没有同步功能 同步是两端设备有时钟连接&#xff0c;异步是没时钟连接&#xff0c;靠约定号的频率&#xff08;波特率&#xff09;接收发送数据 RTS和CTS是用来给外界发送已“可接收”或“可发送”信号的&#xff0c;一般用不到…

C语言实现队列数据结构:思路与代码详解

目录 一、引言 二、整体思路 三、代码模块分析 &#xff08;一&#xff09;头文件包含与宏定义 &#xff08;二&#xff09;数据类型定义 &#xff08;三&#xff09;队列操作函数 1. 队列初始化 2. 队列销毁 3. 入队操作 4. 出队操作 5. 获取队头元素 6…

商业智能BI的未来,如何看待AI+BI这种模式?

昨天在和一位朋友线上聊天的时候&#xff0c;提了一个问题&#xff0c;你是如何看待AI&#xff08;人工智能&#xff09;BI&#xff08;商业智能&#xff09;这种模式和方向的&#xff0c;我大概来说一下我个人的看法。 以我在商业智能BI项目中接触到的行业和企业&#xff0c;…

如何制作Windows系统盘、启动盘?(MediaCreationTool_22H2)

文章目录 每日一句正能量前言一、准备工作二、制作启动盘后记 每日一句正能量 每个在你生命里出现的人&#xff0c;都有原因。喜欢你的人给你温暖关心。你喜欢的人让你学会爱和付出&#xff0c;不喜欢你的人让你自省成长。你不喜欢的人教会你宽容尊重&#xff0c;没有人是偶然出…