一、人工智能的历史与突破

  • 2017年:深度伪造(Deep Fake)技术流行,合成图像达到较高分辨率,但尚未商业化。
  • 2021年:DALL-E面世,首次实现“从文本生成图像”,训练数据为图像描述,规模尚小。
  • 2022年:ChatGPT发布,两个月后月活跃用户过亿,成为史上增长最快的消费级软件。
  • 2024年:SORA发布,能从文本生成高质量视频,极大影响创意产业。

二、AI模型如何工作

1、图像存储为张量(Tensor)

  • 一张彩色图片为三维张量(宽$\times$高$\times$颜色通道),每个像素有RGB三个整数值。
  • 形式化表示:对于一张$H\times W$的图片,张量$T$为

    $$ T \in \mathbb{R}^{H \times W \times 3} $$

2、语言向量化

  • 语言必须转为向量,常用分词器将句子拆分为“Token”:

    $$ \text{"The cat stretched."} \to \{\text{"The"}, \text{"cat"}, \text{"stre"}, \text{"tch"}, \text{"ed"}, \text{"."}\} $$

  • 每个Token赋值一个向量(如Word2Vec、GPT的Embedding),如“King”-“He”+“She”≈“Queen”,捕捉词之间的语义关系。
  • 整句对应一个矩阵,每行一个词向量,顺序非常重要。

三、机器学习的典型成功案例

1、图像分类与ImageNet

  • ImageNet大规模视觉识别挑战(ILSVRC),包含超过120种狗的品种,数据集数量级达到百万。
  • 2012年,Krizhevsky等人提出7层卷积神经网络(CNN),首次实现“超越人类”的图像分类准确率。

2、游戏领域

  • AlphaGo用深度学习+强化学习战胜围棋世界冠军。
  • OpenAI Five在DOTA2中自我训练4.5万年,达到顶级水平,消耗800 petaflop/s-day算力。

3、艺术与音视频生成

  • 风格迁移(Style Transfer):照片自动转换为油画风格。
  • 视频合成音频:深度学习可自动为无声视频生成逼真的配音。
  • DALL-E、DeepFakes:实现从文本或图像生成逼真图片、视频。

4、科学应用

  • DeepLens:天文观测中自动筛选罕见事件,数据量人力难以处理。
  • AlphaFold2:蛋白质结构预测,2024年诺贝尔化学奖提名。
  • DGMR:用生成模型预测高分辨率降雨。

5、数学与医药

  • AI辅助发现数学猜想和定理,如Birch–Swinnerton-Dyer猜想的模式发现。
  • 新抗生素发现:AI筛选亿级化合物,发现新型抗药性抗生素。

6、语言模型

  • ChatGPT等大型语言模型(LLMs),能自动生成极为自然的文本,成为法律、医疗等领域的辅助工具。

四、AI对社会的影响

  • 个人助理:AI可整合所有信息,辅助生活和工作(如GitHub Copilot、ChatGPT-4o)。
  • 专业替代:AI在医学影像、动画、法律等领域超越专家,促使职业结构调整。
  • 实验替代:真实实验被AI模拟替代,如蛋白质折叠、药物发现。

五、领域挑战与思考

1、法律、社会与能源

  • 法律责任:AI助理掌握大量个人信息,是否可在法庭作证?
  • 社会失业:AI提升效率,部分技能变得不再稀缺,如何应对职业转型?
  • 能源消耗:大型AI模型计算资源集中,能耗巨大,如何可持续发展?

2、经典领域的颠覆

  • 图像去噪:传统方法历经几十年发展(如各类偏微分方程方法),深度学习一举超越所有经典算法。
  • 公式推导示例(图像去噪的PDE方法与深度学习对比):

(1)传统去噪能量泛函

$$ E(u) = \int_\Omega \left( |u(x) - f(x)|^2 + \lambda |\nabla u(x)| \right) \mathrm{d}x $$

其中$u(x)$为去噪后的图像,$f(x)$为原始图像,$\lambda$为权重。

(2)深度学习方法(示意)

$$ u_{\text{clean}} = \text{CNN}(u_{\text{noisy}}) $$

其中$\text{CNN}$为训练好的卷积神经网络。

打赏
评论区
头像
文章目录