一、人工智能的历史与突破
- 2017年:深度伪造(Deep Fake)技术流行,合成图像达到较高分辨率,但尚未商业化。
- 2021年:DALL-E面世,首次实现“从文本生成图像”,训练数据为图像描述,规模尚小。
- 2022年:ChatGPT发布,两个月后月活跃用户过亿,成为史上增长最快的消费级软件。
- 2024年:SORA发布,能从文本生成高质量视频,极大影响创意产业。
二、AI模型如何工作
1、图像存储为张量(Tensor)
- 一张彩色图片为三维张量(宽
高 颜色通道),每个像素有RGB三个整数值。 - 形式化表示:对于一张
的图片,张量 为
2、语言向量化
- 语言必须转为向量,常用分词器将句子拆分为“Token”:
- 每个Token赋值一个向量(如Word2Vec、GPT的Embedding),如“King”-“He”+“She”≈“Queen”,捕捉词之间的语义关系。
- 整句对应一个矩阵,每行一个词向量,顺序非常重要。
三、机器学习的典型成功案例
1、图像分类与ImageNet
- ImageNet大规模视觉识别挑战(ILSVRC),包含超过120种狗的品种,数据集数量级达到百万。
- 2012年,Krizhevsky等人提出7层卷积神经网络(CNN),首次实现“超越人类”的图像分类准确率。
2、游戏领域
- AlphaGo用深度学习+强化学习战胜围棋世界冠军。
- OpenAI Five在DOTA2中自我训练4.5万年,达到顶级水平,消耗800 petaflop/s-day算力。
3、艺术与音视频生成
- 风格迁移(Style Transfer):照片自动转换为油画风格。
- 视频合成音频:深度学习可自动为无声视频生成逼真的配音。
- DALL-E、DeepFakes:实现从文本或图像生成逼真图片、视频。
4、科学应用
- DeepLens:天文观测中自动筛选罕见事件,数据量人力难以处理。
- AlphaFold2:蛋白质结构预测,2024年诺贝尔化学奖提名。
- DGMR:用生成模型预测高分辨率降雨。
5、数学与医药
- AI辅助发现数学猜想和定理,如Birch–Swinnerton-Dyer猜想的模式发现。
- 新抗生素发现:AI筛选亿级化合物,发现新型抗药性抗生素。
6、语言模型
- ChatGPT等大型语言模型(LLMs),能自动生成极为自然的文本,成为法律、医疗等领域的辅助工具。
四、AI对社会的影响
- 个人助理:AI可整合所有信息,辅助生活和工作(如GitHub Copilot、ChatGPT-4o)。
- 专业替代:AI在医学影像、动画、法律等领域超越专家,促使职业结构调整。
- 实验替代:真实实验被AI模拟替代,如蛋白质折叠、药物发现。
五、领域挑战与思考
1、法律、社会与能源
- 法律责任:AI助理掌握大量个人信息,是否可在法庭作证?
- 社会失业:AI提升效率,部分技能变得不再稀缺,如何应对职业转型?
- 能源消耗:大型AI模型计算资源集中,能耗巨大,如何可持续发展?
2、经典领域的颠覆
- 图像去噪:传统方法历经几十年发展(如各类偏微分方程方法),深度学习一举超越所有经典算法。
- 公式推导示例(图像去噪的PDE方法与深度学习对比):
(1)传统去噪能量泛函
其中
(2)深度学习方法(示意)
其中