Skip to content

Commit 0cbe81f

Browse files
committed
init
0 parents  commit 0cbe81f

1,015 files changed

Lines changed: 77675 additions & 0 deletions

File tree

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

.github/workflows/ci.yml

Lines changed: 29 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,29 @@
1+
name: ci
2+
on:
3+
push:
4+
branches:
5+
- master
6+
- main
7+
permissions:
8+
contents: write
9+
jobs:
10+
deploy:
11+
runs-on: ubuntu-latest
12+
steps:
13+
- uses: actions/checkout@v4
14+
- name: Configure Git Credentials
15+
run: |
16+
git config user.name github-actions[bot]
17+
git config user.email 41898282+github-actions[bot]@users.noreply.github.com
18+
- uses: actions/setup-python@v4
19+
with:
20+
python-version: 3.x
21+
- run: echo "cache_id=$(date --utc '+%V')" >> $GITHUB_ENV
22+
- uses: actions/cache@v3
23+
with:
24+
key: mkdocs-material-${{ env.cache_id }}
25+
path: .cache
26+
restore-keys: |
27+
mkdocs-material-
28+
- run: pip install mkdocs-material
29+
- run: mkdocs gh-deploy --force

.history/docs/01-introduction/1-1_20250716133152.md

Whitespace-only changes.
Lines changed: 7 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,7 @@
1+
## 1.1 为什么要创作这个文档
2+
3+
由于缺乏必要的技术工具以及可能有助于确保大语言模型(LLM)安全开发和部署的社会技术结构存在缺陷(Bengio等,2023),当前快速发展的态势尤其令人担忧。本文系统梳理了两类核心挑战:一是开发有助于保障安全性的技术功能,二是理解并应对确保社会层面安全性时可能面临的社会技术难题。这项工作本质上是向机器学习研究者及相关领域学者发出的行动倡议。我们通过大量引用前沿文献、聚焦具有可行性的具体研究方向,并对每个挑战进行深入探讨,使其成为该领域新人的理想教育资料。同时,我们期望文中指出的诸多挑战能为当前从事LLM对齐与安全研究的实践者(包括来自社会科学、人文、法律、政策、风险分析、哲学等多学科背景的研究者)提供创新灵感。
4+
5+
已经有若干研究对人工智能安全的基础性问题进行了系统梳理与讨论()。然而,大型语言模型(LLMs)的出现标志着范式转变,在对齐性、安全性和可靠性方面带来了诸多现有研究尚未涉及的新颖挑战。其中,Kenton等人是唯一专门针对LLMs的研究,但其讨论范围较窄,仅聚焦于目标函数意外错误设定引发的问题。本文档基于上述工作,首次对LLMs对齐与安全相关挑战作出了迄今最全面、最细致的系统性分析。
6+
7+
我们重点阐述了大型语言模型(LLMs)安全性和对齐性领域的18项基础性挑战,并对每项挑战进行了深入探讨。这些被识别出的挑战具有基础性特性-如果无法克服它们,那么确保LLMs及其衍生系统的安全性与对齐性将极为困难。在本研究中,我们讨论了符合以下标准的基础性挑战:**1、非推测性****2、研究成熟度****3、危害相关性**。此外,我们提出了200多个具体研究问题以供进一步探索。每个问题均与特定基础性挑战相关联。这些研究问题具有较强开放性,其研究体量大致相当于一篇研究生学位论文,但其中多数问题可通过多角度切入,且存在更深入研究的可能性。
Lines changed: 7 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,7 @@
1+
## 1.1 为什么要创作这个文档
2+
3+
由于缺乏必要的技术工具以及可能有助于确保大语言模型(LLM)安全开发和部署的社会技术结构存在缺陷([Bengio等,2023](https://arxiv.org/pdf/2310.17688v2)),当前快速发展的态势尤其令人担忧。本文系统梳理了两类核心挑战:一是开发有助于保障安全性的技术功能,二是理解并应对确保社会层面安全性时可能面临的社会技术难题。这项工作本质上是向机器学习研究者及相关领域学者发出的行动倡议。我们通过大量引用前沿文献、聚焦具有可行性的具体研究方向,并对每个挑战进行深入探讨,使其成为该领域新人的理想教育资料。同时,我们期望文中指出的诸多挑战能为当前从事LLM对齐与安全研究的实践者(包括来自社会科学、人文、法律、政策、风险分析、哲学等多学科背景的研究者)提供创新灵感。
4+
5+
已经有若干研究对人工智能安全的基础性问题进行了系统梳理与讨论()。然而,大型语言模型(LLMs)的出现标志着范式转变,在对齐性、安全性和可靠性方面带来了诸多现有研究尚未涉及的新颖挑战。其中,Kenton等人是唯一专门针对LLMs的研究,但其讨论范围较窄,仅聚焦于目标函数意外错误设定引发的问题。本文档基于上述工作,首次对LLMs对齐与安全相关挑战作出了迄今最全面、最细致的系统性分析。
6+
7+
我们重点阐述了大型语言模型(LLMs)安全性和对齐性领域的18项基础性挑战,并对每项挑战进行了深入探讨。这些被识别出的挑战具有基础性特性-如果无法克服它们,那么确保LLMs及其衍生系统的安全性与对齐性将极为困难。在本研究中,我们讨论了符合以下标准的基础性挑战:**1、非推测性****2、研究成熟度****3、危害相关性**。此外,我们提出了200多个具体研究问题以供进一步探索。每个问题均与特定基础性挑战相关联。这些研究问题具有较强开放性,其研究体量大致相当于一篇研究生学位论文,但其中多数问题可通过多角度切入,且存在更深入研究的可能性。
Lines changed: 7 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,7 @@
1+
## 1.1 为什么要创作这个文档
2+
3+
由于缺乏必要的技术工具以及可能有助于确保大语言模型(LLM)安全开发和部署的社会技术结构存在缺陷([Bengio等,2023](https://arxiv.org/pdf/2310.17688v2)),当前快速发展的态势尤其令人担忧。本文系统梳理了两类核心挑战:一是开发有助于保障安全性的技术功能,二是理解并应对确保社会层面安全性时可能面临的社会技术难题。这项工作本质上是向机器学习研究者及相关领域学者发出的行动倡议。我们通过大量引用前沿文献、聚焦具有可行性的具体研究方向,并对每个挑战进行深入探讨,使其成为该领域新人的理想教育资料。同时,我们期望文中指出的诸多挑战能为当前从事LLM对齐与安全研究的实践者(包括来自社会科学、人文、法律、政策、风险分析、哲学等多学科背景的研究者)提供创新灵感。
4+
5+
已经有若干研究对人工智能安全的基础性问题进行了系统梳理与讨论([Amodei等](https://arxiv.org/pdf/1606.06565)[Hendrycks等](https://arxiv.org/pdf/2109.13916)[Critch和Krueger](https://arxiv.org/pdf/2006.04948)[Kenton等](https://arxiv.org/pdf/2103.14659)[Ngo等](https://arxiv.org/pdf/2209.00626))。然而,大型语言模型(LLMs)的出现标志着范式转变,在对齐性、安全性和可靠性方面带来了诸多现有研究尚未涉及的新颖挑战。其中,Kenton等人是唯一专门针对LLMs的研究,但其讨论范围较窄,仅聚焦于目标函数意外错误设定引发的问题。本文档基于上述工作,首次对LLMs对齐与安全相关挑战作出了迄今最全面、最细致的系统性分析。
6+
7+
我们重点阐述了大型语言模型(LLMs)安全性和对齐性领域的18项基础性挑战,并对每项挑战进行了深入探讨。这些被识别出的挑战具有基础性特性-如果无法克服它们,那么确保LLMs及其衍生系统的安全性与对齐性将极为困难。在本研究中,我们讨论了符合以下标准的基础性挑战:**1、非推测性****2、研究成熟度****3、危害相关性**。此外,我们提出了200多个具体研究问题以供进一步探索。每个问题均与特定基础性挑战相关联。这些研究问题具有较强开放性,其研究体量大致相当于一篇研究生学位论文,但其中多数问题可通过多角度切入,且存在更深入研究的可能性。
Lines changed: 7 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,7 @@
1+
## 1.1 为什么要创作这个文档
2+
3+
由于缺乏必要的技术工具以及可能有助于确保大语言模型(LLM)安全开发和部署的社会技术结构存在缺陷([Bengio等,2023](https://arxiv.org/pdf/2310.17688v2)),当前快速发展的态势尤其令人担忧。本文系统梳理了两类核心挑战:一是开发有助于保障安全性的技术功能,二是理解并应对确保社会层面安全性时可能面临的社会技术难题。这项工作本质上是向机器学习研究者及相关领域学者发出的行动倡议。我们通过大量引用前沿文献、聚焦具有可行性的具体研究方向,并对每个挑战进行深入探讨,使其成为该领域新人的理想教育资料。同时,我们期望文中指出的诸多挑战能为当前从事LLM对齐与安全研究的实践者(包括来自社会科学、人文、法律、政策、风险分析、哲学等多学科背景的研究者)提供创新灵感。
4+
5+
已经有若干研究对人工智能安全的基础性问题进行了系统梳理与讨论([Amodei等](https://arxiv.org/pdf/1606.06565)[Hendrycks等](https://arxiv.org/pdf/2109.13916)[Critch和Krueger](https://arxiv.org/pdf/2006.04948)[Kenton等](https://arxiv.org/pdf/2103.14659)[Ngo等](https://arxiv.org/pdf/2209.00626))。然而,大型语言模型(LLMs)的出现标志着范式转变,在对齐性、安全性和可靠性方面带来了诸多现有研究尚未涉及的新颖挑战。其中,[Kenton等](https://arxiv.org/pdf/2103.14659)是唯一专门针对LLMs的研究,但其讨论范围较窄,仅聚焦于目标函数意外错误设定引发的问题。本文档基于上述工作,首次对LLMs对齐与安全相关挑战作出了迄今最全面、最细致的系统性分析。
6+
7+
我们重点阐述了大型语言模型(LLMs)安全性和对齐性领域的18项基础性挑战,并对每项挑战进行了深入探讨。这些被识别出的挑战具有基础性特性-如果无法克服它们,那么确保LLMs及其衍生系统的安全性与对齐性将极为困难。在本研究中,我们讨论了符合以下标准的基础性挑战:**1、非推测性****2、研究成熟度****3、危害相关性**。此外,我们提出了200多个具体研究问题以供进一步探索。每个问题均与特定基础性挑战相关联。这些研究问题具有较强开放性,其研究体量大致相当于一篇研究生学位论文,但其中多数问题可通过多角度切入,且存在更深入研究的可能性。

.history/docs/01-introduction/1-2_20250718093816.md

Whitespace-only changes.
Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,3 @@
1+
## 1.2 术语
2+
3+
术语对齐(alignment)、安全(safety)和保障(assurance)的含义因语境而异。我们使用"对齐"特制意图对齐,即当系统视图按照人类的意图运作时,即视为对齐([Christiano等](https://ai-alignment.com/clarifying-ai-alignment-cec47cd69dd6))。值得注意的是,对齐并不能保证系统实际行为符合预期;例如,系统可能因为能力局限而失效([Ngo等](https://arxiv.org/pdf/2209.00626))。为了简化讨论,我们将意图固定为LLM开发者的意图([Gabriel](https://link.springer.com/article/10.1007/s11023-020-09539-2),[Ngo等](https://arxiv.org/pdf/2209.00626)),我们认为系统安全程度与其导致非预期有害结果的可能性成反比[Leveson](https://library.oapen.org/bitstream/handle/20.500.12657/26043/1004042.pdf?sequence=1)。该定义具有一定扩展性:既涵盖系统技术特性,也涉及其实际的部署和使用方式[Weidinger等](https://arxiv.org/pdf/2310.11986),但安全性不涉及**故意作恶**,也不定义什么事危害。对齐可以提高安全性,但是两者并不等同,对齐的AI也可能被用于增强系统危险性(如果开发者有意为之)。最后,“保障”指任何能证明系统安全或对齐的证据提供方式[Ashmore等](https://arxiv.org/pdf/1905.04223),包括但不限于:科学理解AI的工作原理、通过测试评估AI行为、解释AI的决策逻辑、开发过程是否符合伦理规范[Casper等](https://arxiv.org/pdf/2401.14446)。
Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,3 @@
1+
## 1.2 术语
2+
3+
术语对齐(alignment)、安全(safety)和保障(assurance)的含义因语境而异。我们使用"对齐"特制意图对齐,即当系统视图按照人类的意图运作时,即视为对齐([Christiano等](https://ai-alignment.com/clarifying-ai-alignment-cec47cd69dd6))。值得注意的是,对齐并不能保证系统实际行为符合预期;例如,系统可能因为能力局限而失效([Ngo等](https://arxiv.org/pdf/2209.00626))。为了简化讨论,我们将意图固定为LLM开发者的意图([Gabriel](https://link.springer.com/article/10.1007/s11023-020-09539-2),[Ngo等](https://arxiv.org/pdf/2209.00626)),我们认为系统安全程度与其导致非预期有害结果的可能性成反比[Leveson](https://library.oapen.org/bitstream/handle/20.500.12657/26043/1004042.pdf?sequence=1)。该定义具有一定扩展性:既涵盖系统技术特性,也涉及其实际的部署和使用方式[Weidinger等](https://arxiv.org/pdf/2310.11986),但安全性不涉及**故意作恶**,也不定义什么事危害。对齐可以提高安全性,但是两者并不等同,对齐的AI也可能被用于增强系统危险性(如果开发者有意为之)。最后,“保障”指任何能证明系统安全或对齐的证据提供方式[Ashmore等](https://arxiv.org/pdf/1905.04223),包括但不限于:科学理解AI的工作原理、通过测试评估AI行为、解释AI的决策逻辑、开发过程是否符合伦理规范[Casper等](https://arxiv.org/pdf/2401.14446)。
Lines changed: 3 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,3 @@
1+
## 1.2 术语
2+
3+
术语对齐(alignment)、安全(safety)和保障(assurance)的含义因语境而异。我们使用"对齐"特制意图对齐,即当系统视图按照人类的意图运作时,即视为对齐([Christiano等](https://ai-alignment.com/clarifying-ai-alignment-cec47cd69dd6))。值得注意的是,对齐并不能保证系统实际行为符合预期;例如,系统可能因为能力局限而失效([Ngo等](https://arxiv.org/pdf/2209.00626))。为了简化讨论,我们将意图固定为LLM开发者的意图([Gabriel](https://link.springer.com/article/10.1007/s11023-020-09539-2),[Ngo等](https://arxiv.org/pdf/2209.00626)),我们认为系统安全程度与其导致非预期有害结果的可能性成反比([Leveson](https://library.oapen.org/bitstream/handle/20.500.12657/26043/1004042.pdf?sequence=1))。该定义具有一定扩展性:既涵盖系统技术特性,也涉及其实际的部署和使用方式([Weidinger等](https://arxiv.org/pdf/2310.11986)),但安全性不涉及**故意作恶**,也不定义什么事危害。对齐可以提高安全性,但是两者并不等同,对齐的AI也可能被用于增强系统危险性(如果开发者有意为之)。最后,“保障”指任何能证明系统安全或对齐的证据提供方式([Ashmore等](https://arxiv.org/pdf/1905.04223)),包括但不限于:科学理解AI的工作原理、通过测试评估AI行为、解释AI的决策逻辑、开发过程是否符合伦理规范([Casper等](https://arxiv.org/pdf/2401.14446))。

0 commit comments

Comments
 (0)