x

LESSWRONG
LW

Alignment Hot Take Advent Calendar — LessWrong

Alignment Hot Take Advent Calendar

Dec 01, 2022 by Charlie Steiner

38Take 1: We're not going to reverse-engineer the AI.

Charlie Steiner

3y

4

17Take 2: Building tools to help build FAI is a legitimate strategy, but it's dual-use.

Charlie Steiner

3y

1

31Take 3: No indescribable heavenworlds.

Charlie Steiner

3y

12

37Take 4: One problem with natural abstractions is there's too many of them.

Charlie Steiner

3y

4

31Take 5: Another problem for natural abstractions is laziness.

Charlie Steiner

3y

4

12Take 6: CAIS is actually Orwellian.

Charlie Steiner

3y

8

50Take 7: You should talk about "the human's utility function" less.

Charlie Steiner

3y

22

31Take 8: Queer the inner/outer alignment dichotomy.

Charlie Steiner

3y

2

33Take 9: No, RLHF/IDA/debate doesn't solve outer alignment.

Charlie Steiner

3y

13

37Take 10: Fine-tuning with RLHF is aesthetically unsatisfying.

Charlie Steiner

3y

3

34Take 11: "Aligning language models" should be weirder.

Charlie Steiner

3y

0

25Take 12: RLHF's use is evidence that orgs will jam RL at real-world problems.

Charlie Steiner

3y

1

54Take 13: RLHF bad, conditioning good.

Charlie Steiner

3y

4

15Take 14: Corrigibility isn't that great.

Charlie Steiner

3y

3