2×3 混合设计反馈故事线

Strict two-pass LMM report

先讲清实验口径,再把小作文和大作文拆成两篇论文主线

这版把 No-feedback 放回它应有的位置:它是解释 Teacher/AI 是否超过自然变化的 baseline,不是论文主角。主报告先按每个体裁内部的 2×3 混合设计判断,再展开 pairwise。

第一部分:从零开始统一统计口径

当前规则:每个体裁、每个指标先跑二次 LMM。只有 Time × Group 显著,才拆三组 pairwise;pairwise 没有经过这个门槛,不进入正式故事线。
1

先有两个时间点

同一个学生有前测和后测,所以我们关心的不是一次分数,而是“从前测到后测变了多少”。

2

再有三个组

No-feedback、Teacher、AI 是三组不同学生。它们不是同一批人轮流接受三种处理,而是组间对照。

3

所以是 2×3

2 是 Time:前测/后测;3 是 Group:无反馈/教师/AI。这叫 2×3 混合设计。

4

模型看变化差异

Score ~ Time * Group + (1 | ID) 检验三组“前后变化幅度”是不是不同。

5

再拆 pairwise

交互显著后才比较 Teacher vs AI、Teacher vs No-feedback、AI vs No-feedback。

No-feedbackTeacherAI
Pre无反馈组前测教师反馈组前测AI 反馈组前测
Post无反馈组后测教师反馈组后测AI 反馈组后测
解释自然变化 baseline教师反馈后的变化AI 反馈后的变化
No-feedback 为什么能用?

因为这是组间控制设计。无反馈组不需要和 Teacher/AI 是同一批人;它估计“没有外部反馈时,类似学生自然会出现的前后测变化”。

二次建模是什么?

先用完整数据跑模型,按 |standardized residual| > 2.5 标记离群观测,再剔除这些观测重跑同一个模型。主报告只用 trimmed model。

第二部分:现在的结论很清楚

大小作文现在按两个独立研究方向处理:小作文写反馈摄取机制,大作文写读后续写中的反馈路径。总览只报告每个作文内部的 Time × Group 和通过门槛后的 Teacher vs AI 结果,不再把两个作文合写成一套结论。

小作文交互显著18

18 个指标先通过 Time × Group,说明三组前后变化不一样。

小作文 Teacher vs AI 显著指标3

在交互显著指标里,直接 Teacher vs AI pairwise 显著:DRNEG、SMCAUSv、SMCAUSvp。

大作文交互显著10

10 个指标先通过 Time × Group,证据集中在衔接、词汇和可读性资源。

大作文 Teacher vs AI 显著指标5

在交互显著指标里,直接 Teacher vs AI pairwise 显著:CNCAdd、CRFCWO1、PCCONNz、PCVERBp、WRDFRQa。

第三部分:文献综述和研究缺口

这部分放在小作文指标之前,用来先交代为什么本研究不是简单比较“教师反馈好还是 AI 反馈好”,而是看学生在不同反馈来源下实际摄取了哪些写作资源。

从反馈效果转向反馈摄取

反馈研究早已指出,反馈的价值不在于给出意见本身,而在于学习者是否理解、选择并纳入修订。L2 写作里,教师反馈和自动反馈会触发不同的 engagement;自动反馈虽然即时、可重复,但学习者可能只做表层接受,未必形成足够的认知投入。

从传统 AWE 走向生成式 AI 反馈

近几年研究把问题推进到 ChatGPT/GenAI:AI 可以提供更个性化、更快的反馈,但它和教师反馈在深度、具体性、可信度、学生采纳方式上仍可能不同。因此本文的结果部分应服务于“反馈来源如何改变写作资源摄取路径”。

本研究可以接上的缺口:现有 AI 写作反馈研究常看总体写作质量、学生态度或反馈质量,本页结果可以进一步回答:教师反馈和 AI 反馈是否让学生在因果组织、指称衔接、词汇选择、可读性等具体文本资源上产生不同的前后测变化。

第四部分:小作文论文主线

小作文作为单独论文处理。它的显著指标更多,适合写成“反馈来源如何引导学生摄取不同层级写作资源”的机制论文。理论锚点可以放在反馈 engagement、noticing、写作多层过程、Coh-Metrix 多层文本指标上。

主线 1:小作文更像“反馈摄取机制”论文

严格口径下,小作文有 18 个指标通过 Time × Group;其中 Teacher vs AI 直接显著的是 SMCAUSvp、SMCAUSv、DRNEG。它说明反馈来源确实会改变学生摄取写作资源的路径,但不能写成谁全面优于谁。

SMCAUSvp SMCAUSv DRNEG

主线 2:因果/事件组织是最容易讲清的核心

这些指标共同看“事件之间有没有推进关系”。小作文里它们集中显著,适合写成教师面批与 AI 反馈在事件因果组织上引导不同修订路径。

SMCAUSvp SMCAUSv SMCAUSwn CNCCaus

主线 3:No-feedback 只帮助解释自然变化

很多小作文指标是 Teacher/AI 相对 No-feedback 出现差异。这里的重点不是把无反馈写成主角,而是说明自然重写也会改变文本,反馈效果必须超过或偏离这条自然变化线才有解释力。

LSAGNd PCREFp WRDFRQa WRDPOLc

小作文 RQ1

教师反馈与 AI 反馈是否会引导学生在事件因果组织上出现不同前后测变化?

小作文 RQ2

反馈组相对于无反馈 baseline,在哪些语义、指称、词汇和句法资源上偏离自然变化?

小作文 RQ3

这些差异是否说明小作文反馈摄取是多层级的,而不是单一“连接词更多/词更多”的问题?

展开小作文二次建模数据表:指标、例子、交互、pairwise、故事用途
指标 指标反映什么 帮助理解的例子 先看交互 可写进故事线的 pairwise 故事线用途 全部 pairwise 备查
DRNEGVerb / phrase density否定表达密度,反映 not, never, no, without 等否定或立场资源的使用。I did not give up. / Without his help, I could not finish it.Time × Group p=<.001剔除离群观测:0No-feedback vs AI:AI 变化更大,估计=-9.447,p=<.001;Teacher vs AI:AI 变化更大,估计=-4.910,p=.021;No-feedback vs Teacher:Teacher 变化更大,估计=-4.537,p=.032服务小作文局部资源线:否定、立场或短语结构资源。用来补充反馈摄取不是只发生在连接词层面。
No-feedback vs AIAI 变化更大-9.447p=<.001
Teacher vs AIAI 变化更大-4.910p=.021
No-feedback vs TeacherTeacher 变化更大-4.537p=.032
WRDPOLcWord information内容词多义性,反映内容词平均有多少种常见意义;它看的是词义资源,不等于词汇难度。bank, line, change 这类词义较多;desk, bicycle 这类词义相对少。Time × Group p=<.001剔除离群观测:1No-feedback vs Teacher:No-feedback 变化更大,估计=+0.505,p=<.001;No-feedback vs AI:No-feedback 变化更大,估计=+0.386,p=.005服务小作文词汇选择线:词频、多义性、习得年龄或副词资源。只解释资源选择,不直接判断好坏。
No-feedback vs TeacherNo-feedback 变化更大+0.505p=<.001
No-feedback vs AINo-feedback 变化更大+0.386p=.005
Teacher vs AIAI 变化更大-0.119p=.375
LSAGNdSemantic overlap (LSA)LSA 语义给定/新信息的波动程度,反映句子之间概念推进是否稳定,d 表示离散度。每句都围绕同一活动推进,波动小;一会儿写活动、一会儿突然写天气,波动大。Time × Group p=<.001剔除离群观测:2No-feedback vs Teacher:No-feedback 变化更大,估计=+0.040,p=.001;No-feedback vs AI:No-feedback 变化更大,估计=+0.032,p=.009服务小作文语义/指称线:句间语义推进和指称追踪。主要用 No-feedback baseline 解释自然变化与反馈偏离。
No-feedback vs TeacherNo-feedback 变化更大+0.040p=.001
No-feedback vs AINo-feedback 变化更大+0.032p=.009
Teacher vs AIAI 变化更大-0.008p=.497
SMCAUSvpSituation model情境模型因果动词短语指标,反映事件链条是否通过动词短语形成深层因果推进。He failed the exam, felt disappointed, and decided to practice harder.Time × Group p=.006剔除离群观测:0No-feedback vs Teacher:No-feedback 变化更大,估计=+19.410,p=.005;Teacher vs AI:AI 变化更大,估计=-18.962,p=.007服务小作文核心线:事件因果组织。重点说明反馈来源改变学生组织事件推进的路径。
No-feedback vs TeacherNo-feedback 变化更大+19.410p=.005
Teacher vs AIAI 变化更大-18.962p=.007
No-feedback vs AINo-feedback 变化更大+0.448p=.948
DESSLdDescriptive / length句长离散度,反映句子长短是否变化明显;它看节奏变化,不直接等于好坏。短句和长句交替,离散度较高;每句都差不多长,离散度较低。Time × Group p=.016剔除离群观测:2No-feedback vs Teacher:Teacher 变化更大,估计=-1.690,p=.041服务小作文长度/节奏线:文本长度或句长变化。只做辅助,不作为质量核心证据。
No-feedback vs TeacherTeacher 变化更大-1.690p=.041
Teacher vs AITeacher 变化更大+1.501p=.069
No-feedback vs AIAI 变化更大-0.189p=.818
WRDFRQaWord information平均词频,反映文本更偏常见词还是低频词;数值越高,通常表示词更常见、更容易获得。常见词:help, good, important;低频词:beneficial, significant, indispensable。Time × Group p=.016剔除离群观测:0No-feedback vs Teacher:No-feedback 变化更大,估计=+0.096,p=.009;No-feedback vs AI:No-feedback 变化更大,估计=+0.081,p=.026服务小作文词汇选择线:词频、多义性、习得年龄或副词资源。只解释资源选择,不直接判断好坏。
No-feedback vs TeacherNo-feedback 变化更大+0.096p=.009
No-feedback vs AINo-feedback 变化更大+0.081p=.026
Teacher vs AIAI 变化更大-0.015p=.678
SMCAUSvSituation model情境模型因果动词指标,反映动词层面的事件因果关系。failed, caused, realized, decided, changed 这类动词会让事件形成推动关系。Time × Group p=.017剔除离群观测:0Teacher vs AI:AI 变化更大,估计=-13.563,p=.011;No-feedback vs Teacher:No-feedback 变化更大,估计=+12.230,p=.022服务小作文核心线:事件因果组织。重点说明反馈来源改变学生组织事件推进的路径。
Teacher vs AIAI 变化更大-13.563p=.011
No-feedback vs TeacherNo-feedback 变化更大+12.230p=.022
No-feedback vs AIAI 变化更大-1.333p=.799
SYNNPSyntactic complexity / density名词短语密度,反映文本中名词短语结构的使用强度。the important school activity / a helpful learning experience 都是名词短语资源。Time × Group p=.018剔除离群观测:0No-feedback vs AI:AI 变化更大,估计=-0.108,p=.011;No-feedback vs Teacher:Teacher 变化更大,估计=-0.095,p=.025服务小作文局部资源线:否定、立场或短语结构资源。用来补充反馈摄取不是只发生在连接词层面。
No-feedback vs AIAI 变化更大-0.108p=.011
No-feedback vs TeacherTeacher 变化更大-0.095p=.025
Teacher vs AIAI 变化更大-0.013p=.750
PCREFpText easability component文本易读性中的指称衔接百分位,反映人物、对象、关键词是否容易被读者追踪。Tom lost his wallet. He searched the classroom. He 清楚接回 Tom。Time × Group p=.019剔除离群观测:0No-feedback vs AI:No-feedback 变化更大,估计=+14.944,p=.006服务小作文语义/指称线:句间语义推进和指称追踪。主要用 No-feedback baseline 解释自然变化与反馈偏离。
No-feedback vs AINo-feedback 变化更大+14.944p=.006
No-feedback vs TeacherNo-feedback 变化更大+9.225p=.087
Teacher vs AITeacher 变化更大+5.719p=.286
SMCAUSwnSituation model基于词汇语义网络的情境模型因果指标,反映词义层面是否支持事件因果关系。because of the delay, missed the train, felt worried 这些词义可形成因果链。Time × Group p=.021剔除离群观测:0No-feedback vs Teacher:No-feedback 变化更大,估计=+0.073,p=.006服务小作文核心线:事件因果组织。重点说明反馈来源改变学生组织事件推进的路径。
No-feedback vs TeacherNo-feedback 变化更大+0.073p=.006
No-feedback vs AINo-feedback 变化更大+0.038p=.150
Teacher vs AIAI 变化更大-0.035p=.183
WRDFRQcWord information内容词词频,反映名词、动词、形容词、副词等实义词更常见还是更少见。good, make, thing 是高频内容词;constructive, facilitate 是较低频内容词。Time × Group p=.023剔除离群观测:0No-feedback vs Teacher:No-feedback 变化更大,估计=+0.122,p=.007服务小作文词汇选择线:词频、多义性、习得年龄或副词资源。只解释资源选择,不直接判断好坏。
No-feedback vs TeacherNo-feedback 变化更大+0.122p=.007
No-feedback vs AINo-feedback 变化更大+0.066p=.143
Teacher vs AIAI 变化更大-0.056p=.208
CNCCausConnectives因果连接词密度,反映 because, so, therefore, as a result 等显性因果词使用频率。He was late because he missed the bus. / She practiced every day, so she improved.Time × Group p=.025剔除离群观测:2No-feedback vs Teacher:No-feedback 变化更大,估计=+14.606,p=.017服务小作文核心线:事件因果组织。重点说明反馈来源改变学生组织事件推进的路径。
No-feedback vs TeacherNo-feedback 变化更大+14.606p=.017
Teacher vs AIAI 变化更大-9.993p=.101
No-feedback vs AINo-feedback 变化更大+4.613p=.447
DRNPVerb / phrase density名词短语相关密度,反映局部短语资源是否更多地围绕名词结构展开。a meaningful volunteer experience / the school English club。Time × Group p=.028剔除离群观测:1No-feedback vs AI:No-feedback 变化更大,估计=+31.049,p=.011服务小作文局部资源线:否定、立场或短语结构资源。用来补充反馈摄取不是只发生在连接词层面。
No-feedback vs AINo-feedback 变化更大+31.049p=.011
No-feedback vs TeacherNo-feedback 变化更大+20.519p=.089
Teacher vs AITeacher 变化更大+10.530p=.380
DESWCDescriptive / length总词数,反映文本长度;它只说明写得更多或更少,不直接说明质量更好。80 词应用文和 130 词应用文在信息量上可能不同,但质量还要看组织和准确性。Time × Group p=.030剔除离群观测:1No-feedback vs AI:AI 变化更大,估计=-11.022,p=.022服务小作文长度/节奏线:文本长度或句长变化。只做辅助,不作为质量核心证据。
No-feedback vs AIAI 变化更大-11.022p=.022
No-feedback vs TeacherTeacher 变化更大-8.160p=.087
Teacher vs AIAI 变化更大-2.862p=.546
WRDAOAcWord information内容词习得年龄,反映内容词通常更早学会还是更晚学会;数值高往往表示词汇更成熟或更少见。dog, school 属于较早习得;responsibility, perspective 通常更晚习得。Time × Group p=.030剔除离群观测:2No-feedback vs AI:AI 变化更大,估计=-24.168,p=.028服务小作文词汇选择线:词频、多义性、习得年龄或副词资源。只解释资源选择,不直接判断好坏。
No-feedback vs AIAI 变化更大-24.168p=.028
No-feedback vs TeacherTeacher 变化更大-16.861p=.123
Teacher vs AIAI 变化更大-7.307p=.502
LSASS1dSemantic overlap (LSA)相邻句 LSA 语义重叠的波动程度,反映句间语义连接是否稳定。句句围绕 invitation details 展开,波动小;突然转到无关经历,波动大。Time × Group p=.030剔除离群观测:1No-feedback vs AI:No-feedback 变化更大,估计=+0.044,p=.026服务小作文语义/指称线:句间语义推进和指称追踪。主要用 No-feedback baseline 解释自然变化与反馈偏离。
No-feedback vs AINo-feedback 变化更大+0.044p=.026
No-feedback vs TeacherNo-feedback 变化更大+0.035p=.081
Teacher vs AITeacher 变化更大+0.010p=.626
WRDADVWord information副词密度,反映 quickly, really, carefully, especially 等副词资源使用频率。She carefully explained the rule. / I really appreciated your help.Time × Group p=.031剔除离群观测:1No-feedback vs AI:AI 变化更大,估计=-17.839,p=.010服务小作文词汇选择线:词频、多义性、习得年龄或副词资源。只解释资源选择,不直接判断好坏。
No-feedback vs AIAI 变化更大-17.839p=.010
No-feedback vs TeacherTeacher 变化更大-9.179p=.180
Teacher vs AIAI 变化更大-8.660p=.206
PCREFzText easability component文本易读性中的指称衔接 z 分数,和 PCREFp 看同一类指称追踪资源,只是量尺不同。同一个人物或物品被连续清楚地提到,读者更容易跟上。Time × Group p=.047剔除离群观测:0No-feedback vs AI:No-feedback 变化更大,估计=+0.532,p=.016服务小作文语义/指称线:句间语义推进和指称追踪。主要用 No-feedback baseline 解释自然变化与反馈偏离。
No-feedback vs AINo-feedback 变化更大+0.532p=.016
No-feedback vs TeacherNo-feedback 变化更大+0.313p=.152
Teacher vs AITeacher 变化更大+0.219p=.316

第五部分:大作文论文主线

大作文作为另一篇单独论文处理。它不再被写成小作文的对照,而是写读后续写里的反馈摄取路径:反馈差异集中在相邻句衔接、添加连接词、词频、词汇多样性、可读性和动词相关组织。

主线 1:大作文单独写成“读后续写反馈路径”论文

大作文有 10 个指标通过 Time × Group,其中 Teacher vs AI 直接显著的指标更多落在词频、相邻句衔接、添加连接词、动词相关易读性上。它不需要和小作文合成一条共同故事,而是单独说明读后续写中的反馈摄取路径。

WRDFRQa CRFCWO1 CNCAdd PCVERBp

主线 2:读后续写更看局部衔接和故事推进

这些指标更接近读后续写的任务要求:句子要接住前文、人物和事件要连续、连接关系要清楚。因此它适合单独写,不应硬塞进小作文同一条故事。

CRFCWO1 CRFCWO1d CNCAdd PCCONNz

主线 3:可读性/词汇指标是资源选择证据,不是质量判决

阅读难度、词汇多样性和词频能说明反馈改变了语言资源选择,但不能直接等同于“作文更好”。这部分适合作为读后续写结果的语言资源解释。

RDFKGL RDL2 LDMTLD WRDFRQmc

大作文 RQ1

在读后续写中,教师反馈与 AI 反馈是否主要改变局部衔接和故事推进资源?

大作文 RQ2

词频、词汇多样性和可读性变化是否说明教师反馈与 AI 反馈引导了不同语言资源选择?

大作文 RQ3

No-feedback baseline 能否说明哪些变化只是自然重写,哪些变化才更像反馈引导?

展开大作文二次建模数据表:指标、例子、交互、pairwise、故事用途
指标 指标反映什么 帮助理解的例子 先看交互 可写进故事线的 pairwise 故事线用途 全部 pairwise 备查
WRDFRQaWord information平均词频,反映文本更偏常见词还是低频词;数值越高,通常表示词更常见、更容易获得。常见词:help, good, important;低频词:beneficial, significant, indispensable。Time × Group p=.004剔除离群观测:5Teacher vs AI:Teacher 变化更大,估计=+0.111,p=.013;No-feedback vs AI:No-feedback 变化更大,估计=+0.097,p=.030服务大作文词汇资源线:反馈改变词汇可及性或多样性,用来解释读后续写中的语言资源选择。
Teacher vs AITeacher 变化更大+0.111p=.013
No-feedback vs AINo-feedback 变化更大+0.097p=.030
No-feedback vs TeacherTeacher 变化更大-0.014p=.753
RDFKGLReadabilityFlesch-Kincaid 年级水平,反映文本按句长、词长估计的阅读年级难度。长句和长词更多时,年级水平通常更高。Time × Group p=.010剔除离群观测:2No-feedback vs AI:AI 变化更大,估计=-1.527,p=.014;No-feedback vs Teacher:Teacher 变化更大,估计=-1.378,p=.025服务大作文可读性/动词组织线:解释读后续写中事件推进和阅读难度的变化。
No-feedback vs AIAI 变化更大-1.527p=.014
No-feedback vs TeacherTeacher 变化更大-1.378p=.025
Teacher vs AIAI 变化更大-0.149p=.807
RDL2ReadabilityL2 可读性指标,面向二语文本估计阅读难度;数值变化不直接等于作文质量变化。词汇、句长、句法组合起来会影响二语读者读起来是否费力。Time × Group p=.011剔除离群观测:3No-feedback vs AI:No-feedback 变化更大,估计=+6.731,p=.009服务大作文可读性/动词组织线:解释读后续写中事件推进和阅读难度的变化。
No-feedback vs AINo-feedback 变化更大+6.731p=.009
Teacher vs AITeacher 变化更大+4.941p=.051
No-feedback vs TeacherNo-feedback 变化更大+1.790p=.477
CRFCWO1Referential cohesion相邻句内容词重叠,反映相邻句是否复用关键词维持局部话题。Pollution is a serious problem. This problem affects many cities.Time × Group p=.015剔除离群观测:3No-feedback vs AI:No-feedback 变化更大,估计=+0.053,p=.011;Teacher vs AI:Teacher 变化更大,估计=+0.045,p=.031服务大作文核心线:读后续写的局部衔接、连接关系和故事连续性。
No-feedback vs AINo-feedback 变化更大+0.053p=.011
Teacher vs AITeacher 变化更大+0.045p=.031
No-feedback vs TeacherNo-feedback 变化更大+0.008p=.683
CNCAddConnectives添加/并列连接词密度,反映 and, also, moreover, in addition 等追加信息连接词使用频率。I learned teamwork. Also, I became more confident. Moreover, I understood friendship.Time × Group p=.021剔除离群观测:2Teacher vs AI:Teacher 变化更大,估计=+14.761,p=.025;No-feedback vs Teacher:Teacher 变化更大,估计=-14.619,p=.027服务大作文核心线:读后续写的局部衔接、连接关系和故事连续性。
Teacher vs AITeacher 变化更大+14.761p=.025
No-feedback vs TeacherTeacher 变化更大-14.619p=.027
No-feedback vs AINo-feedback 变化更大+0.142p=.983
LDMTLDLexical diversityMTLD 词汇多样性,反映文本是否反复用同一批词,还是能持续引入不同词汇。总是用 good, good, good 多样性低;good, useful, meaningful, valuable 多样性更高。Time × Group p=.026剔除离群观测:1No-feedback vs AI:AI 变化更大,估计=-21.914,p=.012服务大作文词汇资源线:反馈改变词汇可及性或多样性,用来解释读后续写中的语言资源选择。
No-feedback vs AIAI 变化更大-21.914p=.012
Teacher vs AIAI 变化更大-13.074p=.129
No-feedback vs TeacherTeacher 变化更大-8.840p=.303
PCCONNzText easability component文本易读性中的连接成分 z 分数,反映连接资源如何影响文本加工难度。first, then, however, therefore 等连接关系清楚时,读者更容易判断句间关系。Time × Group p=.026剔除离群观测:0No-feedback vs Teacher:No-feedback 变化更大,估计=+1.134,p=.017;Teacher vs AI:AI 变化更大,估计=-1.044,p=.028服务大作文核心线:读后续写的局部衔接、连接关系和故事连续性。
No-feedback vs TeacherNo-feedback 变化更大+1.134p=.017
Teacher vs AIAI 变化更大-1.044p=.028
No-feedback vs AINo-feedback 变化更大+0.091p=.846
CRFCWO1dReferential cohesion相邻句内容词重叠的波动程度,反映有些句子衔接很紧、有些句子突然断开的程度。前两句关键词重复很多,后两句完全换话题,波动就会变大。Time × Group p=.026剔除离群观测:1No-feedback vs AI:No-feedback 变化更大,估计=+0.036,p=.013服务大作文核心线:读后续写的局部衔接、连接关系和故事连续性。
No-feedback vs AINo-feedback 变化更大+0.036p=.013
Teacher vs AITeacher 变化更大+0.026p=.067
No-feedback vs TeacherNo-feedback 变化更大+0.010p=.493
WRDFRQmcWord information内容词词频的另一类汇总指标,反映实义词整体更偏常见还是更少见。story, help, friend 较常见;hesitation, generosity, encounter 较少见。Time × Group p=.027剔除离群观测:4No-feedback vs AI:No-feedback 变化更大,估计=+0.418,p=.033服务大作文词汇资源线:反馈改变词汇可及性或多样性,用来解释读后续写中的语言资源选择。
No-feedback vs AINo-feedback 变化更大+0.418p=.033
Teacher vs AITeacher 变化更大+0.325p=.097
No-feedback vs TeacherNo-feedback 变化更大+0.093p=.633
PCVERBpText easability component文本易读性中的动词衔接百分位,反映动词链如何帮助读者理解事件推进。found -> decided -> helped -> changed 这类动词链让故事推进更清楚。Time × Group p=.034剔除离群观测:0Teacher vs AI:Teacher 变化更大,估计=+27.888,p=.012服务大作文可读性/动词组织线:解释读后续写中事件推进和阅读难度的变化。
Teacher vs AITeacher 变化更大+27.888p=.012
No-feedback vs AINo-feedback 变化更大+16.687p=.129
No-feedback vs TeacherTeacher 变化更大-11.201p=.307

第六部分:参考文献 DOI 清单

页面里出现的理论、AWE、ChatGPT/GenAI 反馈文献都在这里列出 DOI。写论文时可以按小作文和大作文分别取用,不需要每篇都放进正文。

  • 反馈作为学习信息与调节机制:Hattie & Timperley, 2007,DOI: 10.3102/003465430298487解释为什么反馈可能改变学生从前测到后测的写作资源选择。
  • 教师反馈与自动化反馈的 engagement:Zhang & Hyland, 2018,DOI: 10.1016/j.asw.2018.02.004解释为什么 Teacher 与 AI 不能只比高低,还要看学生如何摄取不同来源的反馈。
  • Grammarly 自动纠错反馈中的学习者投入:Koltovskaia, 2020,DOI: 10.1016/j.asw.2020.100450说明自动反馈能提供即时修订信息,但学生的认知投入可能不足。
  • 自动反馈的信任与学习潜力:Ranalli, 2021,DOI: 10.1016/j.jslw.2021.100816支持把自动反馈研究从“有没有用”推进到“学生是否信任并真正吸收”。
  • 注意到语言形式后才可能摄取:Schmidt, 1990,DOI: 10.1093/applin/11.2.129支撑“反馈使学生注意到某类文本资源”的解释。
  • 写作是多层级的认知过程:Hayes, 2012,DOI: 10.1177/0741088312451260支撑从词汇、句法、衔接、事件组织多层指标解释写作变化。
  • 情境模型和深层语篇理解:Kintsch, 1988,DOI: 10.1037/0033-295X.95.2.163支撑 SMCAUS 类指标不是表层连接词,而是事件/因果关系的深层组织线索。
  • Coh-Metrix 多层文本指标:Graesser et al., 2011,DOI: 10.3102/0013189X11413260支撑用词汇、句法、指称、因果、可读性等多层指标解释文本特征。
  • 读后续写中的 AWE/反馈与衔接连贯:Chen & Cui, 2022,DOI: 10.1016/j.jslw.2022.100915支撑大作文部分把衔接与连贯作为核心解释对象。
  • 自动反馈对写作表现的多层元分析:Fleckenstein et al., 2023,DOI: 10.3389/frai.2023.1162454支撑 AI/自动反馈整体有效性不能替代具体写作资源层面的机制分析。
  • ChatGPT 进入 L2 写作实践:Yan, 2023,DOI: 10.1007/s10639-023-11742-4引出生成式 AI 反馈在二语写作中带来的机会、风险和学习者反应。
  • 人类反馈与 ChatGPT 反馈质量比较:Steiss et al., 2024,DOI: 10.1016/j.learninstruc.2024.101894支持不能只假定 AI 或教师更好,而要比较反馈质量和学生摄取结果。
  • ChatGPT 自动纠错反馈中的 L2 写作者投入:Yan & Zhang, 2024,DOI: 10.1057/s41599-024-03543-y支撑用 engagement/uptake 视角解释学生如何处理 ChatGPT 反馈。
  • L2 学生长期使用自动反馈的投入变化:Xiaosa & Ping, 2025,DOI: 10.1016/j.asw.2025.100919说明自动反馈摄取不是一次性接受/拒绝,而会随时间和情境变化。
  • GenAI 反馈与同伴反馈的可供性和挑战:Mi et al., 2026,DOI: 10.1177/20965311241310883引出 GenAI 反馈的即时性、可用性和局限,需要和人类反馈分开检验。
  • 生成式 AI 与 L2 书面反馈综述:Crosthwaite & Sun, 2026,DOI: 10.1177/00336882251386530支撑近年研究缺口:需要更细的写作质量和写作技能结果指标。

附录:报告规则和数据路径

不写“教师反馈全面优于 AI 反馈”。
不写“AI 反馈无效”。
不把无反馈组写成主角;它只是自然变化 baseline。
不在交互不显著时拆 pairwise 讲故事。
数据文件和部署说明

主口径数据:DataAnalyze/output/tables/45_two_pass_lmm_metric_summary_all_metrics.csv48_two_pass_planned_contrasts_all_metrics.csv

旧 full-model 表已归档在 DataAnalyze/output/tables/archive_full_model_pre_two_pass_2026-05-31/,不作为当前主证据。

生成脚本:DataAnalyze/script/build_two_pass_storyline_html_report.py。生成页面:reports/teacher_review_site/index.html