Strict two-pass LMM report

先讲清实验口径，再把小作文和大作文拆成两篇论文主线

这版把 No-feedback 放回它应有的位置：它是解释 Teacher/AI 是否超过自然变化的 baseline，不是论文主角。主报告先按每个作文类型内部的 2×3 混合设计判断，再展开 pairwise。

第一部分：从零开始统一统计口径

当前规则：每个作文类型、每个指标先跑二次 LMM。只有 Time × Group 显著，才拆三组 pairwise；pairwise 没有经过这个门槛，不进入正式故事线。

先有两个时间点

同一个学生有前测和后测，所以我们关心的不是一次分数，而是“从前测到后测变了多少”。

再有三个组

No-feedback、Teacher、AI 是三组不同学生。它们不是同一批人轮流接受三种处理，而是组间对照。

所以是 2×3

2 是 Time：前测/后测；3 是 Group：无反馈/教师/AI。这叫 2×3 混合设计。

模型看变化差异

Score ~ Time * Group + (1 | ID) 检验三组“前后变化幅度”是不是不同。

再拆 pairwise

交互显著后才比较 Teacher vs AI、Teacher vs No-feedback、AI vs No-feedback。

	No-feedback	Teacher	AI
Pre	无反馈组前测	教师反馈组前测	AI 反馈组前测
Post	无反馈组后测	教师反馈组后测	AI 反馈组后测
解释	自然变化 baseline	教师反馈后的变化	AI 反馈后的变化

No-feedback 为什么能用？

因为这是组间控制设计。无反馈组不需要和 Teacher/AI 是同一批人；它估计“没有外部反馈时，类似学生自然会出现的前后测变化”。

二次建模是什么？

先用完整数据跑模型，按 |standardized residual| > 2.5 标记离群观测，再剔除这些观测重跑同一个模型。主报告只用 trimmed model。

第二部分：现在的结论很清楚

大小作文现在按两个独立研究方向处理：小作文写反馈摄取机制，大作文写读后续写中的反馈路径。总览只报告每个作文内部的 Time × Group 和通过门槛后的 Teacher vs AI 结果，不再把两个作文合写成一套结论。

小作文交互显著18

18 个可报告指标先通过 Time × Group，说明三组前后变化不一样。

小作文 Teacher vs AI 显著指标3

在交互显著指标里，直接 Teacher vs AI pairwise 显著：DRNEG、SMCAUSv、SMCAUSvp。

大作文交互显著10

10 个可报告指标先通过 Time × Group，证据集中在衔接、词汇和可读性资源。

大作文 Teacher vs AI 显著指标5

在交互显著指标里，直接 Teacher vs AI pairwise 显著：CNCAdd、CRFCWO1、PCCONNz、PCVERBp、WRDFRQa。

第三部分：文献综述和研究缺口

这部分放在小作文指标之前，用来先交代为什么本研究不是简单比较“教师反馈好还是 AI 反馈好”，而是看学生在不同反馈来源下实际摄取了哪些写作资源。

从反馈效果转向反馈摄取

反馈研究早已指出，反馈的价值不在于给出意见本身，而在于学习者是否理解、选择并纳入修订。L2 写作里，教师反馈和自动反馈会触发不同的 engagement；自动反馈虽然即时、可重复，但学习者可能只做表层接受，未必形成足够的认知投入。

Zhang & Hyland, 2018：教师反馈与自动反馈 engagement，DOI: 10.1016/j.asw.2018.02.004
Koltovskaia, 2020：Grammarly 自动纠错反馈中的学习者投入，DOI: 10.1016/j.asw.2020.100450
Ranalli, 2021：自动反馈的学习潜力与信任问题，DOI: 10.1016/j.jslw.2021.100816

从传统 AWE 走向生成式 AI 反馈

近几年研究把问题推进到 ChatGPT/GenAI：AI 可以提供更个性化、更快的反馈，但它和教师反馈在深度、具体性、可信度、学生采纳方式上仍可能不同。因此本文的结果部分应服务于“反馈来源如何改变写作资源摄取路径”。

Fleckenstein et al., 2023：自动反馈写作效果元分析，DOI: 10.3389/frai.2023.1162454
Yan, 2023：ChatGPT 进入 L2 写作实践，DOI: 10.1007/s10639-023-11742-4
Steiss et al., 2024：人类反馈与 ChatGPT 反馈质量比较，DOI: 10.1016/j.learninstruc.2024.101894
Yan & Zhang, 2024：ChatGPT 自动纠错反馈中的 L2 写作者投入，DOI: 10.1057/s41599-024-03543-y
Mi et al., 2026：GenAI 反馈的可供性和挑战，DOI: 10.1177/20965311241310883
Crosthwaite & Sun, 2026：生成式 AI 与 L2 书面反馈综述，DOI: 10.1177/00336882251386530

本研究可以接上的缺口：现有 AI 写作反馈研究常看总体写作质量、学生态度或反馈质量，本页结果可以进一步回答：教师反馈和 AI 反馈是否让学生在因果组织、指称衔接、词汇选择、可读性等具体文本资源上产生不同的前后测变化。

第四部分：小作文论文主线

小作文作为单独论文处理。它的显著指标更多，适合写成“反馈来源如何引导学生摄取不同层级写作资源”的机制论文。理论锚点可以放在反馈 engagement、noticing、写作多层过程、Coh-Metrix 多层文本指标上。

主线 1：小作文更像“反馈摄取机制”论文

严格口径下，小作文的可报告指标仍集中在事件因果组织和局部资源上；其中 Teacher vs AI 直接显著的是 SMCAUSvp、SMCAUSv、DRNEG。它说明反馈来源确实会改变学生摄取写作资源的路径，但不能写成谁全面优于谁。

SMCAUSvp SMCAUSv DRNEG

主线 2：因果/事件组织是最容易讲清的核心

这些指标一起看“事件之间有没有推进关系”。小作文里它们集中显著，适合写成教师面批与 AI 反馈在事件因果组织上引导不同修订路径。

SMCAUSvp SMCAUSv SMCAUSwn CNCCaus

主线 3：No-feedback 只帮助解释自然变化

很多小作文指标是 Teacher/AI 相对 No-feedback 出现差异。这里的重点不是把无反馈写成主角，而是说明自然重写也会改变文本，反馈效果必须超过或偏离这条自然变化线才有解释力。

LSAGNd PCREFp WRDFRQa WRDPOLc

小作文 RQ1

教师反馈与 AI 反馈是否会引导学生在事件因果组织上出现不同前后测变化？

小作文 RQ2

反馈组相对于无反馈 baseline，在哪些语义、指称、词汇和句法资源上偏离自然变化？

小作文 RQ3

这些差异是否说明小作文反馈摄取是多层级的，而不是单一“连接词更多/词更多”的问题？

展开小作文二次建模数据表：指标、例子、交互、pairwise、故事用途

指标	指标反映什么	帮助理解的例子	先看交互	可写进故事线的 pairwise	故事线用途	全部 pairwise 备查
DRNEGVerb / phrase density	否定表达密度，反映 not, never, no, without 等否定或立场资源的使用。	I did not give up. / Without his help, I could not finish it.	Time × Group p=<.001剔除离群观测：0	No-feedback vs AI：AI 变化更大，估计=-9.447，p=<.001；Teacher vs AI：AI 变化更大，估计=-4.910，p=.021；No-feedback vs Teacher：Teacher 变化更大，估计=-4.537，p=.032	服务小作文局部资源线：否定、立场或短语结构资源。用来补充反馈摄取不是只发生在连接词层面。	No-feedback vs AIAI 变化更大`-9.447p=<.001` Teacher vs AIAI 变化更大`-4.910p=.021` No-feedback vs TeacherTeacher 变化更大`-4.537p=.032`
WRDPOLcWord information	内容词多义性，反映内容词平均有多少种常见意义；它看的是词义资源，不等于词汇难度。	bank, line, change 这类词义较多；desk, bicycle 这类词义相对少。	Time × Group p=<.001剔除离群观测：1	No-feedback vs Teacher：No-feedback 变化更大，估计=+0.505，p=<.001；No-feedback vs AI：No-feedback 变化更大，估计=+0.386，p=.005	服务小作文词汇选择线：词频、多义性、习得年龄或副词资源。只解释资源选择，不直接判断好坏。	No-feedback vs TeacherNo-feedback 变化更大`+0.505p=<.001` No-feedback vs AINo-feedback 变化更大`+0.386p=.005` Teacher vs AIAI 变化更大`-0.119p=.375`
LSAGNdSemantic overlap (LSA)	LSA 语义给定/新信息的波动程度，反映句子之间概念推进是否稳定，d 表示离散度。	每句都围绕同一活动推进，波动小；一会儿写活动、一会儿突然写天气，波动大。	Time × Group p=<.001剔除离群观测：2	No-feedback vs Teacher：No-feedback 变化更大，估计=+0.040，p=.001；No-feedback vs AI：No-feedback 变化更大，估计=+0.032，p=.009	服务小作文语义/指称线：句间语义推进和指称追踪。主要用 No-feedback baseline 解释自然变化与反馈偏离。	No-feedback vs TeacherNo-feedback 变化更大`+0.040p=.001` No-feedback vs AINo-feedback 变化更大`+0.032p=.009` Teacher vs AIAI 变化更大`-0.008p=.497`
SMCAUSvpSituation model	情境模型因果动词短语指标，反映事件链条是否通过动词短语形成深层因果推进。	He failed the exam, felt disappointed, and decided to practice harder.	Time × Group p=.006剔除离群观测：0	No-feedback vs Teacher：No-feedback 变化更大，估计=+19.410，p=.005；Teacher vs AI：AI 变化更大，估计=-18.962，p=.007	服务小作文核心线：事件因果组织。重点说明反馈来源改变学生组织事件推进的路径。	No-feedback vs TeacherNo-feedback 变化更大`+19.410p=.005` Teacher vs AIAI 变化更大`-18.962p=.007` No-feedback vs AINo-feedback 变化更大`+0.448p=.948`
DESSLdDescriptive / length	句长离散度，反映句子长短是否变化明显；它看节奏变化，不直接等于好坏。	短句和长句交替，离散度较高；每句都差不多长，离散度较低。	Time × Group p=.016剔除离群观测：2	No-feedback vs Teacher：Teacher 变化更大，估计=-1.690，p=.041	服务小作文长度/节奏线：文本长度或句长变化。只做辅助，不作为质量核心证据。	No-feedback vs TeacherTeacher 变化更大`-1.690p=.041` Teacher vs AITeacher 变化更大`+1.501p=.069` No-feedback vs AIAI 变化更大`-0.189p=.818`
WRDFRQaWord information	平均词频，反映文本更偏常见词还是低频词；数值越高，通常表示词更常见、更容易获得。	常见词：help, good, important；低频词：beneficial, significant, indispensable。	Time × Group p=.016剔除离群观测：0	No-feedback vs Teacher：No-feedback 变化更大，估计=+0.096，p=.009；No-feedback vs AI：No-feedback 变化更大，估计=+0.081，p=.026	服务小作文词汇选择线：词频、多义性、习得年龄或副词资源。只解释资源选择，不直接判断好坏。	No-feedback vs TeacherNo-feedback 变化更大`+0.096p=.009` No-feedback vs AINo-feedback 变化更大`+0.081p=.026` Teacher vs AIAI 变化更大`-0.015p=.678`
SMCAUSvSituation model	情境模型因果动词指标，反映动词层面的事件因果关系。	failed, caused, realized, decided, changed 这类动词会让事件形成推动关系。	Time × Group p=.017剔除离群观测：0	Teacher vs AI：AI 变化更大，估计=-13.563，p=.011；No-feedback vs Teacher：No-feedback 变化更大，估计=+12.230，p=.022	服务小作文核心线：事件因果组织。重点说明反馈来源改变学生组织事件推进的路径。	Teacher vs AIAI 变化更大`-13.563p=.011` No-feedback vs TeacherNo-feedback 变化更大`+12.230p=.022` No-feedback vs AIAI 变化更大`-1.333p=.799`
SYNNPSyntactic complexity / density	名词短语密度，反映文本中名词短语结构的使用强度。	the important school activity / a helpful learning experience 都是名词短语资源。	Time × Group p=.018剔除离群观测：0	No-feedback vs AI：AI 变化更大，估计=-0.108，p=.011；No-feedback vs Teacher：Teacher 变化更大，估计=-0.095，p=.025	服务小作文局部资源线：否定、立场或短语结构资源。用来补充反馈摄取不是只发生在连接词层面。	No-feedback vs AIAI 变化更大`-0.108p=.011` No-feedback vs TeacherTeacher 变化更大`-0.095p=.025` Teacher vs AIAI 变化更大`-0.013p=.750`
PCREFpText easability component	文本易读性中的指称衔接百分位，反映人物、对象、关键词是否容易被读者追踪。	Tom lost his wallet. He searched the classroom. He 清楚接回 Tom。	Time × Group p=.019剔除离群观测：0	No-feedback vs AI：No-feedback 变化更大，估计=+14.944，p=.006	服务小作文语义/指称线：句间语义推进和指称追踪。主要用 No-feedback baseline 解释自然变化与反馈偏离。	No-feedback vs AINo-feedback 变化更大`+14.944p=.006` No-feedback vs TeacherNo-feedback 变化更大`+9.225p=.087` Teacher vs AITeacher 变化更大`+5.719p=.286`
SMCAUSwnSituation model	基于词汇语义网络的情境模型因果指标，反映词义层面是否支持事件因果关系。	because of the delay, missed the train, felt worried 这些词义可形成因果链。	Time × Group p=.021剔除离群观测：0	No-feedback vs Teacher：No-feedback 变化更大，估计=+0.073，p=.006	服务小作文核心线：事件因果组织。重点说明反馈来源改变学生组织事件推进的路径。	No-feedback vs TeacherNo-feedback 变化更大`+0.073p=.006` No-feedback vs AINo-feedback 变化更大`+0.038p=.150` Teacher vs AIAI 变化更大`-0.035p=.183`
WRDFRQcWord information	内容词词频，反映名词、动词、形容词、副词等实义词更常见还是更少见。	good, make, thing 是高频内容词；constructive, facilitate 是较低频内容词。	Time × Group p=.023剔除离群观测：0	No-feedback vs Teacher：No-feedback 变化更大，估计=+0.122，p=.007	服务小作文词汇选择线：词频、多义性、习得年龄或副词资源。只解释资源选择，不直接判断好坏。	No-feedback vs TeacherNo-feedback 变化更大`+0.122p=.007` No-feedback vs AINo-feedback 变化更大`+0.066p=.143` Teacher vs AIAI 变化更大`-0.056p=.208`
CNCCausConnectives	因果连接词密度，反映 because, so, therefore, as a result 等显性因果词使用频率。	He was late because he missed the bus. / She practiced every day, so she improved.	Time × Group p=.025剔除离群观测：2	No-feedback vs Teacher：No-feedback 变化更大，估计=+14.606，p=.017	服务小作文核心线：事件因果组织。重点说明反馈来源改变学生组织事件推进的路径。	No-feedback vs TeacherNo-feedback 变化更大`+14.606p=.017` Teacher vs AIAI 变化更大`-9.993p=.101` No-feedback vs AINo-feedback 变化更大`+4.613p=.447`
DRNPVerb / phrase density	名词短语相关密度，反映局部短语资源是否更多地围绕名词结构展开。	a meaningful volunteer experience / the school English club。	Time × Group p=.028剔除离群观测：1	No-feedback vs AI：No-feedback 变化更大，估计=+31.049，p=.011	服务小作文局部资源线：否定、立场或短语结构资源。用来补充反馈摄取不是只发生在连接词层面。	No-feedback vs AINo-feedback 变化更大`+31.049p=.011` No-feedback vs TeacherNo-feedback 变化更大`+20.519p=.089` Teacher vs AITeacher 变化更大`+10.530p=.380`
DESWCDescriptive / length	总词数，反映文本长度；它只说明写得更多或更少，不直接说明质量更好。	80 词应用文和 130 词应用文在信息量上可能不同，但质量还要看组织和准确性。	Time × Group p=.030剔除离群观测：1	No-feedback vs AI：AI 变化更大，估计=-11.022，p=.022	服务小作文长度/节奏线：文本长度或句长变化。只做辅助，不作为质量核心证据。	No-feedback vs AIAI 变化更大`-11.022p=.022` No-feedback vs TeacherTeacher 变化更大`-8.160p=.087` Teacher vs AIAI 变化更大`-2.862p=.546`
WRDAOAcWord information	内容词习得年龄，反映内容词通常更早学会还是更晚学会；数值高往往表示词汇更成熟或更少见。	dog, school 属于较早习得；responsibility, perspective 通常更晚习得。	Time × Group p=.030剔除离群观测：2	No-feedback vs AI：AI 变化更大，估计=-24.168，p=.028	服务小作文词汇选择线：词频、多义性、习得年龄或副词资源。只解释资源选择，不直接判断好坏。	No-feedback vs AIAI 变化更大`-24.168p=.028` No-feedback vs TeacherTeacher 变化更大`-16.861p=.123` Teacher vs AIAI 变化更大`-7.307p=.502`
LSASS1dSemantic overlap (LSA)	相邻句 LSA 语义重叠的波动程度，反映句间语义连接是否稳定。	句句围绕 invitation details 展开，波动小；突然转到无关经历，波动大。	Time × Group p=.030剔除离群观测：1	No-feedback vs AI：No-feedback 变化更大，估计=+0.044，p=.026	服务小作文语义/指称线：句间语义推进和指称追踪。主要用 No-feedback baseline 解释自然变化与反馈偏离。	No-feedback vs AINo-feedback 变化更大`+0.044p=.026` No-feedback vs TeacherNo-feedback 变化更大`+0.035p=.081` Teacher vs AITeacher 变化更大`+0.010p=.626`
WRDADVWord information	副词密度，反映 quickly, really, carefully, especially 等副词资源使用频率。	She carefully explained the rule. / I really appreciated your help.	Time × Group p=.031剔除离群观测：1	No-feedback vs AI：AI 变化更大，估计=-17.839，p=.010	服务小作文词汇选择线：词频、多义性、习得年龄或副词资源。只解释资源选择，不直接判断好坏。	No-feedback vs AIAI 变化更大`-17.839p=.010` No-feedback vs TeacherTeacher 变化更大`-9.179p=.180` Teacher vs AIAI 变化更大`-8.660p=.206`
PCREFzText easability component	文本易读性中的指称衔接 z 分数，和 PCREFp 看同一类指称追踪资源，只是量尺不同。	同一个人物或物品被连续清楚地提到，读者更容易跟上。	Time × Group p=.047剔除离群观测：0	No-feedback vs AI：No-feedback 变化更大，估计=+0.532，p=.016	服务小作文语义/指称线：句间语义推进和指称追踪。主要用 No-feedback baseline 解释自然变化与反馈偏离。	No-feedback vs AINo-feedback 变化更大`+0.532p=.016` No-feedback vs TeacherNo-feedback 变化更大`+0.313p=.152` Teacher vs AITeacher 变化更大`+0.219p=.316`

第五部分：大作文论文主线

大作文作为另一篇单独论文处理。它不再被写成小作文的对照，而是写读后续写里的反馈摄取路径：反馈差异集中在相邻句衔接、添加连接词、词频、词汇多样性、可读性和动词相关组织。

主线 1：大作文单独写成“读后续写反馈路径”论文

大作文可报告指标集中在词频、相邻句衔接、添加连接词、动词相关易读性上。它不需要和小作文合成一条总故事，而是单独说明读后续写中的反馈摄取路径。

WRDFRQa CRFCWO1 CNCAdd PCVERBp

主线 2：读后续写更看局部衔接和故事推进

这些指标更接近读后续写的任务要求：句子要接住前文、人物和事件要连续、连接关系要清楚。因此它适合单独写，不应硬塞进小作文同一条故事。

CRFCWO1 CRFCWO1d CNCAdd PCCONNz

主线 3：可读性/词汇指标是资源选择证据，不是质量判决

阅读难度、词汇多样性和词频能说明反馈改变了语言资源选择，但不能直接等同于“作文更好”。这部分适合作为读后续写结果的语言资源解释。

RDFKGL RDL2 LDMTLD WRDFRQmc

大作文 RQ1

在读后续写中，教师反馈与 AI 反馈是否主要改变局部衔接和故事推进资源？

大作文 RQ2

词频、词汇多样性和可读性变化是否说明教师反馈与 AI 反馈引导了不同语言资源选择？

大作文 RQ3

No-feedback baseline 能否说明哪些变化只是自然重写，哪些变化才更像反馈引导？

展开大作文二次建模数据表：指标、例子、交互、pairwise、故事用途

指标	指标反映什么	帮助理解的例子	先看交互	可写进故事线的 pairwise	故事线用途	全部 pairwise 备查
WRDFRQaWord information	平均词频，反映文本更偏常见词还是低频词；数值越高，通常表示词更常见、更容易获得。	常见词：help, good, important；低频词：beneficial, significant, indispensable。	Time × Group p=.004剔除离群观测：5	Teacher vs AI：Teacher 变化更大，估计=+0.111，p=.013；No-feedback vs AI：No-feedback 变化更大，估计=+0.097，p=.030	服务大作文词汇资源线：反馈改变词汇可及性或多样性，用来解释读后续写中的语言资源选择。	Teacher vs AITeacher 变化更大`+0.111p=.013` No-feedback vs AINo-feedback 变化更大`+0.097p=.030` No-feedback vs TeacherTeacher 变化更大`-0.014p=.753`
RDFKGLReadability	Flesch-Kincaid 年级水平，反映文本按句长、词长估计的阅读年级难度。	长句和长词更多时，年级水平通常更高。	Time × Group p=.010剔除离群观测：2	No-feedback vs AI：AI 变化更大，估计=-1.527，p=.014；No-feedback vs Teacher：Teacher 变化更大，估计=-1.378，p=.025	服务大作文可读性/动词组织线：解释读后续写中事件推进和阅读难度的变化。	No-feedback vs AIAI 变化更大`-1.527p=.014` No-feedback vs TeacherTeacher 变化更大`-1.378p=.025` Teacher vs AIAI 变化更大`-0.149p=.807`
RDL2Readability	L2 可读性指标，面向二语文本估计阅读难度；数值变化不直接等于作文质量变化。	词汇、句长、句法组合起来会影响二语读者读起来是否费力。	Time × Group p=.011剔除离群观测：3	No-feedback vs AI：No-feedback 变化更大，估计=+6.731，p=.009	服务大作文可读性/动词组织线：解释读后续写中事件推进和阅读难度的变化。	No-feedback vs AINo-feedback 变化更大`+6.731p=.009` Teacher vs AITeacher 变化更大`+4.941p=.051` No-feedback vs TeacherNo-feedback 变化更大`+1.790p=.477`
CRFCWO1Referential cohesion	相邻句内容词重叠，反映相邻句是否复用关键词维持局部话题。	Pollution is a serious problem. This problem affects many cities.	Time × Group p=.015剔除离群观测：3	No-feedback vs AI：No-feedback 变化更大，估计=+0.053，p=.011；Teacher vs AI：Teacher 变化更大，估计=+0.045，p=.031	服务大作文核心线：读后续写的局部衔接、连接关系和故事连续性。	No-feedback vs AINo-feedback 变化更大`+0.053p=.011` Teacher vs AITeacher 变化更大`+0.045p=.031` No-feedback vs TeacherNo-feedback 变化更大`+0.008p=.683`
CNCAddConnectives	添加/并列连接词密度，反映 and, also, moreover, in addition 等追加信息连接词使用频率。	I learned teamwork. Also, I became more confident. Moreover, I understood friendship.	Time × Group p=.021剔除离群观测：2	Teacher vs AI：Teacher 变化更大，估计=+14.761，p=.025；No-feedback vs Teacher：Teacher 变化更大，估计=-14.619，p=.027	服务大作文核心线：读后续写的局部衔接、连接关系和故事连续性。	Teacher vs AITeacher 变化更大`+14.761p=.025` No-feedback vs TeacherTeacher 变化更大`-14.619p=.027` No-feedback vs AINo-feedback 变化更大`+0.142p=.983`
LDMTLDLexical diversity	MTLD 词汇多样性，反映文本是否反复用同一批词，还是能持续引入不同词汇。	总是用 good, good, good 多样性低；good, useful, meaningful, valuable 多样性更高。	Time × Group p=.026剔除离群观测：1	No-feedback vs AI：AI 变化更大，估计=-21.914，p=.012	服务大作文词汇资源线：反馈改变词汇可及性或多样性，用来解释读后续写中的语言资源选择。	No-feedback vs AIAI 变化更大`-21.914p=.012` Teacher vs AIAI 变化更大`-13.074p=.129` No-feedback vs TeacherTeacher 变化更大`-8.840p=.303`
PCCONNzText easability component	文本易读性中的连接成分 z 分数，反映连接资源如何影响文本加工难度。	first, then, however, therefore 等连接关系清楚时，读者更容易判断句间关系。	Time × Group p=.026剔除离群观测：0	No-feedback vs Teacher：No-feedback 变化更大，估计=+1.134，p=.017；Teacher vs AI：AI 变化更大，估计=-1.044，p=.028	服务大作文核心线：读后续写的局部衔接、连接关系和故事连续性。	No-feedback vs TeacherNo-feedback 变化更大`+1.134p=.017` Teacher vs AIAI 变化更大`-1.044p=.028` No-feedback vs AINo-feedback 变化更大`+0.091p=.846`
CRFCWO1dReferential cohesion	相邻句内容词重叠的波动程度，反映有些句子衔接很紧、有些句子突然断开的程度。	前两句关键词重复很多，后两句完全换话题，波动就会变大。	Time × Group p=.026剔除离群观测：1	No-feedback vs AI：No-feedback 变化更大，估计=+0.036，p=.013	服务大作文核心线：读后续写的局部衔接、连接关系和故事连续性。	No-feedback vs AINo-feedback 变化更大`+0.036p=.013` Teacher vs AITeacher 变化更大`+0.026p=.067` No-feedback vs TeacherNo-feedback 变化更大`+0.010p=.493`
WRDFRQmcWord information	内容词词频的另一类汇总指标，反映实义词整体更偏常见还是更少见。	story, help, friend 较常见；hesitation, generosity, encounter 较少见。	Time × Group p=.027剔除离群观测：4	No-feedback vs AI：No-feedback 变化更大，估计=+0.418，p=.033	服务大作文词汇资源线：反馈改变词汇可及性或多样性，用来解释读后续写中的语言资源选择。	No-feedback vs AINo-feedback 变化更大`+0.418p=.033` Teacher vs AITeacher 变化更大`+0.325p=.097` No-feedback vs TeacherNo-feedback 变化更大`+0.093p=.633`
PCVERBpText easability component	文本易读性中的动词衔接百分位，反映动词链如何帮助读者理解事件推进。	found -> decided -> helped -> changed 这类动词链让故事推进更清楚。	Time × Group p=.034剔除离群观测：0	Teacher vs AI：Teacher 变化更大，估计=+27.888，p=.012	服务大作文可读性/动词组织线：解释读后续写中事件推进和阅读难度的变化。	Teacher vs AITeacher 变化更大`+27.888p=.012` No-feedback vs AINo-feedback 变化更大`+16.687p=.129` No-feedback vs TeacherTeacher 变化更大`-11.201p=.307`

第六部分：参考文献 DOI 清单

页面里出现的理论、AWE、ChatGPT/GenAI 反馈文献都在这里列出 DOI。写论文时可以按小作文和大作文分别取用，不需要每篇都放进正文。

反馈作为学习信息与调节机制：Hattie & Timperley, 2007，DOI: 10.3102/003465430298487。解释为什么反馈可能改变学生从前测到后测的写作资源选择。
教师反馈与自动化反馈的 engagement：Zhang & Hyland, 2018，DOI: 10.1016/j.asw.2018.02.004。解释为什么 Teacher 与 AI 不能只比高低，还要看学生如何摄取不同来源的反馈。
Grammarly 自动纠错反馈中的学习者投入：Koltovskaia, 2020，DOI: 10.1016/j.asw.2020.100450。说明自动反馈能提供即时修订信息，但学生的认知投入可能不足。
自动反馈的信任与学习潜力：Ranalli, 2021，DOI: 10.1016/j.jslw.2021.100816。支持把自动反馈研究从“有没有用”推进到“学生是否信任并真正吸收”。
注意到语言形式后才可能摄取：Schmidt, 1990，DOI: 10.1093/applin/11.2.129。支撑“反馈使学生注意到某类文本资源”的解释。
写作是多层级的认知过程：Hayes, 2012，DOI: 10.1177/0741088312451260。支撑从词汇、句法、衔接、事件组织多层指标解释写作变化。
情境模型和深层语篇理解：Kintsch, 1988，DOI: 10.1037/0033-295X.95.2.163。支撑 SMCAUS 类指标不是表层连接词，而是事件/因果关系的深层组织线索。
Coh-Metrix 多层文本指标：Graesser et al., 2011，DOI: 10.3102/0013189X11413260。支撑用词汇、句法、指称、因果、可读性等多层指标解释文本特征。
读后续写中的 AWE/反馈与衔接连贯：Chen & Cui, 2022，DOI: 10.1016/j.jslw.2022.100915。支撑大作文部分把衔接与连贯作为核心解释对象。
自动反馈对写作表现的多层元分析：Fleckenstein et al., 2023，DOI: 10.3389/frai.2023.1162454。支撑 AI/自动反馈整体有效性不能替代具体写作资源层面的机制分析。
ChatGPT 进入 L2 写作实践：Yan, 2023，DOI: 10.1007/s10639-023-11742-4。引出生成式 AI 反馈在二语写作中带来的机会、风险和学习者反应。
人类反馈与 ChatGPT 反馈质量比较：Steiss et al., 2024，DOI: 10.1016/j.learninstruc.2024.101894。支持不能只假定 AI 或教师更好，而要比较反馈质量和学生摄取结果。
ChatGPT 自动纠错反馈中的 L2 写作者投入：Yan & Zhang, 2024，DOI: 10.1057/s41599-024-03543-y。支撑用 engagement/uptake 视角解释学生如何处理 ChatGPT 反馈。
L2 学生长期使用自动反馈的投入变化：Xiaosa & Ping, 2025，DOI: 10.1016/j.asw.2025.100919。说明自动反馈摄取不是一次性接受/拒绝，而会随时间和情境变化。
GenAI 反馈与同伴反馈的可供性和挑战：Mi et al., 2026，DOI: 10.1177/20965311241310883。引出 GenAI 反馈的即时性、可用性和局限，需要和人类反馈分开检验。
生成式 AI 与 L2 书面反馈综述：Crosthwaite & Sun, 2026，DOI: 10.1177/00336882251386530。支撑近年研究缺口：需要更细的写作质量和写作技能结果指标。

附录：报告规则和数据路径

不写“教师反馈全面优于 AI 反馈”。

不写“AI 反馈无效”。

不把无反馈组写成主角；它只是自然变化 baseline。

不在交互不显著时拆 pairwise 讲故事。

数据文件和部署说明

主口径数据：DataAnalyze/output/tables/45_two_pass_lmm_metric_summary_all_metrics.csv 与 48_two_pass_planned_contrasts_all_metrics.csv。

旧口径表和旧网页已集中归档在 archive_legacy_pre_strict_2x3_2026-05-31/，不作为当前主证据。

生成脚本：DataAnalyze/script/02_python_support_tools/build_two_pass_storyline_html_report.py。生成页面：reports/teacher_review_site/index.html。