Edit
Pages
Save
Done
B
I
Font
Body
Display
Size
S
M
L
XL
⠇
美妆成分知识图谱
×
产品数据库
⠇
AI-Ready 数据资产概览
AI-Ready Data for Cosmetic Intelligence
⠇
巢归研究院 X 九鑫智能 · 2026
⠇
01
通用大模型的美妆盲区
⠇
产品事实缺失
问某个产品的成分,模型答不上来或编造。
根因:训练数据中没有完整的中国化妆品备案成分表
⠇
成分科学不可靠
说"烟酰胺美白"但无法解释机理链路,也分不清证据强弱。
根因:模型对成分功效的理解来自互联网统计模式,非结构化科学证据
⠇
通用大语言模型均存在上述问题
⠇
02
两项互补的数据资产
⠇
产品数据库
"产品 X 里有什么成分"
事实层 — 消除编造
⠇
+
⠇
成分知识图谱
"成分 A 通过什么靶点、机理产生什么功效"
科学层 — 消除幻觉
⠇
给定任意产品 → 检索完整成分表 →
查询每个活性成分的科学证据链 → 基于结构化事实生
成
分析
逻辑可溯源,机理可解释
⠇
03
产品数据库:规模与结构
数据来源:国家药监局(NMPA)备案系统 — 国产 + 进口四类产品
⠇
74万+
产品(去除彩妆)
⠇
3.5万
重点企业产品 (2023-2026)
⠇
93
/
27000
品牌集团 / 备案实体
⠇
product
产品名称、全成分列表 (JSON)、备案号
efficacy
功效宣称、剂型、适用部位
efficacy_type
功效类别明细
efficacy_evaluation
测试方法、评价机构、实验结果
⠇
药监局数据公开但未被主流大模型覆盖 — 接上这个库 = 确定性事实,不靠模型编
⠇
04
知识图谱:四层因果链
⠇
成分
INCI 标准命名
甘草酸二钾
→
靶点
生物分子 / 通路
透明质酸酶I基因
→
机理
作用方式
抑制透明质酸酶活性
→
功效指标
可测量终点
透明质酸酶活性抑制率
⠇
为什么是四层而非两层?
"烟酰胺 → 美白"是黑箱;"烟酰胺 → 酪氨酸酶 → 抑制活性 → 黑色素合成速率 ↓"是科学。四层结构让每一步因果关系都可解释、可验证、可溯源。
⠇
05
知识图谱:成分覆盖
⠇
215
祛痘
259
敏感修护
265
美白
273
抗衰
⠇
811
去重后独立有效成分
72%
主流产品活性成分平均覆盖率
⠇
实测品牌:润百颜 / 芙清 / 韩束 / 修丽可 / 科颜氏 / 雅诗兰黛 / 兰蔻 / 欧莱雅
⠇
06
覆盖率的解释:长尾分布
⠇
811 核心高频成分 (38.5%)
长尾低频成分
⠇
活性成分名录
2,106
个 (全名录)
811
个 (已收录)
少数高频成分出现在大多数产品中,因此不到 40% 名录即可实现 72% 产品级覆盖
⠇
72% 为活性成分覆盖率
— 溶剂、防腐剂、增稠剂、乳化剂等基质成分不纳入计算(不涉及功效机理分析)。继续扩充成分会边际递减,当前覆盖已满足主流产品分析需求。
⠇
07
证据质量:不是所有链路都同样可信
⠇
示例链路:甘草酸二钾
甘草酸二钾
→
透明质酸酶I基因
→
抑制透明质酸酶活性
→
透明质酸酶活性抑制率
⠇
证据强度
strong
moderate
weak
100 分制评分映射
研究模型
体外 (in vitro)
活体 (in vivo)
临床 (clinical)
浓度 / 剂量
有效浓度范围
来源溯源
可追溯到原始文献 / 专利 / 供应商资料
⠇
下游 AI 应用可按证据强度差异化推理,而非等权对待 — 这是区别于通用模型的核心能力
⠇
08
API 输出示例:单产品查询
芙清点涂祛痘精华液 — 共返回 10 条链路,展示 4 条
⠇
{
"product"
:
"FulQun芙清点涂祛痘精华液"
,
"kg_results"
: [ {
"ingredient"
:
"桃金娘果提取物"
,
"target"
:
"5α-还原酶"
,
"mechanism"
:
"抑制5α-还原酶活性和脂质合成"
,
"endpoint"
:
"油性肌肤外观"
}, {
"ingredient"
:
"硫磺"
,
"target"
:
"痤疮丙酸杆菌"
,
"mechanism"
:
"杀菌"
,
"endpoint"
:
"粉刺"
}, {
"ingredient"
:
"甘草酸二钾"
,
"target"
:
"透明质酸酶I基因"
,
"mechanism"
:
"抑制透明质酸酶活性"
,
"endpoint"
:
"透明质酸酶活性抑制率"
}, {
"ingredient"
:
"马齿苋提取物"
,
"target"
:
"TRPV1"
,
"mechanism"
:
"抑制TRPV1"
,
"endpoint"
:
"痛感"
} ] }
⠇
覆盖控油、抗菌、抗炎、角质代谢、菌群平衡等多个机理路径
⠇
09
API 输出示例:多产品组合
修丽可植萃舒缓修护精华露 + 科颜氏新高保湿屏障修护霜 → merged graph
⠇
{
"products"
: [
"修丽可..."
,
"科颜氏..."
],
"kg_results"
: [ {
"ingredient"
:
"水杨酸"
,
"target"
:
"NF-κB 炎症通路"
,
"mechanism"
:
"抑制 NF-κB 炎症通路"
,
"endpoint"
:
"炎症性颗粒"
}, {
"ingredient"
:
"神经酰胺 NP"
,
"mechanism"
:
"促进屏障蛋白分化"
,
"endpoint"
:
"角质层含水量"
}, {
"ingredient"
:
"β-葡聚糖"
,
"mechanism"
:
"调节免疫与炎性反应"
,
"endpoint"
:
"抗炎"
} ] }
⠇
合并图谱分析
功效互补
不同成分覆盖不同靶点
机理重叠
多成分作用同一靶点 = 协同或冗余
潜在冲突
成分间拮抗关系提示
⠇
10
技术架构:Graph RAG
⠇
01
实体链接 + 意图识别
从用户查询中精准定位成分 / 功效实体
→
02
图检索 + 多跳推理
在 KG 中遍历,召回高置信度证据链
→
03
Prompt Engineering
结构化科学逻辑作为 LLM 核心上下文
→
04
约束生成
LLM 严格遵循证据链输出
⠇
模型无关 — 输出为结构化 JSON,不绑定特定 LLM
接入方可使用任意 LLM(DeepSeek / GPT / Gemini / 豆包 / Qwen等)作为生成层
⠇
核心价值:在大模型推理能力基础上实现逻辑可溯源、机理可解释的精准推理
⠇
11
应用场景
⠇
产品成分分析
产品名 → 全成分 → 科学解读:哪些成分有效、通过什么机理、证据强度如何
多产品方案评估
在用产品组合 → 功效互补 / 重叠分析、潜在冲突提示
产品推荐
用户需求 → 基于科学匹配的产品推荐 + 推荐理由
产品对比
两个竞品 → 成分差异、机理覆盖差异、证据强度对比
成分趋势洞察
品类 x 时间 → 热门成分趋势、配方体系分析、白空间挖掘
内容生成
产品名 → 基于科学事实的测评、种草内容、科普文案
⠇
12
数据资产总览
⠇
维度
产品数据库
成分知识图谱
回答的问题
产品 X 里有什么成分
成分 A 通过什么靶点 / 机理产生什么功效
数据来源
NMPA 药监局备案
学术文献 / 专利 / 供应商临床资料
数据规模
74万+ 护肤产品
811 活性成分 x 四层因果链
覆盖方向
护肤,彩妆,洗护
祛痘 / 敏感 / 美白 / 抗衰
产品级覆盖率
—
72% (活性成分)
调用方式
API
API
模型兼容
任意 LLM
任意 LLM
⠇
AI-Ready Data for
Cosmetic Intelligence
⠇
结构化科学数据 · 模型无关 · API 即接即用
巢归研究院 X 九鑫智能