美妆成分知识图谱
× 产品数据库
AI-Ready 数据资产概览
AI-Ready Data for Cosmetic Intelligence

巢归研究院 X 九鑫智能 · 2026
01
通用大模型的美妆盲区

产品事实缺失
问某个产品的成分,模型答不上来或编造。
根因:训练数据中没有完整的中国化妆品备案成分表
成分科学不可靠
说"烟酰胺美白"但无法解释机理链路,也分不清证据强弱。
根因:模型对成分功效的理解来自互联网统计模式,非结构化科学证据
通用大语言模型均存在上述问题
02
两项互补的数据资产

产品数据库
"产品 X 里有什么成分"
事实层 — 消除编造
+
成分知识图谱
"成分 A 通过什么靶点、机理产生什么功效"
科学层 — 消除幻觉
给定任意产品 → 检索完整成分表 → 
查询每个活性成分的科学证据链 → 基于结构化事实生分析
逻辑可溯源,机理可解释
03
产品数据库:规模与结构

数据来源:国家药监局(NMPA)备案系统 — 国产 + 进口四类产品
74万+
产品(去除彩妆)
3.5万
重点企业产品 (2023-2026)
93 / 27000
品牌集团 / 备案实体
product
产品名称、全成分列表 (JSON)、备案号
efficacy
功效宣称、剂型、适用部位
efficacy_type
功效类别明细
efficacy_evaluation
测试方法、评价机构、实验结果
药监局数据公开但未被主流大模型覆盖 — 接上这个库 = 确定性事实,不靠模型编
04
知识图谱:四层因果链

成分
INCI 标准命名
甘草酸二钾
靶点
生物分子 / 通路
透明质酸酶I基因
机理
作用方式
抑制透明质酸酶活性
功效指标
可测量终点
透明质酸酶活性抑制率
为什么是四层而非两层?
"烟酰胺 → 美白"是黑箱;"烟酰胺 → 酪氨酸酶 → 抑制活性 → 黑色素合成速率 ↓"是科学。四层结构让每一步因果关系都可解释、可验证、可溯源。
05
知识图谱:成分覆盖

215
祛痘
259
敏感修护
265
美白
273
抗衰
811
去重后独立有效成分
72% 主流产品活性成分平均覆盖率
实测品牌:润百颜 / 芙清 / 韩束 / 修丽可 / 科颜氏 / 雅诗兰黛 / 兰蔻 / 欧莱雅
06
覆盖率的解释:长尾分布

811 核心高频成分 (38.5%)
长尾低频成分
活性成分名录
2,106 个 (全名录)
811 个 (已收录)
少数高频成分出现在大多数产品中,因此不到 40% 名录即可实现 72% 产品级覆盖
72% 为活性成分覆盖率 — 溶剂、防腐剂、增稠剂、乳化剂等基质成分不纳入计算(不涉及功效机理分析)。继续扩充成分会边际递减,当前覆盖已满足主流产品分析需求。
07
证据质量:不是所有链路都同样可信

示例链路:甘草酸二钾
甘草酸二钾
透明质酸酶I基因
抑制透明质酸酶活性
透明质酸酶活性抑制率
证据强度
strong moderate weak
100 分制评分映射
研究模型
体外 (in vitro)
活体 (in vivo)
临床 (clinical)
浓度 / 剂量
有效浓度范围
来源溯源
可追溯到原始文献 / 专利 / 供应商资料
下游 AI 应用可按证据强度差异化推理,而非等权对待 — 这是区别于通用模型的核心能力
08
API 输出示例:单产品查询

芙清点涂祛痘精华液 — 共返回 10 条链路,展示 4 条
{ "product": "FulQun芙清点涂祛痘精华液", "kg_results": [ { "ingredient": "桃金娘果提取物", "target": "5α-还原酶", "mechanism": "抑制5α-还原酶活性和脂质合成", "endpoint": "油性肌肤外观" }, { "ingredient": "硫磺", "target": "痤疮丙酸杆菌", "mechanism": "杀菌", "endpoint": "粉刺" }, { "ingredient": "甘草酸二钾", "target": "透明质酸酶I基因", "mechanism": "抑制透明质酸酶活性", "endpoint": "透明质酸酶活性抑制率" }, { "ingredient": "马齿苋提取物", "target": "TRPV1", "mechanism": "抑制TRPV1", "endpoint": "痛感" } ] }
覆盖控油、抗菌、抗炎、角质代谢、菌群平衡等多个机理路径
09
API 输出示例:多产品组合

修丽可植萃舒缓修护精华露 + 科颜氏新高保湿屏障修护霜 → merged graph
{ "products": ["修丽可...", "科颜氏..."], "kg_results": [ { "ingredient": "水杨酸", "target": "NF-κB 炎症通路", "mechanism": "抑制 NF-κB 炎症通路", "endpoint": "炎症性颗粒" }, { "ingredient": "神经酰胺 NP", "mechanism": "促进屏障蛋白分化", "endpoint": "角质层含水量" }, { "ingredient": "β-葡聚糖", "mechanism": "调节免疫与炎性反应", "endpoint": "抗炎" } ] }
合并图谱分析
功效互补
不同成分覆盖不同靶点
机理重叠
多成分作用同一靶点 = 协同或冗余
潜在冲突
成分间拮抗关系提示
10
技术架构:Graph RAG

01
实体链接 + 意图识别
从用户查询中精准定位成分 / 功效实体
02
图检索 + 多跳推理
在 KG 中遍历,召回高置信度证据链
03
Prompt Engineering
结构化科学逻辑作为 LLM 核心上下文
04
约束生成
LLM 严格遵循证据链输出
模型无关 — 输出为结构化 JSON,不绑定特定 LLM
接入方可使用任意 LLM(DeepSeek / GPT / Gemini / 豆包 / Qwen等)作为生成层
核心价值:在大模型推理能力基础上实现逻辑可溯源、机理可解释的精准推理
11
应用场景

产品成分分析
产品名 → 全成分 → 科学解读:哪些成分有效、通过什么机理、证据强度如何
多产品方案评估
在用产品组合 → 功效互补 / 重叠分析、潜在冲突提示
产品推荐
用户需求 → 基于科学匹配的产品推荐 + 推荐理由
产品对比
两个竞品 → 成分差异、机理覆盖差异、证据强度对比
成分趋势洞察
品类 x 时间 → 热门成分趋势、配方体系分析、白空间挖掘
内容生成
产品名 → 基于科学事实的测评、种草内容、科普文案
12
数据资产总览

维度 产品数据库 成分知识图谱
回答的问题 产品 X 里有什么成分 成分 A 通过什么靶点 / 机理产生什么功效
数据来源 NMPA 药监局备案 学术文献 / 专利 / 供应商临床资料
数据规模 74万+ 护肤产品 811 活性成分 x 四层因果链
覆盖方向 护肤,彩妆,洗护 祛痘 / 敏感 / 美白 / 抗衰
产品级覆盖率 72% (活性成分)
调用方式 API API
模型兼容 任意 LLM 任意 LLM
AI-Ready Data for
Cosmetic Intelligence

结构化科学数据 · 模型无关 · API 即接即用
巢归研究院 X 九鑫智能