柴 成亮

根据储存在 Pure 的刊物以及来自 Scopus 的引用文献数量计算
20162025

每年的科研成果

个人简介

个人简介

姓名:柴成亮
所在学科:计算机学科与技术
职称:预聘副教授(特别研究员)、博士生导师
联系电话:
E-mail:ccl@dijiaba.com
通信地址:个人信息
柴成亮,北京成人头条计算机学院预聘副教授(特别研究员),博士生导师,CCF优秀博士论文奖获得者。2015年和2020年分别于哈尔滨工业大学与清华大学获得学士和博士学位,2020-2022年于清华大学从事博士后研究。已发表CCF A类论文近40篇,包括SIGMOD、VLDB、ICDE、KDD、TKDE和VLDBJ。获得CCF优秀博士论文奖(全国Top 10)、ACM中国优秀博士论文奖(全国Top 2)、入选福布斯中国30位30岁以下精英榜单、百度奖学金(全球Top10)等奖励。在学术服务方面,担任国际高水平SCI期刊JCST特约编辑; KDD、ICDE、VLDB、AAAI、ICDCS等多个国际顶级会议程序委员会委员;CCF前沿讲习班学术主任;中国数据库专委会执行委员;曾在国际顶级会议SIGMOD 2021、KDD 2018、ICDE 2019做3小时辅导报告。
研究方向1—以数据为中心的人工智能(data-centric AI):在人工智能时代,算法、算力与数据成为不可或缺的三要素。现有研究主要关注机器学习算法,但是数据也是非常重要的。主要研究如何从数据的角度提升模型效果,包括面向人工智能的数据发现、数据清洗、数据融合、数据标注和数据血缘等。
研究方向2—数据湖系统(Data Lake): 在多源异构大数据时代,数据湖由于其能高效地以原始格式存储各种数据而得到广泛应用,其存储的数据能有效支持数据分析与人工智能算法。主要研究如何索引数据湖中数据、如何高效检索数据以支持人工智能以及同时支持数据仓库与数据湖的湖仓一体系统(Lakehouse)。
2023.08更新: 招收2024年直博1人。

研究领域和方向

科研方向
人工智能、数据科学、数据湖、数据库系统

教育背景

个人信息
柴成亮,北京成人头条计算机学院预聘副教授(特别研究员),博士生导师,CCF优秀博士论文奖获得者。2015年和2020年分别于哈尔滨工业大学与清华大学获得学士和博士学位,2020-2022年于清华大学从事博士后研究。已发表CCF A类论文近40篇,包括SIGMOD、VLDB、ICDE、KDD、TKDE和VLDBJ。获得CCF优秀博士论文奖(全国Top 10)、ACM中国优秀博士论文奖(全国Top 2)、入选福布斯中国30位30岁以下精英榜单、百度奖学金(全球Top10)等奖励。在学术服务方面,担任国际高水平SCI期刊JCST特约编辑; KDD、ICDE、VLDB、AAAI、ICDCS等多个国际顶级会议程序委员会委员;CCF前沿讲习班学术主任;中国数据库专委会执行委员;曾在国际顶级会议SIGMOD 2021、KDD 2018、ICDE 2019做3小时辅导报告。
研究方向1—以数据为中心的人工智能(data-centric AI):在人工智能时代,算法、算力与数据成为不可或缺的三要素。现有研究主要关注机器学习算法,但是数据也是非常重要的。主要研究如何从数据的角度提升模型效果,包括面向人工智能的数据发现、数据清洗、数据融合、数据标注和数据血缘等。
研究方向2—数据湖系统(Data Lake): 在多源异构大数据时代,数据湖由于其能高效地以原始格式存储各种数据而得到广泛应用,其存储的数据能有效支持数据分析与人工智能算法。主要研究如何索引数据湖中数据、如何高效检索数据以支持人工智能以及同时支持数据仓库与数据湖的湖仓一体系统(Lakehouse)。
2023.08更新: 招收2024年直博1人。

工作履历

个人信息
柴成亮,北京成人头条计算机学院预聘副教授(特别研究员),博士生导师,CCF优秀博士论文奖获得者。2015年和2020年分别于哈尔滨工业大学与清华大学获得学士和博士学位,2020-2022年于清华大学从事博士后研究。已发表CCF A类论文近40篇,包括SIGMOD、VLDB、ICDE、KDD、TKDE和VLDBJ。获得CCF优秀博士论文奖(全国Top 10)、ACM中国优秀博士论文奖(全国Top 2)、入选福布斯中国30位30岁以下精英榜单、百度奖学金(全球Top10)等奖励。在学术服务方面,担任国际高水平SCI期刊JCST特约编辑; KDD、ICDE、VLDB、AAAI、ICDCS等多个国际顶级会议程序委员会委员;CCF前沿讲习班学术主任;中国数据库专委会执行委员;曾在国际顶级会议SIGMOD 2021、KDD 2018、ICDE 2019做3小时辅导报告。
研究方向1—以数据为中心的人工智能(data-centric AI):在人工智能时代,算法、算力与数据成为不可或缺的三要素。现有研究主要关注机器学习算法,但是数据也是非常重要的。主要研究如何从数据的角度提升模型效果,包括面向人工智能的数据发现、数据清洗、数据融合、数据标注和数据血缘等。
研究方向2—数据湖系统(Data Lake): 在多源异构大数据时代,数据湖由于其能高效地以原始格式存储各种数据而得到广泛应用,其存储的数据能有效支持数据分析与人工智能算法。主要研究如何索引数据湖中数据、如何高效检索数据以支持人工智能以及同时支持数据仓库与数据湖的湖仓一体系统(Lakehouse)。
2023.08更新: 招收2024年直博1人。

研究成果


代表性学术成果
*表示通讯作者
[1] Chengliang Chai, Nan Tang, Ju Fan, Yuyu Luo Demystifying Artificial Intelligence for Data Preparation SIGMOD 2023 (CCF A).
[2] Chengliang Chai, Jiabin Liu, Nan Tang, Guoliang Li Selective Data Acquisition in the Wild for Model Charging VLDB 2022 (CCF A).
[3] Chengliang Chai, Jiayi Wang, Yuyu Luo, Zeping Niu, Guoliang Li Data Management for Machine Learning: A Survey (CCF A).
[4] Chengliang Chai, Guoliang Li, Ju Fan, et al. CrowdChart: Crowdsourced Data Extraction from Visualization Charts TKDE 2021 (CCF A).
[5] Chengliang Chai, Lei Cao, Jian Li, Guoliang Li, Yuyu Luo, Samuel Madden Human-in-the-loop Outlier Detection. SIGMOD 2020 (CCF A).
[6] Chengliang Chai, Ju Fan, Guoliang Li. Incentive-Based Entity Collection Using Crowdsourcing ICDE 2018. (CCF A).
[7] Chengliang Chai, Guoliang Li, Jian Li, et al. A Partial-order-based Framework for Cost-effective Crowdsourced Entity Resolution VLDB Journal, 2018 (CCF A).
[8] Chengliang Chai, Guoliang Li, Jian Li et al. Cost-Effective Crowdsourced Entity Resolution: A Partial-Order Approach SIGMOD 2016. (CCF A).
[9] Chengliang Chai, Guoliang Li, Ju Fan, Yuyu Luo Crowdsourcing Data Extraction from Visualization Chart ICDE, 2020. (CCF A).
[10] Chengliang Chai, Ju Fan, Guoliang Li, Jiannan Wang, Yudian Zheng. Crowdsourcing Database Systems: Overview and Challenges ICDE, 2019. (CCF A).
[11] Jiayi Wang, Chengliang Chai*, Nan Tang, Jiabin Liu, Guoliang Li Coresets over Multiple Tables for Feature-rich and Data-efficient Machine Learning VLDB 2023 (CCF A).
[12] Dynamic Materialized View Management using Graph Neural Network Yue Han, Chengliang Chai*, Jiabin Liu, Guoliang Li, Chuangxian Wei, Chaoqun Zhan ICDE 2023 (CCF A).
[13] Lixi Zhang, Chengliang Chai*, Xuanhe Zhou, Guoliang Li LearnedSQLGen: Constraint-aware SQL Generation using Reinforcement Learning SIGMOD 2022 (CCF A).
[14] Xiang Yu, Chengliang Chai*, Guoliang Li, Jiabin Liu Cost-based or Learning-based? A Hybrid Query Optimizer for Query Plan Selection VLDB 2022 (CCF A).
[15] Jiayi Wang, Chengliang Chai*, Jiabin Liu, Guoliang Li FACE: A Normalizing Flow based Cardinality Estimator VLDB 2022 (CCF A).
[16] Xuedi Qin, Chengliang Chai*, Nan Tang, Jian Li, Yuyu Luo, Guoliang Li, Yaoyu Zhu, Synthesizing Entity Resolution Datasets ICDE 2022 (CCF A).
[17] Jiabin Liu, Chengliang Chai*, Yuyu Luo, Yin Lou, Jianhua Feng, Nan Tang Feature Augmentation with Reinforcement Learning ICDE 2022 (CCF A).
[18] RW-tree: A Learned Workload-aware Framework for R-tree Construction Haowen Dong, Chengliang Chai*, Yuyu Luo, Jiabin Liu, Guoliang Li ICDE 2022 (CCF A).
[19] Xuedi Qin, Chengliang Chai*, Yuyu Luo, Tianyu Zhao, Nan Tang, Guoliang Li, Xiang Yu, Mourad Ouzzani Interactively Discovering and Ranking Desired Tuples by Data Exploration VLDBJ 2021 (CCF A).
[20] Jiabin Liu, Fu Zhu, Chengliang Chai*, Yuyu Luo, Nan Tang Automatic Data Acquisition for Deep Learning VLDB 2021 (CCF A).
[21] Xuedi Qin, Chengliang Chai*, Yuyu Luo, Nan Tang, Guoliang Li Ranking Desired Tuples by Database Exploration ICDE 2021 (CCF A).
[22] Xuanhe Zhou, Chengliang Chai*, Guoliang Li, Ji Sun DB Meets AI: A Survey TKDE 2020 (CCF A).
[23] Yuyu Luo, Xuedi Qin, Chengliang Chai*, Nan Tang, Guoliang Li Steerable Self-driving Data Visualization TKDE, 2020 (CCF A).
[24] Xuanhe Zhou, Chengliang Chai*, Guoliang Li, Ji Sun Database Meets Artificial Intelligence: A Survey. TKDE, 2020. (CCF A).
[25] Yuyu Luo, Chengliang Chai*, Xuedi Qin, Guoliang Li, Nan Tang Interactive Cleaning for Progressive Visualization through Composite Questions ICDE, 2020. (CCF A).
所获奖励
[1] CCF优秀博士论文奖
[2] ACM中国优秀博士论文奖
[3] 福布斯中国30Under30
[4] 博士后创新人才计划 [5] 百度奖学金
[6] 国家电网科学技术进步一等奖
[7] 浙江省科学技术进步二等奖
[8] 之江实验室—国际青年人才优秀成果奖
[9] 清华大学优秀博士后
[10] 清华大学优秀博士毕业生

指纹图谱

深入其中 Chengliang Chai 为活跃的研究主题。这些主题标签来自此人的成果。它们共同形成唯一的指纹。
  • Cost-effective Missing Value Imputation for Data-effective Machine Learning

    Chai, C., Jin, K., Tang, N., Fan, J., Miao, D., Wang, J., Luo, Y., Li, G., Yuan, Y. & Wang, G., 14 5月 2025, 在: ACM Transactions on Database Systems. 50, 3, 10.

    科研成果: 期刊稿件文章同行评审

  • Doctopus: A System for Budget-aware Structural Data Extraction from Unstructured Documents

    Zhong, Y., Deng, Y., Chai, C., Gu, R., Yuan, Y., Wang, G. & Cao, L., 22 6月 2025, SIGMOD-Companion 2025 - Companion of the 2025 International Conference on Management of Data. Deshpande, A., Aboulnaga, A., Salimi, B., Chandramouli, B., Howe, B., Loo, B. T., Glavic, B., Curino, C., Zhe Wang, D., Suciu, D., Abadi, D., Srivastava, D., Wu, E., Nawab, F., Ilyas, I., Naughton, J., Rogers, J., Patel, J., Arulraj, J., Yang, J., Echihabi, K., Ross, K., Daudjee, K., Lakshmanan, L., Garofalakis, M., Riedewald, M., Mokbel, M., Ouzzani, M., Kennedy, O., Kennedy, O., Papotti, P., Alvaro, P., Bailis, P., Miller, R., Roy, S. B., Melnik, S., Idreos, S., Roy, S., Rekatsinas, T., Leis, V., Zhou, W., Gatterbauer, W. & Ives, Z. (编辑). Association for Computing Machinery, 页码 275-278 4 页码 (Proceedings of the ACM SIGMOD International Conference on Management of Data).

    科研成果: 书/报告/会议事项章节会议稿件同行评审

    1 引用 (Scopus)
  • HARNESSING DIVERSITY FOR IMPORTANT DATA SELECTION IN PRETRAINING LARGE LANGUAGE MODELS

    Zhang, C., Zhong, H., Zhang, K., Chai, C., Wang, R., Zhuang, X., Bai, T., Qiu, J., Cao, L., Fan, J., Yuan, Y., Wang, G. & He, C., 2025, 13th International Conference on Learning Representations, ICLR 2025. International Conference on Learning Representations, ICLR, 页码 22941-22964 24 页码 (13th International Conference on Learning Representations, ICLR 2025).

    科研成果: 书/报告/会议事项章节会议稿件同行评审

  • OIE: An Interpretable System for Outlier Explanation and Summarization

    Xu, J., Deng, Y., Chai, C., Li, Z., Wang, Y. & Cao, L., 22 6月 2025, SIGMOD-Companion 2025 - Companion of the 2025 International Conference on Management of Data. Deshpande, A., Aboulnaga, A., Salimi, B., Chandramouli, B., Howe, B., Loo, B. T., Glavic, B., Curino, C., Zhe Wang, D., Suciu, D., Abadi, D., Srivastava, D., Wu, E., Nawab, F., Ilyas, I., Naughton, J., Rogers, J., Patel, J., Arulraj, J., Yang, J., Echihabi, K., Ross, K., Daudjee, K., Lakshmanan, L., Garofalakis, M., Riedewald, M., Mokbel, M., Ouzzani, M., Kennedy, O., Kennedy, O., Papotti, P., Alvaro, P., Bailis, P., Miller, R., Roy, S. B., Melnik, S., Idreos, S., Roy, S., Rekatsinas, T., Leis, V., Zhou, W., Gatterbauer, W. & Ives, Z. (编辑). Association for Computing Machinery, 页码 259-262 4 页码 (Proceedings of the ACM SIGMOD International Conference on Management of Data).

    科研成果: 书/报告/会议事项章节会议稿件同行评审

  • Applications and Challenges for Large Language Models: From Data Management Perspective

    Zhang, M., Ji, Z., Luo, Z., Wu, Y. & Chai, C., 2024, Proceedings - 2024 IEEE 40th International Conference on Data Engineering, ICDE 2024. IEEE Computer Society, 页码 5530-5541 12 页码 (Proceedings - International Conference on Data Engineering).

    科研成果: 书/报告/会议事项章节会议稿件同行评审

    5 引用 (Scopus)