AAAI 2025 Workshop GoodData Submissions

Curating Online Forum Knowledge as Troubleshooting Dataset for Generative AI Using Fusion Retrieval
Youyang kim, Yaoping Ruan, Byungchul Tak
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
Fine-Tuning LLMs with noisy data for political argument generation
Svetlana Churina, Kokil Jaidka
- Published: 13 Dec 2024, Last Modified: 23 Feb 2025
- Good-Data
- Readers: Everyone
Learning from "Silly'' Questions Improves Large Language Models, But Only Slightly
Tingyuan Zhu, Shudong Liu, Yidong Wang, Derek F. Wong, Han Yu, Takahiro Shinozaki, Jindong Wang
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
MWAG: Multi-Season Wide-Area Air Ground Dataset for 3D Scene Reconstruction and Novel View Synthesis
Kshitij Singh Minhas, Qiao Wang, Niluthpol Chowdhury Mithun, Ben Southall, Supun Samarasekera, Rakesh Kumar
- Published: 13 Dec 2024, Last Modified: 26 Feb 2025
- Good-Data
- Readers: Everyone
Measuring and Mitigating Hallucinations in Vision-Language Dataset Generation for Remote Sensing
Madeline Loui Anderson, Miriam Cha, William T. Freeman, J. Taylor Perron, Nathaniel Maidel, Kerri Cahoy
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
Comparing Methods for Bias Mitigation in Graph Neural Networks
Barbara Hoffmann, Ruben Mayer
- Published: 13 Dec 2024, Last Modified: 20 Feb 2025
- Good-Data
- Readers: Everyone
FinGPT: Enhancing Sentiment-Based Stock Movement Prediction with Dissemination-Aware and Context-Enriched LLMs
Yixuan Liang, Yuncong Liu, Boyu Zhang, Christina Dan Wang, Hongyang Yang
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
LinTO Audio and Textual Datasets to Train and Evaluate Automatic Speech Recognition in Tunisian Arabic Dialect
Hedi Naouara, Jean-Pierre Lorré, Jérôme Louradour
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
Beyond QA Pairs: Assessing Parameter-Efficient Fine-Tuning for Fact Embedding in LLMs
Shivam Ratnakar, Abhiroop Talasila, Raghav Chamadiya, Nikhil Agarwal, Vinayak K Doifode
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
Improving Multimodal Data Quality with Unified Filtering Score (UF-Score)
Sangyeon Cho, Mingi Kim, Jinkwon Hwang, Jaehoon Go, Minuk Ma, Junyeong Kim
- Published: 13 Dec 2024, Last Modified: 05 Mar 2025
- Good-Data
- Readers: Everyone
AbsText2Video: Embracing Abstract Annotations to Caption Video Dataset
Fan Xie, Dan Zeng, Qiaomu Shen, Bo Tang
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning
Nirav Diwan, Tolga Ergen, Dongsub Shim, Honglak Lee
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
How Does the Spatial Distribution of Pre-training Data Affect Geospatial Foundation Models?
Mirali Purohit, Gedeon Muhawenayo, Esther Rolf, Hannah Kerner
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
HiRAG: Human-inspired Retrieval-Augmented Generation
Enzo Ruedas, Baptiste Pouthier
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
Quantifying the Ease of Reproducing Training Data in Unconditional Diffusion Models
Masaya Hasegawa, Koji Yasuda
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
AugARC: Augmented Abstraction and Reasoning Benchmark for Large Language Models
Kiril Bikov, Mikel Bober-Irizar, Soumya Banerjee
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
ANYMATCH – Efficient Zero-Shot Entity Matching with a Small Language Model
Zeyu Zhang, Paul Groth, Iacer Calixto, Sebastian Schelter
- Published: 13 Dec 2024, Last Modified: 26 Feb 2025
- Good-Data
- Readers: Everyone
MultiFloodSynth: Multi-Annotated Flood Synthetic Dataset Generation
YoonJe Kang, Jung Yonghoon, Wonseop Shin, Bumsoo Kim, Sanghyun Seo
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
Multilingual Challenges in Automated Evaluators: \\ A Case Study on English and Korean
Guijin Son, Hyunwoo Ko, Hoyoung Lee, Yewon Kim, Seunghyeok Hong
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
Enhancing Dataset Sufficiency for Attributes Through Text-Driven Generative Data Augmentation
Masatoshi Sekine, Daisuke Shimbara, Tomoyuki Myojin, Eri Imatani
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
Tabular out-of-distribution data synthesis for enhancing robustness
Bhagyashree Puranik, Bugra Can, Yi Fan
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
FineWeb-Conv: A Method for Finding Good Conversation Data
Robert J. Moore, Sungeun An, Jay Pankaj Gala, Divyesh Jadav
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
MedHalu: Hallucinations in Responses to Healthcare Queries by Large Language Models
Vibhor Agarwal, Yiqiao Jin, Mohit Chandra, Munmun De Choudhury, Srijan Kumar, Nishanth R. Sastry
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
Scito2M: A 2 Million, 30-Year Cross-disciplinary Dataset for Temporal Scientometric Analysis
Yiqiao Jin, Yijia Xiao, Yiyang Wang, Jindong Wang
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone
Data Selection through Scenario-Balanced Coresets for Trajectory Prediction
Ruining Yang, Lili Su
- Published: 13 Dec 2024, Last Modified: 19 Feb 2025
- Good-Data
- Readers: Everyone